当前位置:

OFweek云计算网

云资讯

正文

“凭空”多出80%的磁盘空间、减少80%的带宽占用,心动么?

导读: 在数字化转型的背景下,数据量正呈现出爆炸式增长的态势。而传统数据压缩架构存在计算资源需求高,CPU的负载率高,压缩任务吞吐量不足等问题,浪潮FPGA方案对GZip算法进行了专门的开发和优化,压缩率能够达到94.8%,压缩速度达到1.6GB/s,十倍于传统方法的计算效率。

在数字化转型的背景下,数据量正呈现出爆炸式增长的态势。而传统数据压缩架构存在计算资源需求高,CPU的负载率高,压缩任务吞吐量不足等问题,浪潮FPGA方案对GZip算法进行了专门的开发和优化,压缩率能够达到94.8%,压缩速度达到1.6GB/s,十倍于传统方法的计算效率。

浪潮FPGA方案,节省80%磁盘空间和网络流量

举个现实的例子,我们每年最大的“剁手节”——双十一当天所产生的交易日志就达到了PB级别,而这仅仅是1天、1个网站搜索产生的数据。

那这些数据对于数据中心而言意味着什么?1天内不仅多了至少1PB的数据需要存储,并且又有至少1PB网络流量被占用。按照1块盘8TB的容量来算,需要124块硬盘,按照1台服务器12块盘来算,需要至少12台服务器来存储这些日志。同时,在双十一后,这些数据仍需要被存储一段时间用于后续的大数据分析,这期间日志文件会被各个计算机群频繁的访问读取,不仅长期占用大量存储空间,也会加重数据中心内外部网络负担。

数据量爆发式增长

那么有没有什么方法压缩这些数据?类似我们在电脑上用WinRAR或者其他压缩工具把文件压缩为zip、rar,数据中心的海量数据是否也能被压缩。

数据压缩,用计算能力换取更多存储空间

目前,业界常用的压缩算法有基于UNIX系统的文件压缩GZip、高储存密度的计算机文件压缩Zip、无损压缩软件BZIP2等,其中GZip由于具有较好的压缩比、压缩效率和平台通用性,因此被广泛的应用。

GZip文件压缩

但传统的压缩程序基于CPU,会存在一些问题。比如,压缩任务所需要的计算资源较高,在进行大文件或者多文件压缩任务时,会导致CPU的负载率高,影响其他任务的正常运转。另外,如果压缩任务请求频繁,比如网站文件的GZip压缩,网站的同时访问人数就基本等同于压缩任务数,这时候CPU的单核性能高但并行能力弱的特性会导致压缩任务吞吐量不足。

因此,针对数据中心海量数据压缩,用计算能力换取更多存储空间是必然趋势。比如数据文件中存在很多重复出现的字符串,如果用更短的符号代替,就能达到缩短字符串的目的。例如,有个文本中大量使用“整机柜服务器”这个词,我们用"整机柜"代替,就缩短了3个字符,如果用"整"代替,就缩短了5个字符。事实上,只要保证对应关系,可以用任意字符代替那些重复出现的字符串。并且这一过程是无损的、可逆的。

1  2  下一页>  
声明: 本文系OFweek根据授权转载自其它媒体,转载目的在于信息传递,并不代表本站赞同其观点和对其真实性负责,如有新闻稿件和图片作品的内容、版权以及其它问题的,请联系我们。

我来说两句

(共0条评论,0人参与)

请输入评论

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

文章纠错
x
*文字标题:
*纠错内容:
联系邮箱:
*验 证 码: