大数据和云计算的冲突
最近,IT行业专家在参加相关会议时发现了一个隐藏的主题,那就是虽然很多人将关注的重点转移到基于云计算的架构(混合云)以及所需要的云管理平台,但会议的报告表明,很多人都承认并没有密切关注全球数字数据量的巨大增长。
存储供应商PureStorage公司的演讲报告引用了其他两家供应商的两个数据点:首先,思科公司2017年6月发布的白皮书“Zettabyte时代:趋势与分析”推断了互联网带宽的增长。其次是由希捷公司委托IDC公司进行研究的调查报告“数据时代2025”推测了全球数据增长的趋势。PureStorage公司结合了这两家公司的推断,得出了结论。如下图所示。
PureStorage公司的报告描述了全球数据增长和全球互联网带宽增长之间的冲突
如果这些趋势成为现实,并且有足够的理由认为这些预测是合理的,那么这些趋势将在未来几年对计算和数据格局产生重大影响。并将对云计算的应用产生特别的影响。注意:云计算是真实的,将成为未来IT环境的重要组成部分,但是IT部门认为它是一种灵丹妙药这种简单化的想法,会让人想起当初网络热潮的破灭。而人们知道将会有什么样的结果。
不能回避的问题
无论如何,所有IT都有两个核心要素:数据与数据的逻辑。每个使用大数据的人都知道:要使用大量的数据,首先需要对数据进行处理,而其处理都会产生一个传输瓶颈,并严重影响其性能,并且这种逻辑的任何功能都变成纯粹的理论。
即使有少量的数据,这也可能是因为延迟而发生。例如,企业将其应用程序服务器迁移到云端,同时将数据库服务器保留在本地,这可能在理论上可行,但是当应用程序对数据库与数据库之间的网络延迟敏感时,就根本不起作用。对于少量的数据来说,情况就是如此。这就是为什么许多组织都在尝试调整软件的原因,使其对延迟的敏感度降低,从而能够进入云端。但是,如果数据量很大,则需要将数据处理和数据彼此靠近,否则就无法工作。企业增加对大量并行性的需求来处理这些数据,并获得Hadoop和其他处理大量数据问题的体系结构。
现在,全球的数据量呈指数增长。如果IDC公司的推测成为事实的话,那么在几年的时间里,全世界将存储大约50ZB的数据。另一方面,虽然互联网传输数据的总容量也在增长,但增长速度更为缓慢。在全球数据量增长到50ZB的同一时期,互联网总带宽将达到每年2.5ZB(如果思科的推断成为事实的话)。
从这两个推断(并不是不合理的)中得出的结论是,全球可用的互联网带宽远远不能满足移动大量数据的需求。而且这也忽略了目前大约80%的带宽用于流媒体视频的事实。因此,即使企业已经针对核心应用程序中的延迟问题编写了代码,对于数据量较大的情况,也会出现带宽问题。
现在这个隐患实际上成为了一个问题吗?如果处理或使用这些数据在本地部署的数据中心发生的话,也就是说在同一个数据中心中存储数据。但是,一方面,数据量呈指数增长,另一方面,全球各行业也在积极寻求云战略,就是把将所有类型的工作负载都迁移到云端,即使是“无服务器”(例如,AWS Lambda),这样的做法也是绝对极端的。
假设只有小规模的结果(从庞大的数据集中计算出来)也许会有所帮助,因为大量数据的实际价值来自它们的结合。这可能意味着将来自不同所有者的数据(例如企业的客户记录与来自Twitter的数据)结合起来。而这所有不同的集合将会成为一个难题。
所以,人们看到的是两个相反的事态发展。一方面,人们都忙于适应基于云的体系结构,这种体系结构最终是基于分布式数据的分布式处理。另一方面,人们使用的数据量越来越大,必须将数据和处理整合到一个物理位置。
最新活动更多
-
12月19日立即报名>> 【线下会议】OFweek 2024(第九届)物联网产业大会
-
即日-2025.8.1立即下载>> 《2024智能制造产业高端化、智能化、绿色化发展蓝皮书》
-
精彩回顾立即查看>> 2024先进激光技术博览展
-
精彩回顾立即查看>> 全数会2024中国深圳智能制造与机器人展览会
-
精彩回顾立即查看>> 2024(第五届)全球数字经济产业大会暨展览会
-
精彩回顾立即查看>> 维科杯·OFweek2024中国工业自动化及数字化行业年度评选
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论