如何避免大数据分析项目的失败
4. 建立一个数据湖,不要吝啬带宽
顾名思义,大数据涉及海量数据。在过去,很少有组织能够存储这么多数据,更不用说对数据进行组织和分析了。但是现在,高性能存储技术和大规模并行处理在云端和基于本地系统都得到广泛使用。
然而,存储本身是不够的。您需要一种方法来处理为大数据分析所提供的不同类型的数据。这正是Apache的Hadoop软件的功能,它可以对海量的和不同的数据集进行存储和映射。这种存储库通常被称为数据湖。一个实际的湖泊通常是由多个溪流汇集形成的,它包含许多植物、鱼类和其他动物,而数据湖通常由多个数据源提供数据,并包含许多类型的数据。
但数据湖不应该成为数据的垃圾场。亚利桑那州立大学(Arizona State University)计算机运算研究主任杰伊?埃切斯(Jay Etchings)表示,你需要考虑如何来汇总数据,并以一种有意义的方式来扩展属性。数据可以是完全不同的,但是如何使用像MapReduce和Apache Spark这样的工具对数据进行转换用于分析,这应该使用一个可靠的数据架构来完成。
建立一个数据湖,在这个数据湖中,数据的摄入、索引和标准化是大数据策略精心规划的组成部分。埃切斯说,如果没有清晰的理解和明确的蓝图,大多数数据为主导的项目注定要失败。
同样,拥有足够的带宽是至关重要的,否则,数据不会从不同的数据源移动到数据湖中,并且商业用户也不会很快获得效果。埃切斯说,要实现拥有海量数据资源,不仅需要每秒能够处理数百万I/O(IOPS)的快速磁盘,而且还需要对节点和处理引擎进行互联,可以随时访问数据。
从社交媒体发展趋势到流量路由,速度对于实时分析尤其重要。因此,要在最快的互连环境中创建你的数据湖。
5. 在大数据的方方面面进行安全性设计
计算基础架构组件的高度异质性大大加速了组织从数据中获取有用见解的能力。但也有一个缺点,即系统的管理和安全要复杂得多,埃切斯说。由于涉及海量数据以及大多数大数据分析系统的任务极为重要,未能在保护系统和数据方面采取足够的预防措施,那么这在很大程度上是自找麻烦。
公司所收集、存储、分析和共享的大部分数据都是客户信息,其中一些是个人的和可以识别的信息。如果这些数据落入不法分子之手,结果可想而知:公司会因诉讼而导致金钱损失、可能会受到监管部门的罚款、品牌和声誉受损,以及客户的不满。
您的安全措施应该包括部署基本的企业工具:实用的数据加密、身份和访问管理以及网络安全。但是,您的安全措施还应该包括有关正确访问和使用数据的培训和策略实施。
6. 将数据管理和质量放在首位
确保良好的数据管理和质量应该成为所有大数据分析项目的标志,否则失败的可能性要大得多。
您需要实施控制措施,以确保数据是最新的、准确的并能够及时交付。作为大数据项目的一部分,GoDaddy公司实施了警报功能,如果数据更新失败或超时,则会通知管理人员。此外,GoDaddy公司还对关键指标实施了数据质量检查,当这些指标与期望值不一致时发送警报。
确保数据质量和治理的一个重要内容就是雇佣熟练的数据管理专业人员,包括数据管理主管或其他管理人员来监督这些领域。鉴于这些项目的战略重要性,企业拥有对数据管理、操作、治理和策略的数据所有权是极为必要的。
最新活动更多
-
12月19日立即报名>> 【线下会议】OFweek 2024(第九届)物联网产业大会
-
即日-2025.8.1立即下载>> 《2024智能制造产业高端化、智能化、绿色化发展蓝皮书》
-
精彩回顾立即查看>> 2024先进激光技术博览展
-
精彩回顾立即查看>> 全数会2024中国深圳智能制造与机器人展览会
-
精彩回顾立即查看>> 2024(第五届)全球数字经济产业大会暨展览会
-
精彩回顾立即查看>> 维科杯·OFweek2024中国工业自动化及数字化行业年度评选
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论