订阅
纠错
加入自媒体

腾讯云帮助中国银行上线数据湖平台……等等,什么是「数据湖」?

3月31日的消息——中国银行「UDP-Dlake」数据湖平台近期正式投产上线了。

据悉,这个「UDP-Dlake」数据湖平台,是基于腾讯云的大数据套件TBDS建设的,帮助中国银行首次实现了全行数据资产汇集一处,能够「为中国银行统一数据分析层、展现层、数据沙箱等探索提供平台支撑」,也「为沉淀和深度挖掘全行数据资产打下了坚实技术基础」。

这里有两个较为关键的元素——腾讯云的大数据套件TBDS,以及「数据湖」平台。大数据套件我们以后再研究,今天先来认识认识「数据湖」。

什么是「数据湖」平台?

腾讯云官网资料显示,「数据湖」就是英语Data Lake的直译,它是由Pentaho公司CTO James Dixon所提出的一种数据存储理念——在系统或存储库中,以自然格式存储数据的方法。数据湖作为一个集中的存储库,可以在其中存储任意规模的结构化和非结构化数据。在数据湖中,可以存储不需要对其进行结构化的数据,这样就可以运行不同类型的分析。

作为腾讯云竞品的华为云,也给出了一个版本的数据湖定义:它是指「以自然格式存储数据的系统或存储库,通常是对象块或文件」。数据湖通常是对所有企业数据进行统一存储,包含原始数据和用于报告、可视化、分析和机器学习等各种任务的转换数据。「湖」中的数据包括来自关系数据库的结构化数据、半结构化数据、非结构化数据和二进制数据,从而形成一个集中式数据存储容纳所有形式的数据。

云服务领域的全球领头羊AWS,它给出的定义则是:数据湖是一个集中式存储库,允许用户以任意规模存储所有结构化和非结构化数据。用户可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析——从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。

再来看看维基百科:数据湖是指「使用大型二进制对象或文件这样的自然格式储存数据的系统」。它通常把所有的企业数据统一存储,既包括源系统中的原始副本,也包括转换后的数据,比如那些用于报表, 可视化, 数据分析和机器学习的数据。数据湖可以包括关系数据库的结构化数据(行与列)、半结构化的数据(CSV、日志、XML、JSON),非结构化数据(电子邮件、文件、PDF)和二进制数据(图像、音频、视频)。

声明: 本网站所刊载信息,不代表OFweek观点。刊用本站稿件,务经书面授权。未经授权禁止转载、摘编、复制、翻译及建立镜像,违者将依法追究法律责任。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

    云计算 猎头职位 更多
    文章纠错
    x
    *文字标题:
    *纠错内容:
    联系邮箱:
    *验 证 码:

    粤公网安备 44030502002758号