腾讯云帮助中国银行上线数据湖平台……等等,什么是「数据湖」?
3月31日的消息——中国银行「UDP-Dlake」数据湖平台近期正式投产上线了。
据悉,这个「UDP-Dlake」数据湖平台,是基于腾讯云的大数据套件TBDS建设的,帮助中国银行首次实现了全行数据资产汇集一处,能够「为中国银行统一数据分析层、展现层、数据沙箱等探索提供平台支撑」,也「为沉淀和深度挖掘全行数据资产打下了坚实技术基础」。
这里有两个较为关键的元素——腾讯云的大数据套件TBDS,以及「数据湖」平台。大数据套件我们以后再研究,今天先来认识认识「数据湖」。
什么是「数据湖」平台?
据腾讯云官网资料显示,「数据湖」就是英语Data Lake的直译,它是由Pentaho公司CTO James Dixon所提出的一种数据存储理念——在系统或存储库中,以自然格式存储数据的方法。数据湖作为一个集中的存储库,可以在其中存储任意规模的结构化和非结构化数据。在数据湖中,可以存储不需要对其进行结构化的数据,这样就可以运行不同类型的分析。
作为腾讯云竞品的华为云,也给出了一个版本的数据湖定义:它是指「以自然格式存储数据的系统或存储库,通常是对象块或文件」。数据湖通常是对所有企业数据进行统一存储,包含原始数据和用于报告、可视化、分析和机器学习等各种任务的转换数据。「湖」中的数据包括来自关系数据库的结构化数据、半结构化数据、非结构化数据和二进制数据,从而形成一个集中式数据存储容纳所有形式的数据。
而云服务领域的全球领头羊AWS,它给出的定义则是:数据湖是一个集中式存储库,允许用户以任意规模存储所有结构化和非结构化数据。用户可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析——从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。
再来看看维基百科:数据湖是指「使用大型二进制对象或文件这样的自然格式储存数据的系统」。它通常把所有的企业数据统一存储,既包括源系统中的原始副本,也包括转换后的数据,比如那些用于报表, 可视化, 数据分析和机器学习的数据。数据湖可以包括关系数据库的结构化数据(行与列)、半结构化的数据(CSV、日志、XML、JSON),非结构化数据(电子邮件、文件、PDF)和二进制数据(图像、音频、视频)。
最新活动更多
-
12月19日立即报名>> 【线下会议】OFweek 2024(第九届)物联网产业大会
-
即日-2025.8.1立即下载>> 《2024智能制造产业高端化、智能化、绿色化发展蓝皮书》
-
精彩回顾立即查看>> 2024先进激光技术博览展
-
精彩回顾立即查看>> 全数会2024中国深圳智能制造与机器人展览会
-
精彩回顾立即查看>> 2024(第五届)全球数字经济产业大会暨展览会
-
精彩回顾立即查看>> 维科杯·OFweek2024中国工业自动化及数字化行业年度评选
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论