将数据迁移到云：回到未来？

2018-06-20 14:44

如果你深入了解了要迁移到云的数据以及用来管理数据的云原生目录的就绪情况，你就有把握加快迁移速度。

我在最近的“赌场之夜”活动中，在21点上押上了所有筹码，并在最后一手牌大获全胜。同事对我的勇气大加赞赏，我还赢得了奖励（我们不是为了钱而赌博），他们问我为什么冒险下注，我回答说：“没有什么危险的。”

规划云迁移的大型企业也是如此。按需容量，低成本存储以及丰富的开源和商业工具生态系统的前景十分激动人心。但是风险是真实存在的，特别是在数据迁移方面。数百家公司现在已经证明，单一数据泄露可能会造成长期的经济，法律和品牌上的损失。除了数据保护之外，仅仅管理云中的数据是不同的，如果做法不当，成本，复杂性和风险会使一切毁于一旦。

将数据仓库或数据湖泊简单地“提升并转移”到云中将不会产生成本节省来证明这其中付出的合理性。对总拥有成本（TCO）和规模都有显著影响的云技术是低成本的对象存储（例如Amazon S3，ADLS）和弹性数据处理（EMR，Spark）。事实上，利用这些措施来建立一个弹性的（而不是固定的）数据管理云环境，这可以将总拥有成本降低85％之多。

管理云中的数据需要多少成本？

需要注意的是，降低数据存储成本的技术提供的数据管理功能要少得多。Hadoop比Teradata便宜很多，但它不提供成熟的RDBMS（Relational Database Management System，关系数据库管理系统）所具备的数据完整性控制、负载平衡和自动化。同样，S3比Hadoop数据节点上的存储更便宜，但它只是一个文件系统。没有表，字段或数据类型。如果你要在S3上查询或处理数据，你需要使用商业或开源工具（例如AWS Glue、EMR）或编写自定义程序。为了管理和更新S3中的数据，你需要一个数据管理工具（Redshift、Snowflake、Podium）。数据保护仅限于加密文件——当你想要分析在某些字段中具有PII的数据集时，数据保护功能不是很有用。尽管对象存储可扩展，价格低廉且灵活，但它使数据管理倒退了几十年。

与很多不成熟的技术一样，对象存储的局限性也被鼓吹为功能特性。它们“允许”程序员处理任意大小，形状或质量的数据，并解释其结构和内容。这种“读取模式（schema on read）”方法适于处理非结构化数据或频繁更改结构的数据。但它妨碍了自动化、标准化和规模化，这对于协作和重用来说至关重要，因为数据的含义隐藏在代码中。这听起来是不是很熟悉？是的。关系数据库的口号就是要使数据的结构和含义成为声明式的，而不是嵌入在COBOL重定义中（你可以去查）。

根据目录优先策略建立的纽带

高度结构化的数据库和“为所欲为”的对象存储之间的纽带是数据目录。目录是一个共享数据库，为对象库中的数据提供结构和含义。Hadoop目录包括HIVE、Atlas和Navigator，它们定义了HDFS文件如何构成表和字段。通过API，程序可以查询目录来查找逻辑数据对象的结构，其技术和业务属性，访问权限以及数据文件的位置。然后这些程序可以将洞察和结果推回到目录中以丰富它。

但是，很多云目录都是被动的——它们扫描文件和日志，在数据得到处理后推断数据的结构和使用。然而，数据管理必须是主动的，以确保敏感数据不会暴露，重要的数据标准得到了遵守，图谋不轨者不会实施不牢靠的计划。所有云迁移都应采用以目录为中心的策略：

所有共享和敏感数据都在一个通用目录中注册

所有程序都将通过目录访问数据并记录其活动

这使得公司可以提供支持各种快速发展的技术的基本数据管理。S3上的数据湖泊可以支持Hadoop处理、自定义PySpark代码、R分析，Amazon Glue等，同时维护（并丰富）共享数据资产。此外，人们还可以制定一个如何存储，更新和检查数据质量的标准，从而实现这些任务的自动化。

目录还支持弹性，这对云经济至关重要。目录可以在一台服务器上全天候提供使用，它支持业务用户购买数据，开发人员设计新数据产品，管理员检查质量并添加业务定义。只有数据处理任务（如数据加载、刷新、准备和分析）需要并行处理能力。关系数据库和Hadoop习惯上将存储，处理和目录结合在一个固定的系统中，随着数据的增长，成本会全线上升。在新的世界里，目录又是处理能力和廉价存储之间的桥梁。大量的数据可以通过目录进行合理管理，并且可以控制处理成本。实际上，如果目录具有分析统计信息（例如基数、最小值、最大值），那么它就可以优化数据的处理。

以目录为中心的另一个好处是可移植性。云供应商迫切希望你注册他们的集成的专有工具。这就是他们的策略——一旦他们的应用程序中拥有你的数据和代码，他们就掌握了你。目录为你提供了选择——我们确实在一个周末将一个客户从一家云供应商迁移到另一家供应商，因为另一家供应商是由目录驱动并自动化的。

在防火墙后面，目录优先策略是最好的，它使你对以目录为中心的战略做好准备。自动编目工具可以使你在几周内洞悉所有的数据资产（关系型、大型机、Hadoop、文件），并为你提供迁移剧本（playbook）。

我们应该迁移什么资源？

GDPR和PII数据在哪里？

我们应该将哪些重复的和相关的数据合理化？

什么是各个字段的配置文件，内容和质量？

人们的目标就是通过可验证的审计跟踪（audit trail）来创建云就绪（cloud－ready）数据，以证明其来源、血缘和质量。此外，目录通过对广泛用户群体的安全，自助访问为敏捷性和扩展性提供了基础。如果你深入了解了要迁移到云的数据以及用来管理数据的云原生目录的就绪情况，你就有把握加快迁移速度。