一文读懂：大白话讲清楚什么是分布式计算？

2025-04-16 14:37

了不起的云计算

关注

各位小伙伴儿们大家好。

今天我们来聊聊什么是分布式计算。分布式计算是一种支撑大规模数据处理和高效运算的技术，它不仅广泛应用于云计算、大数据、人工智能等领域，还不断融合微服务、容器化等新技术，展现出强大的生命力和创新力。

所以今天我们就彻底聊聊这个技术，让你一文读懂什么是分布式计算。

▌什么是分布式计算？

20世纪60年代，大型主机自被发明出来以后，凭借其超强的计算和I/O处理能力及在稳定性、安全性方面的卓越表现，在很长一段时间内引领了计算机行业以及商业计算领域的发展。

与此同时，集中式计算机系统架构也成为了主流，而分布式系统由于理论复杂、技术实现困难并未被推广。

然而随着计算机系统逐渐向微型化、网络化发展，传统的集中式处理不仅会导致成本攀升，也存在着较大的单点故障风险。为了规避风险、降低成本，互联网公司把研究方向转向了分布式计算。

在分布式计算中，使用的是多台计算机通过网络相互连接来共同解决一个单一问题。

我们不是依赖于单台计算机的能力，而是将任务分解成多个更小的块，并将它们分配给一个计算机网络，我们将这些计算机称为“节点”。这些节点共享处理工作负载和数据存储，协同工作以完成任务。

当处理大规模问题或数据集时，如果这些问题或数据集对于单台计算机来说过于庞大或复杂，无法处理，这种方法就非常有用。例如，分布式计算系统可以为搜索引擎处理千万亿字节的数据，运行科学研究的模拟，或者为市场分析提供金融模型。

▌分布式计算与并行计算有何不同？

提到分布式计算，往往也会说到并行计算，这两个技术常常被混淆，似乎是可以互换的术语。它们都涉及多个进程朝着单一目标工作，但它们是为不同场景设计的不同方法。

distributed computing vs parallel computing

分布式计算侧重于使用一个网络中的独立机器，这些机器通常在地理上分散，以协作方式解决问题。每台机器作为一个独立的节点，拥有自己的内存和处理能力。节点之间的通信通过网络进行，任务被分配以便可以在不同的机器上运行。

并行计算则通常在一个单一系统内进行。它利用单台计算机中的多个处理器或核心同时执行任务。这些处理器共享相同的内存，并且通常紧密协作以拆分计算任务。

让我们举一个实际的例子，假设我们要对一个庞大的数据集进行排序。

在并行计算中，我们会将数据集拆分成块，同一台机器中的每个处理器将处理一个块。

在分布式计算中，数据集将被拆分并发送到不同的机器，每台机器将独立地对其部分进行排序。然后将排序后的片段合并。

这两种方法都非常有用，但它们适用于不同的任务。并行计算非常适合需要高速计算且通信开销最小的任务，比如在超级计算机上运行模拟。分布式计算更适合于扩展，比如在基于云的系统中或跨全球网络处理数据。

▌分布式计算的优缺点

分布式之所以在当下大行其道，是因为其特点非常适合当前的业务需求。我们先来看下分布式的优点，

优点方面，分布式能够大幅提升性能，通过将大任务分解为小任务并行处理，显著提高了处理效率。另外，分布式计算可以通过添加新的计算节点来提升系统处理能力，而不需要对整个系统架构进行大规模改动。

多台服务器可以提供相同的服务，因此即使部分节点出现故障，其他节点仍可正常运行，确保服务的高可用性。

而且可以通过利用廉价的硬件设备和分布式处理技术，减少了对昂贵高性能单一硬件的需求。

分布式系统可以将多个物理位置上的资源抽象为一个虚拟资源池，用户无需了解资源的实际物理位置。

当然，分布式计算也不是完美无缺的，还是有一些缺点让分布式计算并不是无所不能。

缺点方面，分布式计算的配置复杂，为了确保每个节点的配置一致性，以及各节点之间的通信、协调和同步可能需要大量的维护工作。

另外节点之间频繁的通信和协调会带来额外的网络开销，可能降低系统的整体性能、安全

同时，分布式系统非常复杂，分布式系统的设计、开发、调试和维护比集中式系统复杂得多，故障排查、性能优化和可靠性保障都可能需要更高的技术能力。

▌分布式计算的关键组件

分布式计算依赖于一些基本的构建块：节点、网络和分布式文件系统（DFS）。

components of distributed computing: nodes, network, distributed file system

节点

节点是在分布式系统中执行计算的单个机器。每个节点可以独立运行，处理分配给它的任务，并与其他节点通信以共享结果。在某些情况下，节点可能有专门的角色，比如管理任务或存储数据。

网络

网络是连接不同节点的通信基础设施。它允许它们交换数据和协调任务。根据系统规模的不同，这可能涉及局域网（LAN）或广域网（WAN），用于连接地理上分散的节点。

分布式文件系统（DFS）

分布式文件系统是一种存储解决方案，允许数据跨多个节点访问。一个流行的例子是 Hadoop 分布式文件系统（HDFS），它旨在处理大型数据集，并通过在多个节点上复制数据来提供容错能力。

▌分布式计算的常见架构

好吧，我们已经将工作负载通过网络分配到不同的节点，并且所有节点都可以通过 DFS 访问数据。但谁决定哪个节点做什么呢？

对于这些问题并没有单一的答案，因为分布式计算系统可以以多种方式组织。也就是说，有三种常见的架构：主从架构、对等架构和客户端 - 服务器架构。

主从架构

在主从模型中，一个中心节点（主节点）管理和协调任务，而从节点执行实际的计算。主节点负责将任务分解成更小的块，将它们分配给从节点，并收集结果。

例如，如果你正在运行一个大规模的图像处理任务，主节点将为每个从节点分配特定部分的图像进行处理。一旦任务完成，主节点将收集结果并将它们合并成最终输出。

这种方法简化了任务管理和协调，但有一个严重的缺点：系统存在单点故障，因为它完全依赖于主节点。

对等架构

在对等架构中，所有节点都是平等的，没有中心协调器。每个节点既可以作为客户端也可以作为服务器，共享资源并直接与其他节点通信。

例如，像 BitTorrent 这样的文件共享网络采用对等方法，用户直接从其他对等节点下载和上传文件片段。

这种架构的优点是没有中心故障点，使其具有弹性和可扩展性，但节点之间的协调（例如确保数据一致性）可能更加复杂。

客户端 - 服务器架构

在客户端 - 服务器模型中，一个或多个服务器为多个客户端节点提供资源或服务。客户端向服务器发送请求，服务器处理这些请求并返回结果。这种架构通常用于 Web 应用程序和数据库。

它听起来可能与主从模型类似，服务器扮演主节点的角色，但它们之间有一个区别：服务器通常更被动，不会拆分或委托任务 —— 它只是响应客户端的请求。

在这种模型中，集中管理与控制使得系统维护和更新更加容易，但服务器是一个瓶颈，可能会限制可扩展性。服务器停机也可能破坏整个系统。

这三种架构是分布式系统中最常见的，但你可能还遇到过其他模型（我相信你肯定听说过其它基于云的架构！）。

每种模型都服务于不同的需求，架构的选择对系统性能、容错能力和可扩展性有很大的影响，因此在决定采用哪种方法之前，重要的是要明确你要解决的问题。但好消息是，你不必只选择一种！大多数现代系统，特别是在云计算中，使用这些架构的混合版本，以结合它们的最佳特性。

▌分布式计算的应用场景

分布式计算推动了当今世界上一些最具影响力的应用程序的发展。让我们来看三个常见的用例：搜索引擎、科学研究和金融建模。

use cases of distributed computing

搜索引擎

像百度这样的搜索引擎严重依赖分布式计算来抓取和索引数十亿网页。这些系统不是将任务分配给单台机器，而是将工作负载分配给许多许多节点。

一些节点专注于抓取网页，其他节点处理索引，还有一组节点实时处理用户查询。这种分工确保了快速高效的搜索结果，无论任务规模有多大。

科学研究

在科学研究中，分布式计算通过运行复杂的模拟和分析庞大的数据集来推动突破。例如，气候科学家使用分布式系统来模拟和预测天气模式或模拟全球变暖的影响。

金融建模

金融行业依赖分布式计算来完成诸如风险分析、欺诈检测和市场建模等任务。

处理由全球金融市场产生的庞大数据集需要能够持续运行且速度非常快的系统。分布式计算使金融机构能够以保持其在实时市场中竞争力的速度分析数据、测试模型并生成见解。

▌如何选择分布式计算系统？

setting up a distributed computing system

1. 了解自己的工作负载

在你选择架构之前，你需要定义你要分配的任务是什么。分布式计算通常涉及将一个较大的问题分解成更小的、独立的工作单元，这些单元可以并行处理或分配给节点。

例如，如果你正在处理一个大型数据集，你可能会将数据拆分成可以由不同机器或处理器处理的块。

2. 选择合适基础设施

分布式计算需要一个计算机网络，无论是本地服务器、云实例（如 AWS、Azure 或谷歌云），还是两者的混合。你需要决定如何设置和配置这些机器，确保它们能够连接并相互通信。

基于云的基础设施：像 AWS、谷歌云和 Azure 这样的平台使得启动分布式计算集群变得更加容易，无需管理物理硬件。这些平台通常提供托管服务，如 AWS EC2（用于计算能力）和 S3（用于分布式存储），使得设置可扩展系统变得更加容易。

本地或混合：如果你使用自己的服务器或本地和云资源的混合，你将需要设置网络，配置节点，并确保它们之间可靠通信。

3. 选择合适的分布式文件系统（DFS）

正如我们之前讨论过的，分布式计算中最重要的元素之一是确保所有节点都能访问它们需要的数据。Hadoop 的 HDFS 或其他 DFS 解决方案允许你将大型数据集存储在多个节点上，并通过冗余确保如果一个节点失败，数据不会丢失。

4. 选择框架或工具

一旦你的基础设施就绪，你需要设置你选择的分布式计算工具。每个框架都有自己的安装和配置过程，但这可能涉及：

在每个节点上安装所需的软件，或者使用自动安装和配置工具的云解决方案。

配置集群设置，例如你想要多少个工作节点，资源如何分配，以及如何处理容错。

5. 分配任务

一旦你的环境准备好了，你就可以开始将任务分配到你的节点上。大多数工具将帮助你管理这个过程，通过将工作负载拆分并分配给不同的节点。

你通常需要编写定义如何拆分任务的代码（Hadoop 的 MapReduce 作业、Spark 的转换和操作等），或者使用框架的 API 来处理节点之间的分配和通信。

6. 监控和管理集群

分布式系统可能会变得复杂，跟踪性能、故障和资源使用情况对于确保一切顺利运行至关重要。许多工具提供了内置的仪表板用于监控，但你可能还需要额外的监控解决方案（如 Prometheus 或 Grafana）来跟踪节点健康状况、性能和作业进度。

正如我们刚才看到的，合适的工具可以帮助你设置分布式计算，并在管理分布式环境时承担大部分繁重的工作。让我们更仔细地看看其中一些最受欢迎的工具。

1.Apache Hadoop

Apache Hadoop 是一个开源框架，旨在跨分布式计算机集群处理大量数据。它使用 MapReduce 编程模型，将大型任务分解成更小的、可以并行处理的块。

Hadoop 特别适合处理千万亿字节的数据，并且在可扩展性、容错能力和存储灵活性方面表现出色。它的生态系统包括各种组件，如用于分布式存储的 Hadoop 分布式文件系统（HDFS）和用于批处理的工具，这就是为什么它是许多大数据应用的首选解决方案之一。

基础设施本身的设置可能比较复杂，因为它仍然需要配置节点、管理集群资源并确保容错。

2.Apache Spark

Apache Spark 是一个快速且通用的大规模数据处理引擎。

由于它基于 Hadoop，Spark 可以在现有的 Hadoop 集群上运行，也可以在自己的集群管理器上运行。不过与使用基于磁盘的存储的 Hadoop 不同，Spark 提供内存计算，可以显著加快数据处理速度。

它可以用于广泛的数据处理任务，包括批处理、实时流处理、机器学习和图处理。它支持 Python、Scala 和 Java 等语言，并与 AWS 和 Azure 等云平台集成。

3.Dask

还记得我们谈到的并行计算吗？Dask 是一个 Python 并行计算库，旨在从单台机器扩展到大型分布式集群。

它是处理大型数据集和复杂计算任务的理想选择，因为它与 NumPy、Pandas 和 Scikit-learn 等其他 Python 库集成，并为 Python 用户提供熟悉的环境。

它能够在分布式和本地环境中工作，这意味着你可以在处理小型项目或大规模数据管道时使用它。尽管与 Hadoop 和 Spark 相比，它在分布式计算方面需要一定程度的配置，但其中大部分是自动化的。

▌结论

希望你喜欢学习分布式计算的基础知识！不过，这篇文章只是一个起点。分布式计算领域每年都有无数的工具、框架和技术不断涌现。

如果你想尝试创建分布式系统，我建议注册一个云服务提供商，如AWS或阿里云。它们在注册时都会提供一定的免费额度，你可以免费尝试它们的基础设施并设置小型项目！

原文标题 : 一文读懂：大白话讲清楚什么是分布式计算？

本地收藏打印推荐给朋友

声明： 本文由入驻维科号的作者撰写，观点仅代表作者本人，不代表OFweek立场。如有侵权或其他问题，请联系举报。

发表评论

共0条评论，0人参与

登录登录即可访问所有OFweek服务

用户名/邮箱/手机：
密码：
忘记密码？
用其他账号登录： QQ | 微信 | 新浪微博

请输入评论内容...

请输入评论/评论长度6~500个字

暂无评论

图片新闻