在本周的白板演练中,MapR 的高级产品营销经理 Ankur Desai 描述了 Apache Kafka Connect 和 REST API 如何简化和提高处理来自各种数据源(包括遗留数据库或数据仓库)的流数据的敏捷性。他还解释了当您使用 MapR Streams 与 Kafka 进行数据传输时此架构的差异。
额外资源:
这是完整的视频转录:
嗨,我是 Ankur Desai。我在 MapR 的产品团队工作。欢迎来到我的白板演练。今天我将讨论流式架构,以及该架构的新进展如何帮助使该架构更加敏捷和简单。让我们谈谈这一切是如何运作的。
这是一个典型的流式架构。在左侧,您有数据源,例如社交媒体、传感器和各种数据。然后你会使用像 Flume 这样的数据收集器从这些数据源中获取数据,然后 Flume 充当 Kafka 的生产者。另外,请记住您也有遗留数据源,例如数据库和数据仓库。要从这些来源获取数据并将其放入 Kafka,您通常可以使用自定义代码作为 Kafka 的生产者,或者您可以再次使用数据收集器。
一旦数据在 Kafka 中,Kafka 就充当流式架构的消息传递系统。它充当传输层。一旦您的数据在 Kafka 中,Kafka 就可以将数据提供给流处理引擎,例如 Spark Streaming 和 Flink。流处理层用于 ATL、分析、聚合等目的。处理完成后,您可能希望将结果存储在持久层中,以使其可供下游应用程序使用。
让我们谈谈如何让整个架构更灵活、更简单。让我们从 REST API 开始。 REST API,这里就画出来解释一下吧。 REST API 允许任何环境中的任何编程语言使用 SJDP 将数据写入 Kafka。同时,请记住,我们还有经常需要与 Kafka 对话的遗留数据源。社区开发了一个工具集,一个名为 Kafka Connect 的框架。 Kafka Connect 是一组预构建的连接器,可以帮助您将数据从遗留系统导入 Kafka。在这里,您现在可以使用 Kafka Connect 将数据传入和传出 Kafka。结果,整个架构更加简单。
Kafka Connect 提供预构建的连接器,因此您不必每次都编写自定义代码来将数据传入和传出遗留系统。此外,Kafka Connect 不仅充当数据导入工具,还可以将数据从 Kafka 导出到特定目标。此外,让我们谈谈如何将此架构的某些组件融合到一个平台、一个集群、一个系统中。
借助 MapR 融合数据平台,我们将 Kafka 替换为 MapR Streams,后者使用相同的 API。您所有的 Kafka 应用程序也可以在 MapR 上运行。 MapR 融合数据平台将传输处理和持久性所需的所有组件集中在一个平台、一个集群、一个系统中。你在这个红框里看到的一切实际上都在同一个集群的同一个平台上运行。这一切都集中在 MapR 上。这实际上有助于消除不同集群之间的数据移动。因此,我们正在扩展这种敏捷性和简单性的概念,因为现在您不必在不同集群之间移动数据。这减少了延迟,并在架构中引入了以前不可用的简单性。
在这里,您可以了解如何使用 MapR 融合数据平台使您的架构更简单、更敏捷。感谢您的收看。如果您有任何问题,请随时在下方发表评论。
标签2: Java教程地址:https://www.cundage.com/article/jcg-kafka-connect-mapr.html