MapR 上的 Kafka 连接

位置:首页>文章>详情   分类: Java教程 > 编程技术   阅读(300)   2023-09-05 13:19:57

在本周的白板演练中,MapR 的高级产品营销经理 Ankur Desai 描述了 Apache Kafka Connect 和 REST API 如何简化和提高处理来自各种数据源(包括遗留数据库或数据仓库)的流数据的敏捷性。他还解释了当您使用 MapR Streams 与 Kafka 进行数据传输时此架构的差异。

额外资源:

  • “使用 Spark 机器学习、流媒体和 Kafka API 监控实时 Uber 数据”博客教程,作者 Carol MacDonald
  • Tugdual Grall 的“MapR Streams 入门”博客教程以及使用 Kafka API 的示例程序
  • Introduction to Apache Flink: Stream Processing for Real Time and Beyond Ellen Friedman 和 Kostas Tzoumas 的书免费在线阅读

这是完整的视频转录:

嗨,我是 Ankur Desai。我在 MapR 的产品团队工作。欢迎来到我的白板演练。今天我将讨论流式架构,以及该架构的新进展如何帮助使该架构更加敏捷和简单。让我们谈谈这一切是如何运作的。

这是一个典型的流式架构。在左侧,您有数据源,例如社交媒体、传感器和各种数据。然后你会使用像 Flume 这样的数据收集器从这些数据源中获取数据,然后 Flume 充当 Kafka 的生产者。另外,请记住您也有遗留数据源,例如数据库和数据仓库。要从这些来源获取数据并将其放入 Kafka,您通常可以使用自定义代码作为 Kafka 的生产者,或者您可以再次使用数据收集器。

一旦数据在 Kafka 中,Kafka 就充当流式架构的消息传递系统。它充当传输层。一旦您的数据在 Kafka 中,Kafka 就可以将数据提供给流处理引擎,例如 Spark Streaming 和 Flink。流处理层用于 ATL、分析、聚合等目的。处理完成后,您可能希望将结果存储在持久层中,以使其可供下游应用程序使用。

让我们谈谈如何让整个架构更灵活、更简单。让我们从 REST API 开始。 REST API,这里就画出来解释一下吧。 REST API 允许任何环境中的任何编程语言使用 SJDP 将数据写入 Kafka。同时,请记住,我们还有经常需要与 Kafka 对话的遗留数据源。社区开发了一个工具集,一个名为 Kafka Connect 的框架。 Kafka Connect 是一组预构建的连接器,可以帮助您将数据从遗留系统导入 Kafka。在这里,您现在可以使用 Kafka Connect 将数据传入和传出 Kafka。结果,整个架构更加简单。

Kafka Connect 提供预构建的连接器,因此您不必每次都编写自定义代码来将数据传入和传出遗留系统。此外,Kafka Connect 不仅充当数据导入工具,还可以将数据从 Kafka 导出到特定目标。此外,让我们谈谈如何将此架构的某些组件融合到一个平台、一个集群、一个系统中。

借助 MapR 融合数据平台,我们将 Kafka 替换为 MapR Streams,后者使用相同的 API。您所有的 Kafka 应用程序也可以在 MapR 上运行。 MapR 融合数据平台将传输处理和持久性所需的所有组件集中在一个平台、一个集群、一个系统中。你在这个红框里看到的一切实际上都在同一个集群的同一个平台上运行。这一切都集中在 MapR 上。这实际上有助于消除不同集群之间的数据移动。因此,我们正在扩展这种敏捷性和简单性的概念,因为现在您不必在不同集群之间移动数据。这减少了延迟,并在架构中引入了以前不可用的简单性。

在这里,您可以了解如何使用 MapR 融合数据平台使您的架构更简单、更敏捷。感谢您的收看。如果您有任何问题,请随时在下方发表评论。

标签2: Java教程
地址:https://www.cundage.com/article/jcg-kafka-connect-mapr.html

相关阅读

Java HashSet 教程展示了如何使用 Java HashSet 集合。 Java哈希集 HashSet 是一个不包含重复元素的集合。此类为基本操作(添加、删除、包含和大小)提供恒定时间性...
SpringApplicationBuilder 教程展示了如何使用 SpringApplicationBuilder 创建一个简单的 Spring Boot 应用程序。 春天 是用于创建企业应...
通道是继 buffers 之后 java.nio 的第二个主要新增内容,我们在之前的教程中已经详细了解了这一点。通道提供与 I/O 服务的直接连接。 通道是一种在字节缓冲区和通道另一端的实体(通...
课程大纲 Elasticsearch 是一个基于 Lucene 的搜索引擎。它提供了一个分布式的、支持多租户的全文搜索引擎,带有 HTTP Web 界面和无模式的 JSON 文档。 Elasti...
解析器是强大的工具,使用 ANTLR 可以编写可用于多种不同语言的各种解析器。 在这个完整的教程中,我们将: 解释基础:什么是解析器,它可以用来做什么 查看如何设置 ANTLR 以便在 Java...
Java 是用于开发各种桌面应用程序、Web 应用程序和移动应用程序的最流行的编程语言之一。以下文章将帮助您快速熟悉 Java 语言,并迈向 API 和云开发等更复杂的概念。 1. Java语言...
Java中的继承是指子类继承或获取父类的所有非私有属性和行为的能力。继承是面向对象编程的四大支柱之一,用于提高层次结构中类之间的代码可重用性。 在本教程中,我们将了解 Java 支持的继承类型,...
Java Message Service 是一种支持正式通信的 API,称为 网络上计算机之间的消息传递。 JMS 为支持 Java 程序的标准消息协议和消息服务提供了一个通用接口。 JMS 提...
Java 项目中的一项常见任务是将日期格式化或解析为字符串,反之亦然。解析日期意味着你有一个代表日期的字符串,例如“2017-08-3”,你想把它转换成一个代表 Java 中日期的对象,例如Ja...
之前,我介绍了spring 3 + hibernate 集成 示例和struts 2 hello world 示例。在本教程中,我将讨论在将 spring 框架与 struts 与 hibern...