首页 > 其他分享 >基于go语言的声明式流式ETL,高性能和弹性流处理器

基于go语言的声明式流式ETL,高性能和弹性流处理器

时间:2022-12-27 13:56:14浏览次数:66  
标签:配置文件 可以 流式 ETL benthos 使用 go 安装 Benthos

简要介绍Benthos,并给出若干示例,指导如何安装和运行。

Benthos


Benthos 是一个开源的、高性能和弹性的数据流处理器,能够以各种代理模式连接各种源和汇,可以帮助用户在不同的消息流之间进行路由,转换和聚合数据,并对有效载荷执行水合、富集、转换和过滤。

它使用 Go 语言编写,并且可以通过配置文件进行配置,使得它可以轻松地集成到各种系统中。它带有强大的映射语言,易于部署和监控,并可以作为静态二进制文件、docker 映像或无服务器函数放入管道中,使其成为云原生的。

Benthos 的功能包括:

  • 从多种消息流输入数据,包括 HTTP,Kafka,AMQP 等
  • 将数据转换为各种格式,包括 JSON,XML,CSV 等
  • 将数据聚合为单个消息
  • 将数据路由到多个输出流,包括 HTTP,Kafka,AMQP 等

Benthos 的主要优点在于它可以轻松集成到现有的系统中,并且可以使用配置文件进行定制。这使得它非常适合用于数据流处理和转换的场景。

如果你想了解更多关于 Benthos 的信息,可以访问它的官方文档:https://www.benthos.dev/docs/getting_started/overview

完全声明性

Benthos 是完全声明性的,在单个配置文件中定义了流管道,允许您指定连接器和处理阶段列表:

input:
  kafka:
    brokers:
      - localhost:9092
    topics:
      - my_topic

pipeline:
  processors:
    - json:
        target: payload

output:
  http:
    url: http://localhost:8080/

Benthos 还提供了许多其他功能,例如:

  • 支持多种消息流协议,包括 HTTP,Kafka,AMQP 等
  • 支持许多不同的数据格式,包括 JSON,XML,CSV 等
  • 支持许多不同的聚合器,包括按时间聚合,按字段聚合等
  • 支持自定义转换器,可以使用 Go 代码编写转换器

交货保证

Benthos 提供了交货保证功能,可以帮助用户确保数据不会丢失。Benthos 通过背压实现基于事务的弹性。当连接到至少一次源和接收器时,它保证至少一次传递,而无需在传输过程中保留消息。

交货保证可以通过在 Benthos 的配置文件中设置以下选项来实现:

  • batch: 在批量模式下工作。在批量模式下,Benthos 将等待一定数量的消息到达后再将这些消息发送到输出流。这可以帮助确保消息不会丢失,因为 Benthos 会在输出流失败时缓存消息。

  • buffer: 在缓冲模式下工作。在缓冲模式下,Benthos 会将消息缓存在内存中,直到可以将其发送到输出流。这可以帮助确保消息不会丢失,因为 Benthos 会在输出流失败时缓存消息。

  • queue: 在队列模式下工作。在队列模式下,Benthos 会将消息放入一个持久化队列中,直到可以将其发送到输出流。这可以帮助确保消息不会丢失,因为即使 Benthos 关闭,消息也会保留在队列中。

这些选项可以结合使用,例如,你可以使用缓冲模式和队列模式来确保消息不会丢失:

input:
  kafka:
    brokers:
      - localhost:9092
    topics:
      - my_topic

pipeline:
  buffer:
    count: 100
    period: 1s

output:
  file:
    path: /tmp/messages
    delivery_guarantee: at_least_once
  queue:
    type: file
    file:
      path: /tmp/queue
      delivery_guarantee: at_least_once

在这个配置文件中,Benthos 会从 Kafka 中读取消息,然后将消息缓存在内存中。每当 Benthos 收到 100 条消息或者超过 1 秒钟后,它会将消息发送到两个输出流:文件输出流和文件队列输出流。

对于文件输出流,Benthos 会在输出流失败时缓存消息。对于文件队列输出流,Benthos 会将消息放入一个持久化队列中,直到可以将其发送到文件输出流。这样,即使 Benthos 关闭,消息也会保留在队列中。

通过使用缓冲模式和队列模式,你可以确保消息不会丢失,并在输出流失败时缓存消息。你也可以根据你的需要自定义配置文件,以便更好地管理数据流并确保数据不会丢失。

在这个文档中,你可以找到有关交货保证的概述,以及如何在 Benthos 中使用交货保证的详细信息。你还可以了解有关 Benthos 中的交货保证级别(如至少一次、最多一次和严格一次)的信息:
https://benthos.dev/docs/guides/delivery_guarantee

去重

Benthos 的交货保证功能可以帮助用户确保数据不会丢失,但是也要注意,它并不能保证数据不会被重复发送。如果你希望避免重复发送,可以使用 Benthos 的去重功能。

去重功能可以通过在 Benthos 的配置文件中添加以下选项来实现:

pipeline:
  processors:
    - dedupe:
        field: my_field
        cache_size: 1000

在上面的配置中,Benthos 会将数据流中的每条消息的 my_field 字段的值作为唯一标识符,并将这些标识符存储在缓存中。如果 Benthos 收到的消息的 my_field 字段的值在缓存中已经存在,则 Benthos 会丢弃这条消息。

你也可以使用以下选项来自定义去重功能的行为:

  • field: 指定用于去重的字段。
  • cache_size: 指定缓存的大小。
  • ttl: 指定缓存中条目的生存期。

通过使用 Benthos 的交货保证和去重功能,你可以更方便地管理数据流,并确保数据不会丢失或重复发送。

在这个文档中,你可以找到有关去重处理器的概述,以及如何在 Benthos 中使用去重处理器的详细信息。你还可以了解有关去重处理器的配置选项,包括如何指定去重窗口大小、如何通过使用键提取器来定义要去重的消息和如何通过使用消息分组来控制去重处理器的行为:
https://benthos.dev/docs/components/processors/dedup

支持自定义转换器

Benthos 提供了很多功能,可以帮助用户更方便地处理数据流。其中一个功能是支持自定义转换器。

自定义转换器允许用户使用 Go 代码编写转换器,以便在 Benthos 的数据流管道中进行转换。这使得用户可以使用 Benthos 的配置文件来定义一个自定义转换器,并将其指向 Go 代码文件。

例如,假设你有一个 Go 代码文件,其中包含了一个转换器函数,可以将输入数据转换为大写:

package main

import (
	"github.com/Jeffail/benthos/v3/lib/processor"
	"github.com/Jeffail/benthos/v3/lib/types"
	"strings"
)

func main() {}

func ToUpper(input *types.Message) (*types.Message, error) {
	input.Iter(func(i int, p types.Part) error {
		p.Set(strings.ToUpper(p.Get()))
		return nil
	})
	return input, nil
}

你可以使用以下配置文件来将这个转换器包含到 Benthos 的数据流管道中:

input:
  kafka:
    brokers:
      - localhost:9092
    topics:
      - my_topic

pipeline:
  processors:
    - custom:
        path: /path/to/my/converter.go
        function: ToUpper

output:
  http:
    url: http://localhost:8080/

这样,当 Benthos 从 Kafka 中读取数据时,它会使用函数转换器插件将消息转换为大写。函数转换器插件会读取 Go 代码文件 /path/to/my_converter.go,并将数据传递给自定义转换器函数 ToUpper,该函数会将输入数据转换为大写。

你可以在 Benthos 的文档中了解有关函数转换器插件的更多信息:https://benthos.dev/docs/components/processors/function

安装


Benthos 是一个开源的数据流管理工具,可以在 Linux、macOS 和 Windows 系统上运行。要安装 Benthos,你可以使用以下方法之一:

  • 使用包管理器安装:Benthos 提供了在许多平台上使用包管理器安装的选项。例如,你可以在 Ubuntu 系统上使用 apt 安装 Benthos,或者在 CentOS 系统上使用 yum 安装 Benthos。
# 在 Ubuntu 系统上使用 apt 安装 Benthos:
sudo apt update
sudo apt install benthos

# 在 CentOS 系统上使用 yum 安装 Benthos: 
sudo yum update
sudo yum install benthos
  • 使用二进制文件安装:Benthos 提供了预编译的二进制文件,可以在任何支持的平台上使用这些文件安装 Benthos。
curl -Lsf https://sh.benthos.dev | bash
  • 使用源代码安装:如果你想从 Benthos 的源代码安装,你可以从 GitHub 上下载 Benthos 的源代码,然后在本地编译它。
# 1. 从 GitHub 上下载 Benthos 的源代码
git clone https://github.com/Jeffail/benthos.git
cd benthos

# 2. 安装 Benthos 所需的依赖项:
make deps

# 3. 编译 Benthos:
make build

# 4. 安装 Benthos:
make install
  • 使用 Docker 安装:Benthos 提供了一个 Docker 镜像,你可以使用 Docker 安装 Benthos。这是一种快速、简单的安装方法,适用于在各种平台上使用 Benthos 的场景。
# 1. 从 Docker Hub 上下载 Benthos 的镜像:
docker pull jeffail/benthos:latest

# 2. 运行 Benthos 容器:
docker run -d --name benthos jeffail/benthos:latest
  • 使用 Helm 安装:如果你使用 Kubernetes 管理应用程序,你可以使用 Helm 安装 Benthos。Helm 是一个用于在 Kubernetes 中部署应用程序的工具,可以让你快速、简单地将 Benthos 部署到 Kubernetes 集群中。
# 1. 安装 Helm(如果你的系统上尚未安装 Helm)。
# 2. 为 Benthos 创建一个新的 Helm 配置文件,例如 benthos-values.yaml。
# 3. 在 Helm 配置文件中指定 Benthos 的配置选项(包括输入、输出和处理器的配置)。
# 4. 在 Kubernetes 集群中部署 Benthos:
helm install benthos . -f benthos-values.yaml

运行


运行 Benthos 有许多方法,具体取决于你如何安装 Benthos。

二进制文件或源代码

如果你使用二进制文件或源代码安装 Benthos,你可以使用以下方法之一运行 Benthos:

  • 在命令行中运行 Benthos:

在安装 Benthos 后,你可以在命令行中使用 benthos 命令运行 Benthos。例如,你可以运行以下命令:

benthos -c /path/to/config.yaml

在这个命令中,/path/to/config.yaml 是 Benthos 的配置文件的路径。你可以在 Benthos 的文档中了解有关配置文件的更多信息:https://benthos.dev/docs/configuration

  • 在后台运行 Benthos:
    如果你希望 Benthos 在后台运行,你可以使用 benthos -d 命令启动 Benthos。例如:
benthos -d -c /path/to/config.yaml

这样,Benthos 就会在后台运行,你就可以继续使用命令行进行其他操作了。你也可以使用 benthos -h 命令查看有关 Benthos 命令行选项的更多信息。

Docker

如果你使用 Docker 安装 Benthos,你可以使用以下方法之一运行 Benthos:

  • 在命令行中运行 Benthos:
    你可以使用 docker run 命令在命令行中运行 Benthos。例如,你可以运行以下命令:
docker run -d --name benthos jeffail/benthos:latest -c /path/to/config.yaml
  • 使用 Docker Compose 运行 Benthos:
    如果你使用 Docker Compose 运行 Benthos,你可以在 docker-compose.yml 文件中指定 Benthos 的配置选项。例如,你可以在 docker-compose.yml 文件中指定 Benthos 的输入、输出和处理器,然后使用 docker-compose up 命令启动 Benthos。

例如,你可以在 docker-compose.yml 文件中使用以下内容启动 Benthos:

version: "3"

services:
  benthos:
    image: jeffail/benthos:latest
    environment:
      BENTHOS_CONFIG: |
        inputs:
          - type: stdin
        outputs:
          - type: stdout
        processors:
          - type: json_parser
            parse_json_fields: []
            output_fields: []
            remove_on_fail: true
            remove_keys: []

然后,你可以使用以下命令启动 Benthos:

docker-compose up
与文无关

我的博客即将同步至腾讯云开发者社区,邀请大家一同入驻:https://cloud.tencent.com/developer/support-plan?invite_code=x1clkq2m1kq4

标签:配置文件,可以,流式,ETL,benthos,使用,go,安装,Benthos
From: https://www.cnblogs.com/insignificant-ru/p/17007926.html

相关文章

  • Golang开发项目目录简介以及目录结构设置规范
    一、Golang项目简单介绍Golang简单的目录结构如下:其中,bin用来存放经过gobulid后的可执行文件,pkg存放编译后的gomodule,而src就存放我们项目的代码 二、三种常用目录结......
  • Golang 环境变量和项目结构
    1.Golang环境变量和项目结构常用exportGO_HOME=/opt/modules/goexportGOPATH=/home/user/go$GO_HOME/bin:$GOPATH/bin12341.1.为什么我使用gobuild命令没有没有......
  • Golang一角:环境变量(Go开发必需的环境变量、普通环境变量)
    “环境变量”这个词,有经验的开发同学对它一定很熟悉了,它提供给软件工程以高灵活性、高扩展性,大到操作系统,小到某个项目,都有它的影子,它的表现方式有很多。微服务应用提倡将......
  • Golang 项目使用 Gitlab CI/CD 自动化持续集成
    GitlabCI/CD自动化持续集成该功能主要是代码提交到gitlab后,gitlab能按照指定的脚本,去运行诸如测试、构建、发布自动化,避免手工操作本文将演示以下集成项目: 测试(T......
  • golang项目代码push到gogs上,如何自动编译、打镜像、k8s上运行?
    golang项目代码push到gogs上,如何自动编译、打镜像、k8s上运行? 上面的环境,都需要搭建。测试demo见git地址主要是test1/.drone.yml的编写。from_secret:kube_toke......
  • Go笔记
    数组数组,是用来存储集合数据的,这种场景非常多,我们编码的过程中,都少不了要读取或者存储数据。当然除了数组之外,我们还有切片、Map映射等数据结构可以帮我们存储数据,但是数......
  • Golang项目在idea中运行遇到的坑
    因为是第一次搞go的项目,也没有学过go这个语言,凭借着强大的运气开始修改开源项目wayne的源码。运行过程中,遇到了好多问题。第一个问题就是后端的go项目没法启动。1.数据......
  • GORM笔记
    参考文档:GORM指南|GORM-ThefantasticORMlibraryforGolang,aimstobedeveloperfriendly.GORM入门指南|李文周的博客(liwenzhou.com)GORMCRUD指南|李......
  • 【Golang 快速入门】项目实战:即时通信系统
    即时通信系统-服务端项目架构图: 版本迭代:版本一:构建基础Server版本二:用户上线功能版本三:用户消息广播机制版本四:用户业务层封装版本五:在线用户查询版本六:修改用户名......
  • golang入门项目—日志收集
    传统ELK架构的日志收集:存在的问题:Logstash耗资源较大,运行占用CPU和内存高。另外没有消息队列缓存,存在数据丢失隐患。适用于小规模的集群使用。第二种架构:位于各个节点上......