百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

seatunnel 安装体验-基于 docker 提供 flink 环境

haoteby 2025-05-15 17:56 21 浏览

seatunnel 原名 waterdrop,是一个非常易用高性能、支持实时流式离线批处理海量数据处理产品,架构于Apache SparkApache Flink之上。

本文介绍使用 docker 为 flink 创建 standalone 集群,运行 seatunnel 快速开始任务。

本地机器为 mac,flink 运行在 docker 容器中,部分步骤与效果和官网并不一致。

搭建 flink 集群

docker 的优势在于迁移方便,当创建好 flink 镜像后,编写 docker-compose 配置文件,即可随时随地起一个 flink 的本地集群。

seatunnel 目前版本支持的 flink 引擎版本是 1.9.0。

同时 seatunnel 对项目中 flink 的依赖声明为 provided,flink 版本的向后兼容是存在问题的。

<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-java</artifactId>
    <version>${flink.version}</version>
    <scope>provided</scope>
</dependency>
<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-table-planner_${scala.binary.version}</artifactId>
    <version>${flink.version}</version>
    <scope>provided</scope>
</dependency>
<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-streaming-scala_${scala.binary.version}</artifactId>
    <version>${flink.version}</version>
    <scope>provided</scope>
</dependency>
<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-streaming-java_${scala.binary.version}</artifactId>
    <version>${flink.version}</version>
    <scope>provided</scope>
</dependency>

对于较新版本的 flink 缺少依赖支持,无法运行,所以创建的 flink 的集群同样采用 1.9.0 版本。

version: "3.1"

services:

  jobmanager:
    image: flink:1.9.0-scala_2.11
    environment:
      FLINK_PROPERTIES: |
        jobmanager.rpc.address: jobmanager
    ports:
      - 8081:8081
    command: jobmanager
    volumes:
      - jobmanager:/flink/jobmanager
    networks:
      - flink
  taskmanager:
    image: flink:1.9.0-scala_2.11
    depends_on:
      - jobmanager
    environment:
      FLINK_PROPERTIES: |
        jobmanager.rpc.address: jobmanager
        taskmanager.numberOfTaskSlots: 8
    command: taskmanager
    scale: 1
    volumes:
      - taskmanager:/flink/taskmanager
    networks:
      - flink

networks:
  flink:
    driver: bridge

volumes:
  jobmanager:
  taskmanager:

将上面配置保存为 docker-compose.yml 文件,运行 docker-compose up -d 即可启动 standalone 集群。

打包或下载 seatunnel

可以在 github 下载 seatunnel 的 2.x 版本,或者 clone 源码自行打包。

本文 clone 源码,基于 dev 分支自行打包。

在项目源码目录下运行 mvn clean package 打包项目,打包文件位于 home/seatunnel-dist/target 目录下。

解压安装包:

tar -zxf seatunnel-dist-2.0.4-2.11.8-bin.tar.gz

配置 seatunnel

提交 seatunnel 需要依赖本地 flink 安装路径,需在 seatunnel-env.sh 文件中编辑配置 FLINK_HOME 为 flink 的安装路径。

为了能够提交任务到 flink 集群中,依然从 flink 官网下载了 1.9.0 版本的项目,进行解压。

创建任务配置文件

config 目录下,创建 application.conf 文件,内容如下:

env {
  execution.parallelism = 1
}

source {
  SocketStream{
    result_table_name = "fake"
    field_name = "info"
    host = xxx.xxx.xxx.xxx
    port = 19999
  }
}

transform {
  Split{
    separator = "#"
    fields = ["name","age"]
  }
  sql {
    sql = "select * from (select info,split(info) as info_row from fake) t1"
  }
}

sink {
  ConsoleSink {}
}

因为 flink 集群运行在 docker 中,seatunnel 提供的 SourceStream 的 host 配置默认为 localhost,指向 docker 内 taskmanager 所在容器的本地地址,如果不修改的话需要登陆容器启动 nc 服务,这里将其修改为自己本地机器的 ip 地址。

port 配置默认为 9999,这里改为 19999。

启动 nc

nc -l 19999

启动 seatunnel

在 seatunnel 解压目录运行命令,启动任务

./bin/start-seatunnel-flink.sh  --config ./config/application.conf

等待片刻任务启动后,即可在flink web-ui 中看到任务:

测试

在 nc 中输入 xg#1995

任务中配置基于 # 的字符串分割为 nameage 字段。

在 taskmanager 所在容器的 std 输出中即可看到 xg#1995,xg,1995 输出。

docker 启动的 flink 集群并不能很好地采集日志和 std 输出,因此在 flink 的 web-ui 中 Logs 和 Stdout 是没有任何输出的,查看任务的输出需要借助 docker-compose 命令:

docker-compose logs -f taskmanager

相关推荐

在线抓取网页源码(爬虫获取网页源代码)

经验分享:如何解决爬虫抓取时的网页源码不全问题爬虫是一种常用的数据采集工具,可以帮助我们快速获取互联网上的各种信息。然而,很多人在使用爬虫时都会遇到一个普遍的问题,那就是爬虫抓取的网页源码总是不完整。...

40个图源二维码分享及使用方法(图片二维码生成器在线制作二维码)

我们曾在《35个图源二维码分享及使用方法》一文中,为你分享了35个图源二维码。...

45个图源二维码分享及使用方法(图源是啥)

我们曾在《40个图源二维码分享及使用方法》一文中,为你分享了40个图源二维码。...

电子书管理软件Calibre 8.0.1发布:改善支持Kobo,优化新闻源等

IT之家3月22日消息,Calibre是一款免费、开源的电子书管理工具,支持整理、转换和阅读多种格式的电子书。最新发布的8.0.1版本带来了多项功能改进和问题修复,进一步提升了用户体验。...

软网推荐:一键生成不同网站RSS订阅源

为了关注自己喜欢的网站内容,以前最常见的方法是订阅RSS源,这样在内容更新的时候就会自动进行推送。但由于RSS现在已经不是主流的阅读方式,所以并不是所有的网站都提供RSS订阅,这时我们就得另辟蹊径了。...

消费曝光台|29.9元充100元话费?到手是15张满减优惠券

近日,山西大同的王先生向澎湃质量报告投诉平台反映,他在使用手机时收到一条弹窗广告,称他获得了“29.9元充值100元话费券”。王先生充值并下载了APP潮物圈后才发现,100元的话费实际上是15张5元和...

玩Kodi的IPTV插件必备技能——直播源地址抓包教程

准备工具:谷歌浏览器(Google)或者其他浏览器(不常用的或再安装一个浏览器)Potplayerm3u8直播源文件或者Gitee个人工作台...

i.MX6加载Ubuntu镜像的教程(ubuntu添加镜像源)

基于迅为IMX6开发板安装好虚拟机之后,用户就可以加载Ubuntu12.04.2镜像。用户可以在网盘中下载“编译好的镜像”,该镜像已经安装好了编译Android4.4.2所需要的大部分软件...

嵌入式软件开发人员有必要学习系统移植的知识吗?ppt见文末

《从零开始学ARM》的配套视频说明...

ARM体系结构(10)-GPIO LED闪烁汇编代码实现(基于tiny4412)

接上一篇,我将介绍如何使用GPIO引脚GPM4_1来控制Tiny4412开发板上的LED2闪烁。本文将从原理、汇编代码、Makefile实现、程序编译和烧写等多个方面进行介绍,以便读者能够全面了解如何...

物联网学习路线图(物联网必学课程)

物联网技术近几年在我国获得了很好的发展,从目前的发展趋势来看,未来物联网发展前景一片大好。由此学习的人员也是越来越多,但是在学习物联网时很多人都容易忽略这样一件事——从未准备一份详尽的物联网学习路线图...

网卡DM9000裸机驱动开发详解(pro1000网卡驱动)

一、网卡1.概念网卡是一块被设计用来允许计算机在计算机网络上进行通讯的计算机硬件。由于其拥有MAC地址,因此属于OSI模型的第2层。它使得用户可以通过电缆或无线相互连接。...

Win10高分屏更改DPI后字体模糊?试试这个小工具

如果你使用的是大尺寸显示屏,拥有1920x1080或更大分辨率,可能你会选择设置一个较高的DPI缩放级别,比如125%或更高。这样屏幕上的内容看起来会更大一些,更容易阅读。在WindowsVista...

微软Windows竟内嵌Linux?这样玩挺有趣

在Windows上运行Linux?这其实不是新鲜事,20年前,就有黑客这么干过。微软的开发者博客刚刚公布,下一个Windows10版本,不仅自带Linux内核,而且还会通过Win...

上厕所别带手机!9 个错误动作增加你感染病毒的风险

随着复工的正式开始,很多小伙伴开始担心如何在上班过程中更好地保护自己。口罩准备好了,免洗洗手液准备好了,是不是就万无一失了?还真不是!你摸完电梯按钮的手,或者扶过地铁栏杆的手,不经意间揉一下眼睛、摸一...