用DolphinScheduler轻松实现Flume数据采集任务自动化！

时间：2024-04-24 18:00:10浏览次数：27

标签：Flume flume DolphinScheduler 采集任务 local 海豚

file

转载自天地风雷水火山泽

目的

因为我们的数仓数据源是Kafka，离线数仓需要用Flume采集Kafka中的数据到HDFS中。
在实际项目中，我们不可能一直在Xshell中启动Flume任务，一是因为项目的Flume任务很多，二是一旦Xshell页面关闭Flume任务就会停止，这样非常不方便，因此必须在后台启动Flume任务。
所以经过测试后，我发现海豚调度器也可以启动Flume任务。
file

海豚调度Flume任务配置

（一）Flume在Linux中的路径
file

（二）Flume任务文件在Linux中的位置以及任务文件名
file

（三）在海豚中配置运行脚本
file

#!/bin/bash
source /etc/profile

/usr/local/hurys/dc_env/flume/flume190/bin/flume-ng agent -n a1 -f /usr/local/hurys/dc_env/flume/flume190/conf/statistics.properties

注意：/usr/local/hurys/dc_env/flume/flume190/为Flume在Linux中的安装，根据自己安装路径进行调整
（四）海豚任务配置好后就可以启动海豚任务
file

（五）在HDFS对应文件夹中验证是否采集到数据
file
可以看到，Flume采集Kafka数据成功写入到HDFS中，成功实现用Apache DolphinScheduler执行Flume任务的目的！
原文链接：
https://blog.csdn.net/tiantang2renjian/article/details/136399112

本文由白鲸开源提供发布支持！

标签：Flume,flume,DolphinScheduler,采集,任务,local,海豚
From： https://www.cnblogs.com/DolphinScheduler/p/18156040

DedeBiz动态列表页设置超过10页就不显示，防止被全站采集的方法
DedeBiz动态列表页设置超过10页就不显示，防止被全站采集的方法：我们的动态列表页list.php?tid=1&PageNo=28 这个分页的数量控制，设置只能显示10页后面的如果输入大于10就提示错误。找到apps/list.php，在里面添加判断代码文字提醒：if($PageNo>10){ShowMsg('对不起大于10......
Google Play App Store API 采集谷歌安卓应用商城app的数据接口 - 2024最新
iDataRiver平台https://www.idatariver.com/zh-cn/提供开箱即用的谷歌安卓应用商城googleplayappstore数据采集API，供用户按需调用。接口使用详情请参考GooglePlayAppStore接口文档接口列表1.获取指定app的基础信息参数类型是否必填默认值示例值描述apik......
C#S7.NET实现西门子PLCDB块数据采集的完整步骤
前言本文介绍了如何使用S7.NET库实现对西门子PLCDB块数据的读写，记录了使用计算机仿真，模拟PLC，自至完成测试的详细流程，并重点介绍了在这个过程中的易错点，供参考。用到的软件：1.Windows环境下链路层网络访问的行业标准工具（WinPcap_4_1_3.exe）下载链接：https://www.winpcap.org/in......
Reddit采集API reddit文章评论和搜索实时数据接口
近期调研发现iDataRiver平台https://www.idatariver.com/zh-cn/提供开箱即用的Reddit数据采集API，是目前用下来最方便简单的API，可以抓取reddit公开数据，例如subreddit中的帖子、按关键字搜索以及文章评论等，供用户按需调用。接口使用详情请参考RedditAPI接口接口列表1.获......
马扎克，海德汉，哈斯，兄弟，发那科，三菱，西门子，华中数控，knd，广数，宝元，发格，无授权源码采集。机床
机床联网cnc采集设备联网车间数字化生产追踪无需授权可跨平台运行任何平台Linuxwindows等可+：cnccaiji机床数据采集MDC，DNC,可定制开发，有采集驱动支持多品牌cnc系统多设备采集支持转发mqtt推送HTTP马扎克机床数据采集海德汉机床数据采集哈斯机床数据采集......
写一个监控采集公众号文章的插件
原文链接:https://mp.weixin.qq.com/s/f8zbM6wMld3koqjaFbCuxw前言微信关注了很多技术类的公众号，但是一直都没看，所以想先把文章下载下来，放着以后可能一定会看。之前写的Python微信机器人系列文章里提到了如何hook微信的实时消息，实时消息里也包含了公众号文章的推送，可以获取到......
【GUI软件】小红书按关键词采集笔记详情，支持多个关键词，含笔记正文、转评赞藏等，爬了102
一、背景介绍1.1爬取目标熟悉我的小伙伴都了解，我之前开发过2款软件：【GUI软件】小红书搜索结果批量采集，支持多个关键词同时抓取！【GUI软件】小红书详情数据批量采集，含笔记内容、转评赞藏等，支持多笔记同时采集！现在介绍的这个软件，相当于以上2个软件的结合版，即根据关键词爬取......
【Python微信机器人】写一个监控采集公众号文章的插件
原文链接:https://mp.weixin.qq.com/s/f8zbM6wMld3koqjaFbCuxw前言弄了个视频号下载后，同一个问题每天都会被问，回答的有点烦了。想了想根本原因还是缺少一个交流平台，微信群的话，刚进群的看不到之前的聊天记录。想整个知识星球，发现只能弄个收费的，免费的需要激活码才能创建。而有......
这篇 DolphinScheduler on k8s 云原生部署实践，值得所有大数据人看！
在当前快速发展的技术格局中，企业寻求创新解决方案来简化运营并提高效率成为一种趋势。ApacheDolphinScheduler作为一个强大的工具，允许跨分布式系统进行复杂的工作流任务调度。本文将深入探讨如何将ApacheDolphinScheduler适配并整合进现代IT环境，提升其在云原生部署中的表现。......
振弦采集仪在岩土工程监测中的误差分析与校正方法
振弦采集仪在岩土工程监测中的误差分析与校正方法河北稳控科技振弦采集仪是岩土工程监测中常用的一种测量设备，用于测量岩土体的动力特性，如波速、阻尼等参数。然而，由于各种因素的影响，振弦采集仪在实际应用中存在一定的误差，因此需要进行误差分析和校正。本文将就振弦采集仪的误差分......

用DolphinScheduler轻松实现Flume数据采集任务自动化！

目的

海豚调度Flume任务配置

相关文章

赞助商

阅读排行