首页 > 其他分享 >头歌Flume 第2关 采集目录下所有新文件到Hdfs

头歌Flume 第2关 采集目录下所有新文件到Hdfs

时间:2024-11-04 12:15:32浏览次数:3  
标签:Flume Hdfs sinks sink1 hdfs channel1 a1 sources 头歌

# 配置source,channel,sink名称

a1.sources = source1

a1.sinks = sink1

a1.channels = channel1




# 配置source

a1.sources.source1.type = spooldir

a1.sources.source1.spoolDir = /opt/flume/data

##定义文件上传完后的后缀,默认是.COMPLETED

a1.sources.source1.fileSuffix=.FINISHED

##默认是2048,如果文件行数据量超过2048字节(1k),会被截断,导致数据丢失

a1.sources.source1.deserializer.maxLineLength=5120




# 配置 channel

a1.channels.channel1.type = memory

## event条数

a1.channels.channel1.capacity = 500000

##flume事务控制所需要的缓存容量600条event

a1.channels.channel1.transactionCapacity = 600



# 配置 sink

a1.sinks.sink1.type = hdfs

a1.sinks.sink1.hdfs.path =hdfs://localhost:9000/flume

#上传文件的前缀

a1.sinks.sink1.hdfs.filePrefix = flume

#上传文件的后缀

a1.sinks.sink1.hdfs.fileSuffix = .log

#积攒多少个Event才flush到HDFS一次

a1.sinks.sink1.hdfs.batchSize= 100

a1.sinks.sink1.hdfs.fileType = DataStream

a1.sinks.sink1.hdfs.writeFormat =Text




#配置source和sink绑定到channel

a1.sources.source1.channels = channel1

a1.sinks.sink1.channel = channel1

标签:Flume,Hdfs,sinks,sink1,hdfs,channel1,a1,sources,头歌
From: https://blog.csdn.net/M_inherit/article/details/143481446

相关文章

  • Spark Streaming监听HDFS文件(Spark-shell)
    需求:编写程序利用SparkStreaming监控HDFS 目录/input目录下的文件,并对上传的文件进行词频统计。首先,linux中需要有netcat,来实现监听功能,有的linux会自带这个软件,可以用下面的命令测试一下,如果不报错就没问题,Ctrl+z可以退出nc-l9999没有netcat的可以用这个来下载,如果......
  • HDFS的读写流程
    HDFS的读写流程写数据1、宏观1、客户端发起请求到NameNode,调用Hadoop中的一个类叫做DistributedFileSystem创建对象,再利用这个对象通过RPC通信协议调用NameNode去创建一个没有blocks关联的新文件。在创建之前NameNode会做各种校验:比如该文件是否存在,客户端有无权限去创建.........
  • 大数据工具 flume 的安装配置与使用 (详细版)
    参考网址:Flume1.9用户手册中文版—可能是目前翻译最完整的版本了 1,上传安装包安装包链接:文件下载-奶牛快传Download|CowTransfer口令:x8bhcg1,切换盘符到安装目录cd/opt/moudles解压文件到文件目录解压命令:tar-zxvfapache-flume-1.9.0-bin.tar.gz-C/opt/instal......
  • 【头歌】机器学习——AGNES
    第1关:距离的计算 importnumpyasnpdefcalc_min_dist(cluster1,cluster2):'''计算簇间最小距离:paramcluster1:簇1中的样本数据,类型为ndarray:paramcluster2:簇2中的样本数据,类型为ndarray:return:簇1与簇2之间的最小距离'''#*****......
  • Flink历史服务器History Server部署:创建hdfs存储目录、启动和停止
    运行Flinkjob的集群一旦停止,只能去yarn或本地磁盘上查看日志,不再可以查看作业挂掉之前的运行的WebUI,很难清楚知道作业在挂的那一刻到底发生了什么。如果我们还没有Metrics监控的话,那么完全就只能通过日志去分析和定位问题了,所以如果能还原之前的WebUI,我们可以通......
  • NoSQL数据库实习头歌实验知识点整理(二)-MongoDB部分
    文章目录1-1初识MongoDB1.1DOS(Windows)端启动MongoDB服务1.1.1配置环境变量1.1.2启动服务并进行相关配置1.2Linux端启动MongoDB服务1.2.1数据存放位置1.2.2日志文件1.2.3配置文件1.3启动客户端1.4退出客户端1.5关闭MongoDB服务1.5.1能连接到客户端时1......
  • 014_Flume
    1Flume定义什么是Flume。流式架构Flume的主要作用​ 实时读取服务器本地硬盘的数据,将数据写入到HDFS中。Flume的优点​ 灵活​ 缓冲区的作用,减轻hdfs的压力。重平衡Flume组成架构2安装Flume1:拷贝使用版本apache-flume-1.7.0-bin.tar.gz2:改名将apache-flume-1.7.0-b......
  • 【头歌实训:单源最短路径】
    头歌实训:单源最短路径给一个n(1≤n≤2500)个点m(1≤m≤6200)条边的无向图,求s到t的最短路。文章目录输入格式:输出格式:输出样例:注意:源代码:输入格式:第一行四个由空格隔开的整数n、m、s、t。之后的m行,每行三个正整数si、ti、wi(1≤wi≤......
  • 【头歌实训:邻接表存储图的广度优先遍历】
    头歌实训:邻接表存储图的广度优先遍历文章目录任务描述相关知识邻接表存储图图的遍历广度优先遍历过程:算法设计思路:编程要求测试说明输入格式:输出格式:样例输入:样例输出:源代码:任务描述相关知识邻接表存储图图的遍历广度优先遍历过程:算法设计思路:......
  • HDFS 重要机制之 checkpoint
    核心概念hdfscheckpoint机制对于namenode元数据的保护至关重要,是否正常完成检查点是评估hdfs集群健康度和风险的重要指标editslog:对hdfs操作的事务记录,类似于wal,editlog文件以edits_开头,后面跟一个txid范围段,并且多个editlog之间首尾相连,正在使用的editl......