首页 > 其他分享 >日志数据如何同步到MaxCompute

日志数据如何同步到MaxCompute

时间:2023-11-03 10:11:21浏览次数:29  
标签:同步 MaxCompute 实时 投递 日志 数据 DataHub

https://developer.aliyun.com/article/727331

摘要:

日常工作中,企业需要将通过ECS、容器、移动端、开源软件、网站服务、JS等接入的实时日志数据进行应用开发。包括对日志实时查询与分析、采集与消费、数据清洗与流计算、数据仓库对接等场景。本次分享主要介绍日志数据如何同步到MaxCompute。具体讲解如何通过Tunnel,DataHub,日志服务SLS以及Kafka将日志数据投递到MaxCompute的参数介绍和详细同步过程等内容。

 

1.方案介绍

日志数据同步到MaxCompute的场景主要有四个方案。
方案一:使用Tunnel命令上传日志数据到MaxCompute。
方案二:通过DataHub投递数据到MaxCompute。DataHub DataConnector是把DataHub服务中的流式数据同步到其他云产品中的功能,目前支持将Topic中的数据实时/准实时同步到MaxCompute、OSS、ElasticSearch、RDS Mysql、ADS.、TableStore中。用户只需要向DataHub中写入一次数据,并在DataHub服务中配好同步功能,便可以在各个云产品中使用这份数据。
方案三:通过SLS实时采集与消费( LogHub )投递数据到MaxCompute。也可通过DataWorks的数据集成( Data Integration )功能投递至MaxCompute。
方案四:通过Kafka订阅实时数据投递至MaxCompute。
其中方案二(DataHub)和方案三(SLS—— LogHub )差异化不强,均属于消息队列。一般来说DataHub用于进行公测或自研。

2、方案比较及场景应用


1. Tunnel(或者叫 ODPS tunnel,Maxcompute tunnel; tunnel是隧道的意思)—— 可以对MaxCompute进行批量上传和下载 (如 ODPS表里的数据,应用利用tunnel批量下载后,对其进行加工,新增到redis——如风控离线名单)
Tunnel主要用于批量上传数据到离线表中,适用于离线计算的场景。对于特殊格式日志,一般建议将日志作为一个整体字段上传到MaxCompute表中,再进行拆分。


2. DataHub
DataHub用于实时上传数据的场景,主要用于流式计算场景。数据上传后会保存到实时表里(消息队列),后续会在几分钟内通过定时任务的形式同步到离线表里,供离线计算使用(如风控数据上云,sevent数据到ODPS)。

  • Datahub(弹内产品叫TT:time tunnel)本质上也是消息队列: 是一款服务于大数据和人工智能的云原生实时数据总线,提供对流式数据的采集,存储和分发的功能,让用户可以轻松构建基于流式数据的分析和应用
  • 应用:解利用数据总线DataHub和实时计算引擎Flink构建实时数仓系统
  • 高吞吐单主题(Topic)最高支持每日TB级别的数据量写入;每个分片(Shard)最高支持每日 8000 万 Record 级别的数据量写入。
  • 易用性:用户使用这些客户端工具向 DataHub 中写入流式数据,数据自动同步到阿里云产品线的其它服务,目前支持以下服务:MaxCompute、Flink等


3.日志服务(SLS)
LogHub:可适用于数据清洗(ETL)、流计算( Stream Compute)、监控与报警、机器学习与迭代计算等场景。其实时性强,写入即可消费。
Logtail (采集Agent ):实时采集传输,1秒内到达服务端( 99.9%)。写入即可查询分析。此外可支持海量数据,对数据量不设上限。种类丰富,支持行、列、TextFile等各种存储格式。而且配置灵活,支持用户自定义Partition等配置。
LogShipper(投递数仓):可支持稳定可靠的日志投递。将日志中枢数据投递至存储类服务进行存储。支持压缩、自定义Parition,以及行列等各种存储方式。可以进行数据仓库、数据分析、审计c推荐系统与用户画像场景的开发。支持通过控制台数据接入向导一站式配置正则模式采集日志与设置索引。


4.Kafka
Kafka是一款分布式发布与订阅的消息中间件,有高性能、高吞量的特点,每秒能处理上百万消息。Kafka适用于流式数据处理。可应用场景分别是大数据领域和数据集成。大数据领域主要应用于用户行为跟踪、日志收集等场景。结合数仓将消息导入MaxCompute、 OSS、RDS、Hadoop.、HBase等离线数据仓库。

 

标签:同步,MaxCompute,实时,投递,日志,数据,DataHub
From: https://www.cnblogs.com/wxdlut/p/17807002.html

相关文章

  • anki 同步服务教程
    anki同步服务,支持安卓,ios,windows等设备,不确定是否支持Mac(没有设备)1、安卓使用教程:​​​​2、IOS使用教程:​​​3、Windows使用教程:​​​​以上使用的是AnkiDroid2.16.5版本,WindowsAnki2.1.66版本,第一次同步会稍微慢一点,请保持Anki软件常亮。软件下载:......
  • 19.10 Boost Asio 同步文件传输
    在原生套接字编程中我们介绍了利用文件长度来控制文件传输的方法,本节我们将采用另一种传输方式,我们通过判断字符串是否包含goodbyelyshark关键词来验证文件是否传输结束了,当然了这种传输方式明显没有根据长度传输严谨,但使用这种方式也存在一个有点,那就是无需确定文件长度,因为无需......
  • 大学生创新训练项目开发日志 (10-26 ~ 11-2)
    进展资源钩取我们通过如下方法对资源钩取模块进行了改进:对getDrawable()返回的Drawable实例进行了进一步处理,降低被丢弃的资源的比率。通过LayoutInflater.inflate()返回的ImageView实例的getDrawable()方法获取该实例内含的Drawable资源。进行了如下改进后,对......
  • 19.10 Boost Asio 同步文件传输
    在原生套接字编程中我们介绍了利用文件长度来控制文件传输的方法,本节我们将采用另一种传输方式,我们通过判断字符串是否包含goodbyelyshark关键词来验证文件是否传输结束了,当然了这种传输方式明显没有根据长度传输严谨,但使用这种方式也存在一个有点,那就是无需确定文件长度,因为无需......
  • sql server 截断和收缩所有用户数据库日志--用游标循环所有正常状态的用户数据库
    在服务器运维活动中,我们经常需要做一项工具就是将好多年的用户数据库日志文件截断并收缩为最小,以节省大量的磁盘空间。当数据库只有一两个时可以手动操作,但数据库数量众多时,就需要采用sql脚本,批量化执行这个过程。本人写了一段这样的脚本。并且经过验证执行无误。现在分享出来,您......
  • 技术教程 —— 如何利用 SEI 实现音画同步?
     摘要:利用SEI解决数据流录制回放过程中的音画不同步问题。 文|即构Web SDK开发团队今年 6 月, ZEGO即构科技推出了行业内首套数据流录制PaaS 方案,打破传统录制服务传统,实现 100%录制还原效果(点击查看方案介绍文章)。在实现数据流录制回放的过程中,我们需要将音视频画面......
  • logstash同步多个表的配置(使用pipeline)
     说明:我们这里每个表对应一个配置文件,当然也可以使用多个表使用一个配置文件(多个jdbc进行配置) 1.准备配置文件表1:[root@host135config]#moresync_mysql2es.conf#logstash输入配置input{#jdbc输入配置,用来指定mysql中需要同步的数据查询SQL及同步周期jdbc......
  • OpenFunction 1.2.0 发布:集成 KEDA http-addon 作为同步函数运行时
    OpenFunction是一个开源的云原生FaaS(FunctionasaService,函数即服务)平台,旨在帮助开发者专注于业务逻辑的研发。我们非常高兴地宣布OpenFunction又迎来了一次重要的更新,即v1.2.0版本的发布!本次更新中,我们继续致力于为开发者们提供更加灵活和强大的工具,并在此基础上加入了......
  • logstash同步多个表jdbc
     [root@host135config]#moresync_multi_table_mysql2es.conf#logstash输入配置input{#jdbc输入配置,用来指定mysql中需要同步的数据查询SQL及同步周期jdbc{jdbc_driver_library=>"/soft/mysql-connector-java-5.1.49.jar"jdbc_driver_class=>"com.my......
  • 实时同步刷新excel数据到数据库
    实时同步刷新excel数据到数据库前面,我们已经讲了定时导入excel到数据库,我们只需要稍作修改就可以实现实时刷新。新增定时任务,定时设置全部填*,即代表实时运行可以在定时任务界面看到任务在不停的运行,当excel数据更新了,点击保存后,马上就可以在数据库看到更新的数据了因为实时运行刷......