• 2024-07-01如何找到并快速上手一个开源项目
    以前有写过两篇文章来简单聊过如何做开源的事情,最近我自己组了一个社区里面也有不少朋友对开源感兴趣,于是我便根据自己的经验系统的梳理了一些关于开源的事情。新手如何快速参与开源项目手把手教你为开源项目贡献代码有兴趣的可以先看看之前这两篇。
  • 2024-06-30Tomcat的介绍及使用
    博客主页:音符犹如代码系列专栏:JavaWeb关注博主,后期持续更新系列文章如果有错误感谢请大家批评指出,及时修改感谢大家点赞
  • 2024-06-23大数据复习练习
    大数据复习练习题填空题简答题简单分析题程序设计题程序设计题填空题(数据)过观察、实验或计算得出的结果。(消息)是较为宏观的概念,它是由数据的有序排列组合而成。大数据的数据类型包括(结构化数据)和(非结构化数据),前者占10%左右,后者占90%左右。HDFS伪分布式配置中属性df
  • 2024-06-23Apache Spark 安装和基础使用
    Spark概述ApacheSpark是一个开源的集群计算框架,以其快速、易用、通用和高度可扩展性而著称。Spark支持多种编程语言,包括Java、Scala、Python和R,并提供了丰富的库,如SparkSQL、MLlib、GraphX和SparkStreaming。Spark的主要特点快速:Spark通过在内存中存储中间数据,
  • 2024-06-23Hadoop电商日志数据分析(三)
    ETL1.ETL的重要性==>存在的问题:每个MR作业都去全量读取待处理的原始日志,如果数据量很大,将非常不可取ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程为什么要ETL:没有必要解析出所有数据,只需要解析出有价值的字段即可。全量数据不方便直接进行计算
  • 2024-06-23Hadoop电商日志数据分析(二)
    浏览量统计功能实现统计页面的浏览量count一行记录做成一个固定的KEY,value赋值为1PVStatApp点击查看代码packagecom.imooc.bigdata.hadoop.mr.project.mr;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FileSystem;importorg.apache.
  • 2024-06-23从工具产品体验对比spark、hadoop、flink
    作为一名大数据开发,从工具产品的角度,对比一下大数据工具最常使用的框架spark、hadoop和flink。工具无关好坏,但人的喜欢有偏好。目录评价标准1效率2用户体验分析从用户的维度来看从市场的维度来看从产品的维度来看3用户体验的基本原则成本和产出是否成正比操作是否“
  • 2024-06-23Apache Flink 和 Apache Spark详细介绍、优缺点、使用场景以及选型抉择?
    ApacheFlink和ApacheSpark我该投入谁的怀抱?ApacheFlink简介:ApacheFlink是一个用于分布式流处理和批处理的开源框架。它以实时数据处理和事件驱动的流处理著称,提供高吞吐量和低延迟的处理能力。功能:流处理:Flink可以处理实时数据流,支持低延迟和高吞吐量的流处理
  • 2024-06-23Grab 基于 Apache Hudi 实现近乎实时的数据分析
    介绍在数据处理领域,数据分析师在数据湖上运行其即席查询。数据湖充当分析和生产环境之间的接口,可防止下游查询影响上游数据引入管道。为了确保数据湖中的数据处理效率,选择合适的存储格式至关重要。Vanilla数据湖解决方案构建在具有Hive元存储的云对象存储之上,其中数据文件以P
  • 2024-06-23数据仓库之Hive
    ApacheHive是一个基于Hadoop的数据仓库软件,它提供了数据摘要、查询和分析的大数据能力。Hive通过类似于SQL的HiveQL语言,使用户能够在不深入了解MapReduce的情况下进行大数据处理和分析。以下是对Hive的详细介绍:1.核心概念HiveQL:Hive提供了一种类似于SQL的查询语言,称为Hiv
  • 2024-06-22【笔记】表格处理(一)Apache POI
    表格处理ApachePOI表格处理一、简介HSSF和XSSF有啥不同?二、使用步骤(一)依赖(二)基础使用示例1.创建一个简单的Excel文件2.读取一个Excel文件3.设置单元格样式4.合并单元格5.添加图片6.数据有效性和下拉列表7.自动调整列宽8.公式计算9.日期和时间格式10.
  • 2024-06-22SqlserverCDCcrudSourceSink mssql数据实时同步demo
    packageorg.hu.fk.datastream_connector;importcom.alibaba.fastjson.JSON;importcom.alibaba.fastjson.JSONObject;importcom.ververica.cdc.connectors.base.options.StartupOptions;importcom.ververica.cdc.connectors.shaded.org.apache.kafka.connect.data.Fie
  • 2024-06-21【报错】IllegalStateException: The remote endpoint was in state [TEXT_FULL_WRITING] which is an invalid
    一、报错内容java.lang.IllegalStateException:Theremoteendpointwasinstate[TEXT_FULL_WRITING]whichisaninvalidstateforcalledmethod atorg.apache.tomcat.websocket.WsRemoteEndpointImplBase$StateMachine.checkState(WsRemoteEndpointImplBase.java:1234) a
  • 2024-06-21Flink报错 java.lang.IllegalArgumentException: too many arguments
    错误信息/Library/Java/JavaVirtualMachines/zulu-21.jdk/Contents/Home/bin/java-javaagent:/Users/liuyu/Applications/IntelliJIDEAUltimate.app/Contents/lib/idea_rt.jar=51748:/Users/liuyu/Applications/IntelliJIDEAUltimate.app/Contents/bin-Dfile.encoding=UTF-
  • 2024-06-21Liunx安装Maven
    打开文件目录cd/home/maven下载安装包#https://maven.apache.org/download.cgi#官网地址自行选择版本或本地下载成功拖到服务器中wgethttp://mirror.cc.columbia.edu/pub/software/apache/maven/maven-3/3.5.4/binaries/apache-maven-3.5.4-bin.tar.gz解压安装包
  • 2024-06-20SqlserverCDCSourceSink
    此处调用官方sinkdemo,更新和删除逻辑还需要再判断实现。importcom.ververica.cdc.connectors.base.options.StartupOptions;importcom.ververica.cdc.connectors.sqlserver.SqlServerSource;importcom.ververica.cdc.connectors.sqlserver.source.SqlServerSourceBuilder;
  • 2024-06-20Flink Sink中jdbc sink
    这里介绍一下FlinkSink中jdbcsink的使用方法,以mysql为例,这里代码分为两种,事务和非事务此处sink只处理append,主要是事务和非事务的调用方法,upsert等未实现非事务代码importorg.apache.flink.connector.jdbc.JdbcConnectionOptions;importorg.apache.flink.connector.jdb
  • 2024-06-20flink版本: 1.14.6 flink水位生成以及基于水位触发窗口的计算
    Flink是间断性(punctuate)或者周期性(periodic)生成水位线的1.定义和用途*punctuate:为每条消息都尝试生成watermark,这提供了更细粒度的控制,但增加了不必要的计算开销*periodic:周期性的生成watermark,可以通过env.getConfig().setAutoWatermarkInterval(1*1000L)设置周期间
  • 2024-06-20Flink 窗口计算
    Flink窗口计算1.背景2.Watermark3.Watermark与Window之间的关系4.Window窗口计算1.背景在当今大数据时代,实时数据处理的需求日益增长,Flink的窗口计算在这一领域中发挥着至关重要的作用。窗口计算使得我们能够将无界的数据流切分成有意义的片段,从而进行
  • 2024-06-20在Linux中,Tomcat8005、8009、8080三个端口的含义?
    在Linux系统中,Tomcat的8005、8009和8080这三个端口分别承担着不同的职责和功能。以下是这三个端口的详细解释:8005端口:用途:用于处理TomcatWeb服务器的SHUTDOWN命令。当需要关闭Tomcat服务器时,可以通过向该端口发送SHUTDOWN命令来实现。访问限制:默认情况下,此端口只能在本地访
  • 2024-06-20springboot——https请求异常Invalid character found in method name. HTTP method names must be tokens
    遇到问题的情况接口没有配置https,请求时用https会此异常。其他情况1、问题现象java.lang.IllegalArgumentException:Invalidcharacterfoundinmethodname.HTTPmethodnamesmustbetokensatorg.apache.coyote.http11.Http11InputBuffer.parseRequestLine(Http11Inp
  • 2024-06-20Tomcat8.5+ 日志最大保留天数
    网上很多说的是FileHandler.maxDays但试了无效,后使用AsyncFileHandler.maxDays可行,顾记录下供同学们少走弯路。本人从tomcat-8.5.100下载修改:tomcat8.5\conf\logging.propertiesAsyncFileHandler.maxDays属性设置天数天数从0开始的,因此此处保留最近为8天的日志1c
  • 2024-06-18springboot 使用 doris-streamloader 到doris 防止批量更新 事务卡主
    背景:使用mybatis批量实时和更新doris时经常出现连接不上的错误,导致kafka死信队列堆积很多滞后消费https://doris.apache.org/zh-CN/docs/2.0/ecosystem/doris-streamloader/packagecom.jiaoda.sentiment.data.etl.service.update;importcn.hutool.core.text.CharSequenc
  • 2024-06-18新兴互联网银行搭档Apache SeaTunnel构建数据流通管道!
    当新兴互联网银行乘着数字化改革的风潮搭档数据集成平台ApacheSeaTunnel,成千万上亿的数据就有了快速流通的管道。6月26日14:00,ApacheSeaTunnel社区将带上企业最佳实践与观众见面,与大家面对面交流最新的企业实践部署经验。锁定SeaTunnel视频号,马上预约直播!活动议程报名通道ht
  • 2024-06-18Flink1.17.0-报错: java.lang.NoSuchMethodError: org.apache.kafka.clients.admin.DescribeTopicsResult.all
    背景:启动Flink的sql-client.sh,创建Kafka的source端表,然后查询Kafka的数据时报错。报错信息:2024-06-1816:10:12org.apache.flink.util.FlinkException:GlobalfailuretriggeredbyOperatorCoordinatorfor'Source:kafka_rmc_cust_analog_u[1]'(operatorbc764cd8ddf7a0c