Hadoop电商日志数据分析(三)

时间：2024-06-23 12:31:43浏览次数：21

标签：get Hadoop hadoop org apache import 日志电商 append

ETL

1.ETL的重要性
==> 存在的问题：每个MR作业都去全量读取待处理的原始日志，如果数据量很大，将非常不可取

ETL：数据从来源端经过抽取（Extract）、转换（Transform）、加载（Load）至目的端的过程
为什么要ETL：没有必要解析出所有数据，只需要解析出有价值的字段即可。
全量数据不方便直接进行计算的，最好是进一步处理后在进行相应的维度统计分析
解析出你需要的字段：ip==>城市信息
去除一些你不需要的字段：
ip/time/url/page_id/country/province/city

2.ETL操作
预处理

package com.imooc.bigdata.hadoop.mr.project.mr2;

import com.imooc.bigdata.hadoop.mr.project.utils.GetPageId;
import com.imooc.bigdata.hadoop.mr.project.utils.LogParser;
import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;
import java.util.Map;

public class ETLApp {

    // Driver端的代码：八股文
    public static void main(String[] args) throws Exception{
        Configuration configuration = new Configuration();

        // 如果输出目录已经存在，则先删除
        FileSystem fileSystem = FileSystem.get(configuration);
        Path outputPath = new Path("input/etl/");
        if(fileSystem.exists(outputPath)) {
            fileSystem.delete(outputPath,true);
        }

        Job job = Job.getInstance(configuration);
        job.setJarByClass(ETLApp.class);

        job.setMapperClass(MyMapper.class);

        job.setMapOutputKeyClass(NullWritable.class);
        job.setMapOutputValueClass(Text.class);

        FileInputFormat.setInputPaths(job, new Path("/Users/rocky/data/trackinfo_20130721.data"));
        FileOutputFormat.setOutputPath(job, new Path("input/etl/"));

        job.waitForCompletion(true);
    }

    static class MyMapper extends Mapper<LongWritable, Text, NullWritable, Text> {

        private LogParser parser;

        @Override
        protected void setup(Context context) throws IOException, InterruptedException {
            parser = new LogParser();
        }

        @Override
        protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
            String log = value.toString();
            Map<String, String> logInfo = parser.parse(log);

            String ip = logInfo.get("ip");
            String url = logInfo.get("url");
            String sessionId = logInfo.get("sessionId");
            String time = logInfo.get("time");
            String country = logInfo.get("country") == null ? "-" : logInfo.get("country");
            String province = logInfo.get("province")== null ? "-" : logInfo.get("province");
            String city = logInfo.get("city")== null ? "-" : logInfo.get("city");
            String pageId = GetPageId.getPageId(url)== "" ? "-" : GetPageId.getPageId(url);

            StringBuilder builder = new StringBuilder();
            builder.append(ip).append("\t");
            builder.append(url).append("\t");
            builder.append(sessionId).append("\t");
            builder.append(time).append("\t");
            builder.append(country).append("\t");
            builder.append(province).append("\t");
            builder.append(city).append("\t");
            builder.append(pageId);

            if (StringUtils.isNotBlank(pageId) && !pageId.equals("-")) {
                System.out.println("------" + pageId);
            }


            context.write(NullWritable.get(), new Text(builder.toString()));
        }
    }
}

标签：get,Hadoop,hadoop,org,apache,import,日志,电商,append
From： https://www.cnblogs.com/xiaoyu-w/p/18263247

Hadoop电商日志数据分析(二)
浏览量统计功能实现统计页面的浏览量count一行记录做成一个固定的KEY，value赋值为1PVStatApp点击查看代码packagecom.imooc.bigdata.hadoop.mr.project.mr;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FileSystem;importorg.apache.......
从工具产品体验对比spark、hadoop、flink
作为一名大数据开发，从工具产品的角度，对比一下大数据工具最常使用的框架spark、hadoop和flink。工具无关好坏，但人的喜欢有偏好。目录评价标准1效率2用户体验分析从用户的维度来看从市场的维度来看从产品的维度来看3用户体验的基本原则成本和产出是否成正比操作是否“......
Hadoop 2.0 大家族（二）
目录三、Hbase（一）Hbase简介（二）Hbase入门四、Pig（一）Pig简介（二）Pig入门三、Hbase Hbase是基于Hadoop的开源分布式数据库，它以Google的BigTable为原型，设计并实现了具有高可靠性、高性能、列存储、可伸缩、实时读写的分布式数据库系统。HBase适合于存储非结构化数据H......
深入理解redis持久化—AOF日志
redis为什么需要持久化redis是内存数据库，redis所有的数据都保存在内存中如果此时pc关机或重启，那么内存中的用户数据岂不是丢失了？redis这么不安全吗？作为数据库，保证数据的安全，持久是基本需求，redis采用了AOF和RDB两种持久化方式，将用户数据以特殊形式保存在磁盘中，确保重启时......
大数据运维学习笔记之filebeat+kafka+MM1跨机房实时日志传输案例——筑梦之路
日志数据量：日均30亿 ......
深入PHP框架开发：实现高效的日志记录系统
在软件工程中，日志记录是一种记录程序运行时发生事件的实践，它对于调试、监控和安全分析至关重要。PHP框架提供了多种方式来实现日志记录，这些方式可以帮助开发者捕获和存储关键信息。本文将详细探讨在PHP框架中实现日志记录的不同策略和技术。日志记录的基本概念在深入探讨......
数据库优化及慢查询日志分析
在数据库调优中，我们的目标就是响应时间更快，吞吐量更大。利用宏观的监控工具和微观的日志分析可以快速帮我们找到调优的思路和方式。一、数据库服务器的优化步骤1、观察服务器状态是否存在周期性波动(双11，618等)，如果是执行2，否跳到3；2、加缓存，更改缓存失效策略。如果解决则......
免费企业级日志采集工具
免费试用下载:Gitee下载最新版本优势:A.开箱即用.解压直接运行.不需额外安装.B.批管理设备.设备配置均在后台管理.C.无人值守客户端自启动,自更新.D.稳定安全.架构简单,内存占用小,通过授权访问.......
【MySQL 的三大日志的作用】
在管理MySQL数据库时，了解和区分数据库使用的三大日志类型至关重要。这些日志对于确保数据的完整性、提供恢复机制以及维持数据库的稳定性发挥着关键作用。最主要还是小豆前段时间去参加面试被问到了这些内容，下面将详细讨论RedoLog、Binlog和UndoLog的异同。RedoLog（重做......
[转] MySQL binlog 日志自动清理及手动删除
参考转载自mysqlbinlog日志自动清理及手动删除-景岳-博客园说明当开启mysql数据库主从时，会产生大量如mysql-bin.00000*log的文件，这会大量耗费您的硬盘空间。mysql-bin.000001mysql-bin.000002mysql-bin.000003mysql-bin.000004mysql-bin.000005…有三种解......

Hadoop电商日志数据分析(三)

ETL

相关文章

赞助商

阅读排行