首页 > 其他分享 >大数据启蒙二:数据收集

大数据启蒙二:数据收集

时间:2024-04-16 17:34:36浏览次数:20  
标签:分析 收集 数据 启蒙 日志 电商 社交

 

 

 

 

 

一、源头

1、社交网络

大部分数据都源于社交网络,互联网2.0时代到来后社交网络得到指数型增长,随之生产了大量数据。

社交网络平台每天都会产生海量的数据,包括用户发布的内容、用户之间的互动、个人资料更新等。这些数据为研究人类行为模式、市场趋势分析、公共意见监测等提供了丰富的资源。

数据类型包括文本数据、图像、视频、互动、位置、用户资料等。其中文本数据包括用户发布的状态更新、博客、文章等。互动数据为点赞、转发、评论、聊天类型。位置数据是社交网络中用户分享地理位置、店铺位置等。用户资料数据用户个人信息,如年龄、性别、代号、兴趣爱好等。

社交网络平台主要包括facebook、twitter、weibo、weixin等。这些平台为社交网络生产了数据。

 

社交网络的应用案例:

1)分析社交媒体讨论话题和情感倾向,从而了解消费者对产品和服务的看法。如某某烧烤、如南方小土豆。

2)机构或组织可以通过社交媒体的监测,从而了解人民群众对公共事件的反应。如新闻媒体置顶某条新闻。

3)社交网络数据属于更加个性化数据,提取个人数据,从而可提供个性化推荐。如广告联盟,经常推送个性化广告或者某东某宝个性化链接。如反面教材大数据杀熟。

 

2、电子商务平台

电商平台改变了80、90、00后中国几代人,从感官上从前摸得到看得着,现靠感觉。电商是20世纪发展最快的产物之一,积累了大量的消费者,电商也造就了某首富。

电商数据类型可分为交易数据、行为数据、产品数据、用户反馈数据、物流数据。这些数据包装着电商的高速运转。

电商平台知名的有国内的PDD、taobao、jd,国外的amazon、ebay。

 

电商的应用案例:

1)通过分析用户的购买数据、浏览行为,推荐商品。基本上每个平台都这样做。

2)分析销售数据、市场趁势数据,更有效地管理库存。

3)分析电商平台大数据,洞察市场趁势,发现新机会。

 

3、金融市场

金融市场是大数据应用最提现的地方,金融靠着钱快速生钱,涵盖了股票、外汇等市场,这些市场每天产生大量数据,包括交易数据、行情数据、金融报告数据。这些数据对大部分人都是宝贵的数据。

数据来源包括证券交易所、央行、新闻媒体。

 

金融市场的应用案例:

1)通过分析交易数据、市场行情,评估股票及市场的表现及预期。

2)通过分析历史数据,进行风险管理、投资组合。

3)利用经济指标、金融市场数据来分析经济趁势和制定政策。如zf、经济分析专家。

 

4、物联网(IoT)设备

IoT相信大家都很熟悉了,前段时间火了一大把。IOT是通过互联网将各种传统的物理设备连接起来,用这些设备能够收集和交换数据。IOT主要依赖传感器技术,随着其成本的降低,越来越多的设备能够连接到互联网,形成了一个庞大的数据源。智能家居是其应用之一,也是成功应用的产品。

这些设备不仅包括智能家居产品,如智能灯泡、智能插座、智能恒温器等,还包括工业传感器、汽车、公共基础设施等,几乎覆盖了生活和工作的所有方面。

 

5、卫星与遥感技术

卫星与遥感技术比较遥远,它通过以地球轨道上的卫星捕获地表的图像和其他数据,从而获取自然和人造特征信息。

数据类型包括光学成像数据、雷达成像数据、光谱数据、温度数据、位置数据等,其中位置数据是民用最多的数据类型。通过GPS手机定位,查看定位信息来达到便利生活的目的,如点外卖、附近小店、导航等。再者如通过分析遥感数据,检测深林砍伐、沙漠进程等环境问题;如分析自然灾害数据,评估未来可能发生的自然灾害。

 

 

 

 

 

二、收集的工具

2.1 网络爬虫

网络爬虫工具一般分几个部分:URL管理器、下载器、解析器、存储器。URL管理器抓取目标URL。下载器负责下载网页内容。解析器是核心部件,用于解析目标文本、url、图片、视频等信息,提取&保存到我们的存储器之中。解析器也是最难的部分,不同的目标URL有不同的内容、不同的展示方式、不同的防刷机制。

常用的网路爬虫工具包括Scrapy。一般预防爬虫的方法有:遵从规定的robots.txt、动态页面渲染、更改网络结构、设置访问频率、验证码、WAF、API秘钥和令牌等。破解这些方法有不遵从robots.txt但会发生法规问题、爬取渲染后的内容、使用更加灵活的解析器如CSS、动态源IP、OCR技术、伪造请求头、动态获取秘钥和令牌。

 

2.2 日志文件分析

日志文件分析更多是熟悉系统内部信息,对内部信息的爬取。一般使用工具有ELK、Prometheus+Grafana,收集日志步骤为定义日志策略 -> 选择日志工具 -> 集成日志记录 -> 日志存储 -> 日志分析。

日志文件优点在于快速定位问题、对问题进行诊断、爬虫更加透明便于监控、优化性能。但会消耗大量的存储资源、少量的运行时环境资源和管理成本。

 

2.3 实时数据流处理工具

实时收集目前是各大公司的主流,包括kafka、flink、storm、samza、spark streaming等。其中轻量级的使用kafka中的流处理,复杂并要求实时场景较多的使用flink。

 

 

 

三、数据收集流程

1、需求分析

确定收集的数据源、数据类型。

2、数据源识别

识别数据的源头,如公开的数据、内部数据、日志数据、电商数据、网页数据等。

3、数据采集

根据源头,对数据使用工具进行采集。

4、数据预处理

采集到的数据进行清洗、去重、错误筛选、脱敏、格式化等处理,让数据更加清爽。

5、数据存储

处理后存储数据,为后续流程做准备,这时候存储的到数据一般在ods层。

 

四、数据收集问题

问题一:数据质量问题。

在收集过程中,数据质量是必须遇到的问题,因对数据不严格处理导致的问题。再加上数据经常会变化,永远不知道这个数据以后的值会是怎么样的,所以这是一个大量调研的工作,多做判断、多写共用逻辑处理。所以遇到此问题时,执行严格的数据处理流程,识别并尽可能地自动化修正数据。

 

问题二:数据结构和格式不一样。

数据结构、格式因源头不同,导致不一致。这时在数据预处理的时候进行数据结构调整,实行标准化的操作转换。

 

问题三:数据采集效率低

数据源头数据量大,会导致数据延迟、数据中断等问题。这时候可使用分布式处理的采集工具、源头读从库、并行处理等解决办法。

 

问题四:数据存储量大,成本高

在大数据中,数据存储量会越来越大,成本也会越来越高。每天数据都大量进行存储,所以一般企业不玩大数据。对大量数据存储,一般企会对冷数据进行归档、数据压缩处理,还有的对数据尽量减少分层,ods层数据有过期时间如存储30天。

 

问题五:实时处理难度大

自从flink流行后,有稳定的社区资源保障,难度变小了。在flink使用过程中,一般遇到状态管理、大规模状态管理的性能问题、时间管理问题等。对于状态管理可利用状态管理api及定期检查来保证;对于大规模状态管理的性能问题如使用增量检查点和高性能数据库存储状态后端;对于时间管理问题管理好时间窗口和触发器。

 

 

可以关注本人的公众号,多年经验的原创文章共享给大家。

 

 

 

标签:分析,收集,数据,启蒙,日志,电商,社交
From: https://www.cnblogs.com/alunchen/p/18138762

相关文章

  • 客户资料不翼而飞?企业数据保护攻略
    在数字化经济时代,企业的客户资料等同于商业生命线,一旦泄露,后果不堪设想。例如,2017年Equifax的数据泄露事件,造成超过1.4亿用户的个人信息外泄,不仅给用户带来风险,也让公司名誉受损,损失惨重。因此,确保客户资料安全是企业信息安全工作的重中之重。在企业日常运营中,客户资料的安全至......
  • 西门子PLC数据类型1-位、位序列、整数、浮点数、日期时间
     本文摘于西门子官网内容一、位、位序列、整数、浮点数、日期时间基本数据类型:包括位、位序列、整数、浮点数、日期时间。此外字符也属于基本数据类型,请参见文档 String 与 WString。此外BCD码虽然不属于数据类型,但也是一种数字表示方式。1.1位和位序列注意:虽然位......
  • PB数据窗口行如何显示不同颜色
    问题: 大意就是按分组显示颜色思路:我在這使用[訂單]這一欄來做這個例子,結果如下圖 背景顏色的運算式,只以cmp_group_count這欄為例作法1.先加一個運算欄位,這裏命名為cmp_order_no運算式if(訂單<>訂單[-1]orgetrow()=1,1,0)2.再加一個運算欄位,裏裏命......
  • PB中DataWindow的数据保护及实现:只有录入者才能修改数据的实现
    (3)要保护的行只有在执行时才能确定,并且不断变化例如在学生成绩管理中,假设成绩的修改只有该成绩的输入者才有权限,对其他人输入的成绩则只能浏览;由于输入者是变化的,且一般情况下只有在执行时才能确定条件需要一个变量,这就需要在建立DataWindow时为其指定一个检索数据的参数(如fl......
  • c# sqlserver向存储过程传入xml数据
    c#代码:点击查看代码varxmlData=newXDocument(newXElement("Data",query.weldPlanList.Select(r=>newXElement("Row",newXAttribute("APSFactoryID",query.APSFactoryID),......
  • 什么是可散列(hashable)的数据类型
    在Python官方词汇表中,关于hashable类型的定义有这样一段话:Anobjectishashableifithasahashvaluewhichneverchangesduringitslifetime(itneedsahash()method),andcanbecomparedtootherobjects(itneedsaneq()method).Hashableobjectswhichcompa......
  • 裁员了!别错过2024年大数据工程师必备的10项技能
    在当今快速发展的世界中,数据被视为新的石油。随着对数据驱动洞察的日益依赖,大数据工程师的角色比以往任何时候都更为关键。这些专业人员在管理和优化组织内的数据操作中扮演着至关重要的角色。在本文中,我们将探索2024年大数据工程师必须具备的十项技能。理解大数据工程师的角色......
  • 天翼云入选“2023年度数据要素价值创新标杆示范案例”!
    近日,由新一代信息技术产业研究院、赛迪未来产业研究中心共同主办,中国电子学会区块链分会、至顶科技联合承办的“2024未来信息技术大会暨首届数据要素创新发展论坛”于北京成功举办。大会公布了“2023年度数据要素价值创新标杆示范案例”评选结果,天翼云“海南省数据产品超市公共数......
  • 数据库的基本使用-mysql
    https://blog.csdn.net/weixin_50964512/article/details/1246452121.showdatabases;//显示当前已有的数据库2.createdatabasetest2;//创建新的数据库3.usetest1;//使用test1数据库,接下来的操作基于该数据库4.exit;//退出sql//数据表增删改查select*......
  • 【加解密篇】电子数据分析之特殊的自加密BitLocker解密
    数据加解密通常是个耗时费力的事情---【蘇小沐】1实验环境Windows11专业版,[23H2(22631.3007)]1 (一)自动开启BitLocker之天坑1经验之谈在2019、2020年左右开始,新发布的品牌笔记本电脑很多都默认打开了Windows操作系统的BitLocker功能,消费级笔记本电脑预装系统......