首页 > 其他分享 >数据采集的数据源有哪些?

数据采集的数据源有哪些?

时间:2022-12-01 10:38:46浏览次数:42  
标签:哪些 数据源 抓取 爬虫 采集 Requests Pandas

从数据采集角度来说,都有哪些数据源呢?

这四类数据源包括了:开放数据源、爬虫抓取、传感器和日志采集

开放数据源一般是针对行业的数据库。国内,贵州做了不少大胆尝试,搭建了云平台,逐年开放了旅游、交通、商务等领域的数据量

爬虫抓取,一般是针对特定的网站或 App。如果我们想要抓取指定的网站数据,比如购物网站上的购物评价等,就需要我们做特定的爬虫抓取。

第三类数据源是传感器,它基本上采集的是物理信息。比如图像、视频、或者某个物体的速度、热度、压强等。

最后是日志采集,这个是统计用户的操作。我们可以在前端进行埋点,在后端进行脚本收集、统计,来分析网站的访问情况,以及使用瓶颈等


如何使用开放数据源

一个是单位的维度,比如政府、企业、高校;一个就是行业维度,比如交通、金融、能源等领域

如何使用爬虫做抓取

在 Python 爬虫中,基本上会经历三个过程。

1、使用 Requests 爬取内容。我们可以使用 Requests 库来抓取网页信息。Requests 库可以说是 Python 爬虫的利器,也就是 Python 的 HTTP 库,通过这个库爬取网页中的数据,非常方便,可以帮我们节约大量的时间。

2、使用 XPath 解析内容。XPath 是 XML Path 的缩写,也就是 XML 路径语言。它是一种用来确定 XML 文档中某部分位置的语言,在开发中经常用来当作小型查询语言。XPath 可以通过元素和属性进行位置索引。

3、使用 Pandas 保存数据。Pandas 是让数据分析工作变得更加简单的高级数据结构,我们可以用 Pandas 保存爬取的数据。最后通过 Pandas 再写入到 XLS 或者 MySQL 等数据库中。

标签:哪些,数据源,抓取,爬虫,采集,Requests,Pandas
From: https://blog.51cto.com/u_15135810/5901228

相关文章

  • 好用不贵的BI数据分析软件有哪些?奥威BI性价比高吗?
    选BI最怕选到又贵又不好用的。勉强用,不能很好地发挥辅助企业数字化运营决策的作用;不用,对整个企业的长久运营管理不利。有没有好用不贵的BI数据分析软件?奥威BI的性价比高吗?纵......
  • vue和uni-app的区别有哪些
    vue和uni-app的区别:1、uni-app可以通过打包实现一套代码多端运行,而vue不行;2、uni-app有自动的框架预载,加载页面的速度更快,vue没有;3、uniapp使用小程序的标签,vue使用web端......
  • <一>对象使用过程中背后调用了哪些方法
    代码1#include<iostream>usingnamepspacestd;classTest{ public: Test(inta=10):ma(a){cout<<"Test()"<<endl;} ~Test(){cout<<"~Test()"<<endl;} Tes......
  • Clover引导都支持哪些.efi文件
    接下来给大家介绍EFI/Clover/drivers/UEFI目录下可能会用到的一些​​.efi​​文件:1.AptioInputFix.efi「为使用AMIUEFIBIOS的主板提供FileVault2键盘驱动」2.ApfsDrive......
  • Clover引导都支持哪些.efi文件
    接下来给大家介绍EFI/Clover/drivers/UEFI目录下可能会用到的一些​​.efi​​文件:1.AptioInputFix.efi「为使用AMIUEFIBIOS的主板提供FileVault2键盘驱动」2.ApfsDrive......
  • 数据采集有什么作用
    数据采集是通过数据采集器来实现的。网页数据采集其实是一种可以影响各行各业的产业,发展到现在,它有着广泛的用途,这里列举一些比较常见的用途,当然他的用途不止这些,要列举的很......
  • 大数据学习6之分布式日志收集框架Flume——Flume实战应用之从指定的网络端口采集数据
    从指定的网络端口采集数据输出到控制台进入官网,查看文档,settingupanagent,看到asimpleexample使用Flume的关键就是写flume的agent配置文件1.配置source2.配置channel......
  • springboot之整合druid&配置数据源监控
    1-mavenrepository中搜索druid,引入druid数据源<!--https://mvnrepository.com/artifact/com.alibaba/druid--><dependency><groupId>com.alibaba</groupId>......
  • Python学习(二):字符串常用函数有哪些?
    1.检验字符串长度:len(str);a="hellopython"len(a)12a="hellopython"len(a[::2])##从头取到尾,隔一个取值的长度6 2.切割字符串:obj.split(str);a="hell......
  • 智能云解析DNS有哪些核心技术?-中科三方
    ​传统解析技术经常出现线路拥堵、解析延迟、遭受DDoS攻击和DNS劫持等问题,已无法满足用户和企业对解析及时性、稳定性和安全性的需求。​​智能云解析DNS​​做为新一代解析......