数据采集的数据源有哪些？

时间：2022-12-01 10:38:46浏览次数：47

标签：哪些数据源抓取爬虫采集 Requests Pandas

从数据采集角度来说，都有哪些数据源呢？

这四类数据源包括了：开放数据源、爬虫抓取、传感器和日志采集

开放数据源一般是针对行业的数据库。国内，贵州做了不少大胆尝试，搭建了云平台，逐年开放了旅游、交通、商务等领域的数据量

爬虫抓取，一般是针对特定的网站或 App。如果我们想要抓取指定的网站数据，比如购物网站上的购物评价等，就需要我们做特定的爬虫抓取。

第三类数据源是传感器，它基本上采集的是物理信息。比如图像、视频、或者某个物体的速度、热度、压强等。

最后是日志采集，这个是统计用户的操作。我们可以在前端进行埋点，在后端进行脚本收集、统计，来分析网站的访问情况，以及使用瓶颈等

如何使用开放数据源

一个是单位的维度，比如政府、企业、高校；一个就是行业维度，比如交通、金融、能源等领域

如何使用爬虫做抓取

在 Python 爬虫中，基本上会经历三个过程。

1、使用 Requests 爬取内容。我们可以使用 Requests 库来抓取网页信息。Requests 库可以说是 Python 爬虫的利器，也就是 Python 的 HTTP 库，通过这个库爬取网页中的数据，非常方便，可以帮我们节约大量的时间。

2、使用 XPath 解析内容。XPath 是 XML Path 的缩写，也就是 XML 路径语言。它是一种用来确定 XML 文档中某部分位置的语言，在开发中经常用来当作小型查询语言。XPath 可以通过元素和属性进行位置索引。

3、使用 Pandas 保存数据。Pandas 是让数据分析工作变得更加简单的高级数据结构，我们可以用 Pandas 保存爬取的数据。最后通过 Pandas 再写入到 XLS 或者 MySQL 等数据库中。

标签：哪些,数据源,抓取,爬虫,采集,Requests,Pandas
From： https://blog.51cto.com/u_15135810/5901228

好用不贵的BI数据分析软件有哪些？奥威BI性价比高吗？
选BI最怕选到又贵又不好用的。勉强用，不能很好地发挥辅助企业数字化运营决策的作用；不用，对整个企业的长久运营管理不利。有没有好用不贵的BI数据分析软件？奥威BI的性价比高吗？纵......
vue和uni-app的区别有哪些
vue和uni-app的区别：1、uni-app可以通过打包实现一套代码多端运行，而vue不行；2、uni-app有自动的框架预载，加载页面的速度更快，vue没有；3、uniapp使用小程序的标签，vue使用web端......
<一>对象使用过程中背后调用了哪些方法
代码1#include<iostream>usingnamepspacestd;classTest{ public: Test(inta=10):ma(a){cout<<"Test()"<<endl;} ~Test(){cout<<"~Test()"<<endl;} Tes......
Clover引导都支持哪些.efi文件
接下来给大家介绍EFI/Clover/drivers/UEFI目录下可能会用到的一些.efi文件：1.AptioInputFix.efi「为使用AMIUEFIBIOS的主板提供FileVault2键盘驱动」2.ApfsDrive......
Clover引导都支持哪些.efi文件
接下来给大家介绍EFI/Clover/drivers/UEFI目录下可能会用到的一些.efi文件：1.AptioInputFix.efi「为使用AMIUEFIBIOS的主板提供FileVault2键盘驱动」2.ApfsDrive......
数据采集有什么作用
数据采集是通过数据采集器来实现的。网页数据采集其实是一种可以影响各行各业的产业，发展到现在，它有着广泛的用途，这里列举一些比较常见的用途，当然他的用途不止这些，要列举的很......
大数据学习6之分布式日志收集框架Flume——Flume实战应用之从指定的网络端口采集数据
从指定的网络端口采集数据输出到控制台进入官网，查看文档，settingupanagent，看到asimpleexample使用Flume的关键就是写flume的agent配置文件1.配置source2.配置channel......
springboot之整合druid&配置数据源监控
1-mavenrepository中搜索druid,引入druid数据源<dependency><groupId>com.alibaba</groupId>......
Python学习（二）：字符串常用函数有哪些？
1.检验字符串长度：len(str)；a="hellopython"len(a)12a="hellopython"len(a[::2])##从头取到尾，隔一个取值的长度6 2.切割字符串：obj.split(str)；a="hell......
智能云解析DNS有哪些核心技术？-中科三方
传统解析技术经常出现线路拥堵、解析延迟、遭受DDoS攻击和DNS劫持等问题，已无法满足用户和企业对解析及时性、稳定性和安全性的需求。智能云解析DNS做为新一代解析......

数据采集的数据源有哪些？

相关文章

赞助商

阅读排行