首页 > 其他分享 >爬取旅游景点评论数据,并可视化

爬取旅游景点评论数据,并可视化

时间:2022-10-14 15:32:20浏览次数:71  
标签:旅游景点 text class li 爬取 可视化 数据 find


对于数据分析师来说,数据获取通常有两种方式,一种是直接从系统本地获取数据,另一种是爬取网页上的数据,爬虫从网页爬取数据需要几步?总结下来,Python爬取网页数据需要发起请求、获取响应内容、解析数据、保存数据共计4步。

本文使用Python爬取去哪儿网景点评论数据共计100条数据,数据爬取后使用Tableau Public软件进行可视化分析,从数据获取,到数据清洗,最后数据可视化进行全流程数据分析,下面一起来学习。



示例工具:anconda3.7、Tableau Public

本文讲解内容:数据获取、数据可视化

适用范围:网页数据获取及评论分析



爬取旅游景点评论数据,并可视化_数据

数据获取

代码及数据获取

公众号后台回复

1206

获取完整代码和数据集


数据爬取实例,喜欢就转发分享一下呗~

网页数据爬取

Python爬取网页数据需要发起请求、获取响应内容、解析数据、保存数据共计4步,懂的数据爬取的原理后,进行数据爬取。

爬取旅游景点评论数据,并可视化_保存数据_02

1、发起请求

以去哪儿旅行网站为例,爬取网页数据,首先发送请求。

爬取旅游景点评论数据,并可视化_保存数据_03


importu='https://travel.qunar.com/p-cs300100-xian-jingdian'#爬取网址response=requests.get(u)print('状态码:{}'.format(response.status_code))if response.status_code != 200:passelse:"服务器连接正常")

爬取旅游景点评论数据,并可视化_数据获取_04

这里返回状态码为200,说明服务器连接正常,可以进行数据爬取。

2、获取响应内容

服务器连接正常后,直接打印返回内容,这里返回整个网页html。


print(response.text)

爬取旅游景点评论数据,并可视化_数据获取_05

3、解析数据

网页结构由复杂的html语言构成,这里借助BeautifulSoup库进行解析。

爬取旅游景点评论数据,并可视化_数据获取_06




from bs4 import BeautifulSoup
ri = requests.get(url=u)soupi=BeautifulSoup(ri.text,'lxml')#解析网址ul=soupi.find('ul',class_='list_item clrfix')lis = ul.find_all('li')lis

爬取旅游景点评论数据,并可视化_数据获取_07

对于特定的标签进行定位,输出text。




print(soupi.h1.text)#标签定位,输出textlis=ul.find_all('li')print(lis[0].text)

爬取旅游景点评论数据,并可视化_数据获取_08

建立一个字典,解析目标标签内容。



li1=lis[0]dic={}dic['景点名称']=li1.find('span',class_="cn_tit").textdic['攻略提到数量']=li1.find('div',class_="strategy_sum").textdic['评论数量']=li1.find('div',class_="comment_sum").textdic['lng']=li['data-lng']dic['lat']=li['data-lat']dic

爬取旅游景点评论数据,并可视化_保存数据_09

使用for循环解析标签内容。


importfrom bs4 importu1='https://travel.qunar.com/p-cs300100-xian-jingdian'ri=requests.get(url= u1)
soupi=BeautifulSoup(ri.text,'lxml')#解析网址ul=soupi.find('ul',class_='list_item clrfix')lis=ul.find_all('li')for li in dic={}'景点名称']=li.find('span',class_="cn_tit").text'攻略提到数量']=li.find('div',class_="strategy_sum").text'评论数量']=li.find('div',class_="comment_sum").text'lng']=li['data-lng']'lat']=li['data-lat']print(dic)

爬取旅游景点评论数据,并可视化_数据获取_10

根据翻页规律设置翻页数,这里设置一个列表,用来循环爬取前十页数据。


#根据翻页规律,设置翻页数urllst=[]for i in range(11):append('https://travel.qunar.com/p-cs300100-xian-jingdian'+str('-1-')+str(i))    urllst=urllst[2:11]'https://travel.qunar.com/p-cs300100-xian-jingdian')urllst

爬取旅游景点评论数据,并可视化_数据_11

4、保存数据

新建一个空的数据框,用于保存数据。


import pandas asdic = pd.DataFrame(columns=["景点名称", "攻略提到数量", "评论数量", "lng", "lat"])dic

爬取旅游景点评论数据,并可视化_数据_12

在空的数据框中保存第一条数据,并且使用for循环,依次爬取其余页面的数据。



n=0dic.loc[n, '景点名称'] = li.find('span', class_="cn_tit").textdic.loc[n, '攻略提到数量'] = li.find('div', class_="strategy_sum").textdic.loc[n, '评论数量'] = li.find('div', class_="comment_sum").textdic.loc[n, 'lng'] = li['data-lng']dic.loc[n, 'lat'] = li['data-lat']dic

爬取旅游景点评论数据,并可视化_数据_13

数据可视化


打开Tableau Public软件,点击连接到Microsoft Excel,根据路径导入我们需要的Excel数据。

爬取旅游景点评论数据,并可视化_数据获取_14

数据格式转换,右键Abc调出属性,将数值均调整为数字(整数)。

爬取旅游景点评论数据,并可视化_数据获取_15

右键数值设置地理角色,将Lng地理角色设置为经度,将Lat地理角色设置为纬度。

爬取旅游景点评论数据,并可视化_数据获取_16

点击工作表1,进入可视化界面。

爬取旅游景点评论数据,并可视化_数据_17

1、地图可视化

将Lng拖入到列,Lat拖入到行,评论数量拖入到大小,景点名称拖入到标签。

爬取旅游景点评论数据,并可视化_保存数据_18

由地图可以得知,秦始皇帝陵博物院的评论数据量最多。

爬取旅游景点评论数据,并可视化_保存数据_19

2、共享轴柱形图

将景点名称拖入到列,作为公共轴,评论数量和攻略提到数量拖入到行作为求和值。并且设置数据标签和颜色。

爬取旅游景点评论数据,并可视化_保存数据_20

由图像来看,秦始皇帝陵博物院的评论数据量最多,回民街攻略提到数量最多。

爬取旅游景点评论数据,并可视化_数据获取_21

3、词云图

将景点名称拖入到行,攻略提到数量拖入到列,在智能推荐里勾选气泡图。

爬取旅游景点评论数据,并可视化_数据获取_22

将数据标签标记设置为文本,调整文本颜色。

爬取旅游景点评论数据,并可视化_数据_23

由图像来看,回民街攻略提到数量最多,秦始皇帝陵博物院的攻略次之。

爬取旅游景点评论数据,并可视化_数据获取_24


标签:旅游景点,text,class,li,爬取,可视化,数据,find
From: https://blog.51cto.com/u_15828536/5757045

相关文章