群里有个小妹妹,让我帮她写的代码,好像是作业什么的。花了几分钟看了一下,随便写写,分享给有需要的童鞋,我用python 3 写的,实现的功能就是:爬取豆瓣短评,然后将数据写入本地的excel表格,数据大概有,电影名称,评分,评论人数,短评四项,稍微修改下也可以爬取其他数据。
这属于入门学习的爬虫,博客里的代码,复制到本地,直接就能跑,有些包需要自己安装一下,安装教程自行百度。代码如下:
#-*- coding:UTF-8 -*-
#2018/12/24
#made in baiye
#爬取豆瓣短评,然后将数据写入本地的excel表格,数据大概有,电影名称,评分,评论人数,短评四项。
import requests
from bs4 import BeautifulSoup
import re
import time
import xlrd
import xlwt
from xlutils.copy import copy
#获取页面源码
def getHTMLText(url,k):
try:
if(k==0):kw={}
else: kw={'start':k,'filter':''}
r = requests.get(url,params=kw,headers={'User-Agent': 'Mozilla/4.0'})
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
print("Failed!")
#通过BeautifulSoup查找所需要的数据
def getData(html,n,files):
soup = BeautifulSoup(html, "html.parser")
movieList=soup.find('ol',attrs={'class':'grid_view'})#找到第一个class属性值为grid_view的ol标签
for movieLi in movieList.find_all('li'):#找到所有li标签
n += 1
data = []#声明一个list,将得到的数据添加进list
#得到电影名字
movieHd=movieLi.find('div',attrs={'class':'hd'})#找到第一个class属性值为hd的div标签
movieName=movieHd.find('span',attrs={'class':'title'}).getText()#找到第一个class属性值为title的span标签
#也可使用.string方法
data.append(movieName)
#得到电影的评分
movieScore=movieLi.find('span',attrs={'class':'rating_num'}).getText()
data.append(movieScore)
#得到电影的评价人数
movieEval=movieLi.find('div',attrs={'class':'star'})
movieEvalNum=re.findall(r'\d+',str(movieEval))[-1]
data.append(movieEvalNum)
# 得到电影的短评
movieQuote = movieLi.find('span', attrs={'class': 'inq'})
if(movieQuote):
data.append(movieQuote.getText())
else:
data.append("无")
#将数据循环写入excel文件
c = 0
for r in data:
rexcel = xlrd.open_workbook(files) # 用wlrd提供的方法读取一个excel文件
excel = copy(rexcel) # 用xlutils提供的copy方法将xlrd的对象转化为xlwt的对象
table = excel.get_sheet(0) # 用xlwt对象的方法获得要操作的sheet
if len(r) > 32767:
continue
table.write(n, c, r) # xlwt对象的写方法,参数分别是行、列、值
c += 1
excel.save(files)
if __name__ == '__main__':
k=0
n = 0
files = 'top100.xls'#保存的位置,默认是当前执行目录下。
workbook = xlwt.Workbook()
sheet = workbook.add_sheet("sheet1")
sheet.write(0,0,"电影名称")
sheet.write(0,1,"评分")
sheet.write(0,2,"评论人数")
sheet.write(0,3,"短评")
workbook.save(files)#当前目录下创建test.xls文件
basicUrl='https://movie.douban.com/top250'
while k<=75:
html=getHTMLText(basicUrl,k)
time.sleep(2)
k+=25#每页25条,循环一次加25
getData(html,n,files)
n += 25#用于控制excel表的行数
爬取部分结果展示:
标签:短评,sheet,示例,excel,class,爬取,import,data,find From: https://blog.51cto.com/u_14480168/6345080