首页 > 编程语言 >盘点一个Python网络爬虫+正则表达式处理案例

盘点一个Python网络爬虫+正则表达式处理案例

时间:2022-10-14 07:33:06浏览次数:57  
标签:re Python 爬虫 正则表达式 item print

大家好,我是Python进阶者。

一、前言

前几天在Python白银交流群【鑫】问了一个Python网络爬虫的问题,提问截图如下:

下面是他的代码:

import requests
import re
url = "https://movie.douban.com/top250"
headers = {
     "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36"
}
resp = requests.get(url, headers=headers)
resp.encoding = "utf-8"
pageSource = resp.text
print(pageSource)                 #re.S可以让正则的。匹配换行符
obj = re.compile(r'<div class="item">.*?<span class="title">(?P<name>.*?)</sp'
                 r'an>.*? <p class="">.*?导演:(?P<dao>.*?) <br>'
                 r'(?P<year>.*?) ', re.S)
result = obj.finditer(pageSource)
for item in result:
     print(item.group("name"))
     print(item.group("dao"))
     print(item.group("year"))

二、实现过程

这里【瑜亮老师】指出问题,如下所示:

事实上还是那个正则表达式写的有问题。

跟着视频来敲,有时候视频太老了,或者对应的网页结构改版了,导致原有的代码并不能够适配,导致出错。

修改之后可以得到正确的结果了。

三、总结

大家好,我是Python进阶者。这篇文章主要盘点了一个Python网络爬虫+正则表达式处理的问题,文中针对该问题,给出了具体的解析和代码实现,帮助粉丝顺利解决了问题。

最后感谢粉丝【鑫】提问,感谢【瑜亮老师】给出的思路和代码解析,感谢【dcpeng】、【ᯤ⁶ᴳ】等人参与学习交流。

标签:re,Python,爬虫,正则表达式,item,print
From: https://www.cnblogs.com/dcpeng/p/16790282.html

相关文章

  • python中的字符串/列表查找函数小总结
    find()和index()首先是适用情况,'list'objecthasnoattribute'find',list没有find方法,str全有.返回的情况:查找成功都会返回查找字符串的首位的下标(索引).若......
  • 进入python的世界_day14_python基础——算法、三元表达式、生成式、匿名函数
    一、算法1.介绍​ 算法是通过数学模型运算得到某些数据的过程,在python中通过与代码相结合,可以在特定场景下很方便的解决问题2.应用场景​ 很广,大数据推广就是利用算......
  • Python学习路程——Day14
    Python学习路程——Day14算法简介1、什么是算法''' 算法就是解决问题的有效方法,并不是所有的算法都很高效、也不是所有的算法都合格。'''2、算法应用场景''' 推荐......
  • python 编码规范起源:PEP8 编码规范中文版
     PEP:8标题:Python代码的样式指南版:c451868df657最后修改:​​2016-06-0810:43:53-0400(2016年6月8日星期三)​​作者:GuidovanRossum<guidoatpython.org>,BarryWarsaw<b......
  • python re 模块及正则表达式调用认识(1)
           最近用到正则表达式,虽然看了学习了一些,但是不成体系,没有深刻认识,所以来看官方文档学习下,进行一个半汉化的翻译吧,网上查了很多都不是特别全面,要不就不是纯粹......
  • python编码类型转换及字符集探讨
    一直遇到python编码的问题。常常抓取的网页数据信息,邮件收发信息,涉及到文字处理的,都时不时出现编码的问题。终于,觉得有必要认真了解下这个编码过程和出现对应的问题如何解决......
  • 关于python class
    1、class的定义classX(Y)"MakeaclassnamedXthatis-aY."classX(object):def__init__(self,J)"classXhas-a__init__thattakesselfandJpar......
  • python算法简介与各种生成式
    今日内容概要算法简介及二分法三元表达式各种生成式匿名函数重要内置函数常见内置函数今日内容详细算法简介及二分法1.什么是算法 算法就是解决问题的有校......
  • python函数及算法
    算法二分法二分算法图什么是算法?​ 算法是高效解决问题的办法。需求:有一个按照从小到大顺序排列的数字列表,查找某一个数字#定义一个无序的列表nums=[3,4,5,67,......
  • python爬虫爬取国家科技报告服务系统数据,共计30余万条
    python爬虫爬取国家科技报告服务系统数据,共计30余万条按学科分类【中图分类】共计三十余万条科技报告数据爬取的网址:​​https://www.nstrs.cn/kjbg/navigation​​!!!分析网站......