代码如下:
# 1. 定位到电影天堂必看片栏目 # 2. 从其中提取到子页面的连接地址 # 3. 请求子页面的连接地址并拿到下载地址 import requests import re domain = "https://dy.dytt8.net/index2.htm" resp = requests.get(domain, verify=False)# verify=False 去掉了安全验证 resp.encoding = "gbk"#发现该网页使用的字符编码规范(charset)是"gb2312",而默认编码为utf-8,所以需要修改 print(resp.text)
# 1. 定位到电影天堂必看片栏目 obj1 = re.compile(r"最新电影更新.*?<ul>(?P<ul>.*?)</ul>", re.S) result1 = obj1.finditer(resp.text) for it in result1: ul = it.group('ul') print(ul)
标签:看片,re,python,resp,电影,爬取,ul,天堂 From: https://www.cnblogs.com/slowlydance2me/p/16834351.html