爬取电影天堂最新电影下各个电影标题-电影磁链接

时间：2023-02-28 13:23:46浏览次数：46

import requests
import re

url = 'xxx/index2.htm'

headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/110.0.1587.56'
}

resp = requests.get(url=url, headers=headers)
resp.encoding = 'gb2312'  # 设置字符集,打开页面源代码翻到最上面，会看见charset=gb2312"> 跟着改就行
main_page_text = resp.text

# 匹配主见面最新电影的url
obj = re.compile(r"最新电影下载</a>]<a href='(?P<link>.*?)'>", re.S)
# 匹配标题跟磁链接
obj1 = re.compile(r"译　　名　(?P<name>.*?)[/<]"
                  r".*?<blockquote>(?P<magnet>.*?)</blockquote>", re.S)

# 存放到文件里面
f = open('data.txt', mode='w', encoding='utf-8')

# 把匹配到的放到lst里面
href = obj.finditer(main_page_text)
lst = []
for it in href:
    lst.append(it.group('link'))

#
for l in lst:
    # 拼接url 请求最新电影下的电影详情
    under_url = 'https://dy.dytt8.net/' + l
    under = requests.get(url=under_url, headers=headers)
    under.encoding = 'gb2312'
    under_page_text = under.text

    # 搜索到一次就返回 返回字符串
    # name = obj1.search(under_page_text).group('name').strip()
    # magnet = obj1.search(under_page_text).group('magnet')
    # 如果不设置try的话 会报找不到‘group’
    # AttributeError: 'NoneType' object has no attribute 'group'

    # 再把里面页面的进行re判断提取有用的信息，再统一返回成字典，再把value提取出来放文件里面
    result = obj1.finditer(under_page_text)
    for it in result:
        dic = it.groupdict()
        dic['name'] = dic['name'].strip()  # 去除前后空格
        f.write(f"{dic['name']},{dic['magnet']}")
        f.write('\n')
    under.close()

f.close()
resp.close()
print("完成！！！")

标签：url,text,电影,page,爬取,re,under,链接
From： https://www.cnblogs.com/Wesuiliye/p/17163632.html

python爬取豆瓣Top250（urlliib+re+bs4+xlwt）
frombs4importBeautifulSoupimporturllib.request,urllib.errorimportxlwt#进行excel操作importreimporttime#获取电影名的规则findtitle=re.compil......
王者荣耀英雄图片爬取
王者荣耀英雄图片爬取pyquery库https://pyquery.readthedocs.io/en/latest/官方文档https://github.com/gawel/pyquerygithubpyquery实际上是python中的jquery......
抓取豆瓣电影TOP250标题-年份-评分-评分人数
importcsvimportreimportrequestsheaders={'user-agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/......
基于SpringBoot WebMagic爬虫爬取大乐透双色球
大乐透网页地址:https://kjh.55128.cn/dlt-history-360.htm双色球网页地址:https://kjh.55128.cn/ssq-history-120.htm 注：程序仅用于个人兴趣爱好，不得用于商业行为，本......
Windows驱动开发学习记录-应用层打开设备符号链接在不同系统的区别
驱动层创建{......UNICODE_STRINGusMyControlDevice=RTL_CONSTANT_STRING(MY_CONTROL_DEVICE_NAME); ntStatus=IoCreateDevice(pDriverObject,NULL,......
一键找出电脑上小电影
一键找出朋友电脑里的小电影，图片，或者音乐。复制到桌面打开打开记事本，复制脚本，保存后缀为.Bat【bat脚本】echooffcolor0atitleGETALLCapturemodecon:cols=50li......
【ubuntu20.04】编译 v83x_pillow_0.7.2 会被链接到 /usr/include/x86_64-linux-gnu
有点愚蠢，记录一下，先编过去，然后再把x86_64-linux-gnu移回来，估计是我环境变量脏了。juwan@juwan-n85-dls:~/v831/out/v831-sipeed/compile_dir/target/pypi/Pillow-7.2.0$......
WPF 获取拖拽网页图片链接
在浏览器里拖拽一个元素，我只获取图片链接privatevoidGrid_PreviewDragOver(objectsender,DragEventArgse){e.Effects=DragDropEffects.A......
链接数据库
在Java下创建一个包右键java→new→packge 名字com.baidu.pojo 右键新建的com.baidu.pojo→new→class class名字User 对应列写privateintuid;写......
协议-Magnet协议磁力链接（Magnet URI scheme）
MagNet协议磁力链接（MagnetURIscheme）一个常见的磁力链接形式为“magnet:?xt=urn:btih:”磁力链接（MagnetURIscheme）实际就是以“magnet：？”开头的一种链接协议，与传统BT......

爬取电影天堂最新电影下各个电影标题-电影磁链接

相关文章

赞助商

阅读排行