首页 > 其他分享 >09通过正则表达式提取电影名称

09通过正则表达式提取电影名称

时间:2023-08-03 13:11:06浏览次数:33  
标签:nnyy 提取 正则表达式 text 09 re sec data best

import requests
import re
from time import sleep

# 目标电影网;https://nnyy.best/ ,爬取电影名字做测试。
res = requests.session()
headers = {
    'authority': 'nnyy.best',
    'cache-control': 'max-age=0',
    'upgrade-insecure-requests': '1',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
    'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
    'sec-fetch-site': 'same-origin',
    'sec-fetch-mode': 'navigate',
    'sec-fetch-user': '?1',
    'sec-fetch-dest': 'document',
    'referer': 'https://nnyy.best/dianying?page=2',
    'accept-language': 'zh-CN,zh;q=0.9',
}
for j in range(1,11):
    params = {
        'page': j,
    }
    print(f"爬取第{j}页")
    response = res.get('https://nnyy.best/dianying', params=params, headers=headers)

    data = response.text
    # data_text = re.findall(r'<a href="/movie/.*?truncate group-hover:.*?text-center">(.*?)</a>',data,re.S)
    data_text = re.findall(r'<a href="/movie/.*?\[#ec2d7a] text-center">(.*?)</a>', data, re.S)
    for i in data_text:
        print(i)
    sleep(3)

  

标签:nnyy,提取,正则表达式,text,09,re,sec,data,best
From: https://www.cnblogs.com/chenzhi2023/p/17603059.html

相关文章

  • 初学C语言day09--宏定义
    预处理指令程序员所编写的代码并不是能被编译器直接编译的标准C代码,需要一段程序翻译一下翻译的程序称为预处理器,翻译的过程叫做预处理,需要被翻译的代码叫做预处理指令,以#开头的都是预处理指令查看预处理结果:gcc-Ecode.c把预处理的结果显示到终端gcc-Ecode.c-ocode......
  • 算法-09-插入排序
       ......
  • nfls15095 Atcoder-abc123_d 蛋糕
    Atcoder-abc123_dAT小卖部从下学期开始售卖带有数字形状的蛋糕,\(X\),\(Y\)和\(Z\)种蛋糕分别带有\(1\)形,\(2\)形和\(3\)形蜡烛,而且每个蛋糕都有美味值,如下所示:带有\(1\)形蜡烛的美味值有:\(A_1,A_2,\cdots,A_X\)带有\(2\)形蜡烛的美味值有:\(B_1,B_2,\cdots,B_Y\)......
  • 正则表达式学习记录
    re正则表达式总结0、一般字符字符意义.a.c→abc,aic,a&c等(不包括换行符\转义字符,让字符变回原来的意思[...]在括号中任选一个:a[bcd]→ab,ac,ad1、预定义字符字符意义\d匹配一个数字字符,等价于[0-9]\D匹配一个非数字字符,等价于......
  • H - Collecting Bugs POJ-2096
    H-CollectingBugsPOJ-2096期望dp题意根据题意可以将原题意转换成:有个\(n*s\)的矩阵,每次会随机选取一个格子填上颜色,问每行每列都填上颜色的期望次数。思路dp,显然是期望dp,那么设\(dp_{i,j}\)为已经有\(i\)行\(j\)列填上颜色,到目标还需的次数的期望,那么每次......
  • Tomcat9 无法启动组件[Connector[AJP/1.3-8009]]
    无法启动组件[Connector[AJP/1.3-8009]]在tomcat中开启ajp后,启动tomcat遇到错误无法启动组件[Connector[AJP/1.3-8009]]。错误原因缺少配置项secretRequired。tomcat9提供的默认的AJP配置如下:<Connectorprotocol="AJP/1.3"address="::1"port="800......
  • JS常用正则表达式
    1.文本框输入验证<!--限制文本框只能输入正数--><inputtype="text"οnkeyup="this.value=this.value.replace(/\D/g,'')"/><!--限制文本框只能输入正数、小数--><inputtype="text"οnkeyup="this.value=this.value.replace(/[^......
  • JS正则表达式大全
    字符含意\做为转意,即通常在"\"后面的字符不按原来意义解释,如/b/匹配字符"b",当b前面加了反斜杆后/\b/,转意为匹配一个单词的边界。 -或- 对正则表达式功能字符的还原,如"*"匹配它前面元字符0次或多次,/a*/将匹配a,aa,aaa,加了"\"后,/a\*/将只匹配"a*"。^匹配一个输入或一行的开头,/^a/匹......
  • 009 python socket UDP服务端程序,在pycharm正常运行,生成的exe运行有时候接收不到数据,
    写了一个简单的socket服务端程序,在pycharm中正常,生成exe后运行,有时候接收不到数据。经过半天折腾,发现,只要按一下回车,程序又能正常运行了。最终发现,是因为控制台的快速编辑功能打开导致程序假死。在控制台程序的菜单栏右键点击--->默认值--->去掉“快速编辑模式”和“插入模式”......
  • day09
    Python常用模块time模块(时间)importtime时间戳时间戳(timestamp):时间戳表示的是从1970年1月1日00:00:00开始按秒计算的偏移量。importtimetime_stamp=time.time()print(time_stamp,type(time_stamp))1690376372.7548702<class'float'>格式化时间格式化的时间字......