首页 > 编程语言 >每日(python爬取)

每日(python爬取)

时间:2024-02-24 11:33:05浏览次数:26  
标签:chapter 匹配 python 每日 爬虫 爬取 re url

python 爬取网络小说 清洗 并下载至txt文件

 

什么是爬虫

网络爬虫,也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。

网络搜索引擎等站点通过爬虫软件更新自身的网站内容或其对其他网站的索引。网络爬虫可以将自己所访问的页面保存下来,以便搜索引擎事后生成索引供用户搜索。

爬虫访问网站的过程会消耗目标系统资源。不少网络系统并不默许爬虫工作。因此在访问大量页面时,爬虫需要考虑到规划、负载,还需要讲“礼貌”。 不愿意被爬虫访问、被爬虫主人知晓的公开站点可以使用robots.txt文件之类的方法避免访问。这个文件可以要求机器人只对网站的一部分进行索引,或完全不作处理。

互联网上的页面极多,即使是最大的爬虫系统也无法做出完整的索引。因此在公元2000年之前的万维网出现初期,搜索引擎经常找不到多少相关结果。现在的搜索引擎在这方面已经进步很多,能够即刻给出高质量结果。

爬虫还可以验证超链接和HTML代码,用于网络抓取。

环境:pycharm2017、python3.7

对于初学者来说,爬取小说是最简单的应用,而对于没有任何语法基础的人来说,清晰的逻辑往往比大段的代码更重要。

整个过程分为以下几步:

  1.确定爬取目标(网页,前段页面)

    首先要明确爬虫的原理,是从网页源代码进行进行数据爬取,本次是以http://www.92kshu.cc/69509/为例,进行小说爬取

  2.分析代码,进行数据爬取

    主要用到的是python的正则表达式,对想要爬取数据进行选择

title = re.findall(r'<meta property="og:novel:book_name" content="(.*?)"/>',html)[0]
在此语句中,用的是re库,对字符进行筛选,从网页代码中找到独一无二的标志代码段,进行筛选,如果一次不能直接筛选,则可进行多重,比如实例中,先爬取html,然后爬取dl,只是为了爬取对应章节的地址和每一章节的标题。
用re.findall(r'')进行匹配,需匹配的位置用(.*?)代替.

               正则表达式表

模式描述
^ 匹配字符串的开头
$ 匹配字符串的末尾。
. 匹配任意字符,除了换行符,当re.DOTALL标记被指定时,则可以匹配包括换行符的任意字符。
[...] 用来表示一组字符,单独列出:[amk] 匹配 'a','m'或'k'
[^...] 不在[]中的字符:[^abc] 匹配除了a,b,c之外的字符。
re* 匹配0个或多个的表达式。
re+ 匹配1个或多个的表达式。
re? 匹配0个或1个由前面的正则表达式定义的片段,非贪婪方式
re{ n} 精确匹配 n 个前面表达式。例如, o{2} 不能匹配 "Bob" 中的 "o",但是能匹配 "food" 中的两个 o。
re{ n,} 匹配 n 个前面表达式。例如, o{2,} 不能匹配"Bob"中的"o",但能匹配 "foooood"中的所有 o。"o{1,}" 等价于 "o+"。"o{0,}" 则等价于 "o*"。
re{ n, m} 匹配 n 到 m 次由前面的正则表达式定义的片段,贪婪方式
a| b 匹配a或b
(re) 对正则表达式分组并记住匹配的文本
(?imx) 正则表达式包含三种可选标志:i, m, 或 x 。只影响括号中的区域。
(?-imx) 正则表达式关闭 i, m, 或 x 可选标志。只影响括号中的区域。
(?: re) 类似 (...), 但是不表示一个组
(?imx: re) 在括号中使用i, m, 或 x 可选标志
(?-imx: re) 在括号中不使用i, m, 或 x 可选标志
(?#...) 注释.
(?= re) 前向肯定界定符。如果所含正则表达式,以 ... 表示,在当前位置成功匹配时成功,否则失败。但一旦所含表达式已经尝试,匹配引擎根本没有提高;模式的剩余部分还要尝试界定符的右边。
(?! re) 前向否定界定符。与肯定界定符相反;当所含表达式不能在字符串当前位置匹配时成功
(?> re) 匹配的独立模式,省去回溯。
\w 匹配字母数字及下划线
\W 匹配非字母数字及下划线
\s 匹配任意空白字符,等价于 [\t\n\r\f].
\S 匹配任意非空字符
\d 匹配任意数字,等价于 [0-9].
\D 匹配任意非数字
\A 匹配字符串开始
\Z 匹配字符串结束,如果是存在换行,只匹配到换行前的结束字符串。
\z 匹配字符串结束
\G 匹配最后匹配完成的位置。
\b 匹配一个单词边界,也就是指单词和空格间的位置。例如, 'er\b' 可以匹配"never" 中的 'er',但不能匹配 "verb" 中的 'er'。
\B 匹配非单词边界。'er\B' 能匹配 "verb" 中的 'er',但不能匹配 "never" 中的 'er'。
\n, \t, 等. 匹配一个换行符。匹配一个制表符。等
\1...\9 匹配第n个分组的内容。
\10 匹配第n个分组的内容,如果它经匹配。否则指的是八进制字符码的表达式。

  3.清洗(用python进行清洗)

  replace('a','b'),用b替换a,进行初步清洗,也可以用MapReduce进行清洗。

  4.存入文件

  fb = open('%s.txt' % title,'w',encoding='utf-8')
  建立文件,并且该文件为写入状态,其中%s是占位符,也就是用% title 进行替换

  chapter_url = "http://www.92kshu.cc%s" %chapter_url
  这段代码为连接字符串,与+相比,%s能够节省内存
  fb.write(String)就是来写入文件的语句

源代码

复制代码
 1 #down web pages
 2 
 3 import requests
 4 import re
 5 
 6 url = 'http://www.92kshu.cc/69509/'
 7 response = requests.get(url)
 8 response.encoding = 'gbk'
 9 html = response.text
10 title = re.findall(r'<meta property="og:novel:book_name" content="(.*?)"/>',html)[0]
11 fb = open('%s.txt' % title,'w',encoding='utf-8')
12 #获取每章的内容
13 #print(html)
14 dl = re.findall(r'<dl><dt><i class="icon"></i>正文</dt>(.*?)</dl>',html)[0]
15 print(dl)
16 chapter_info_list = re.findall(r'<dd><a href="(.*?)">(.*?)</a></dd>',dl)
17 #print(chapter_info_list)
18 for chapter_info in chapter_info_list:
19     chapter_url,chapter_title = chapter_info
20     chapter_url = "http://www.92kshu.cc%s" %chapter_url
21     #print(chapter_url)
22     chapter_response = requests.get(chapter_url)
23     chapter_response.encoding = 'gbk'
24     chapter_html = chapter_response.text
25     chapter_content = re.findall(r'<div class="chapter">(.*?)><br>',chapter_html)[0]
26     #print(chapter_content)
27     chapter_content = chapter_content.replace('<p>','')
28     chapter_content = chapter_content.replace('</p>','')
29     fb.write(chapter_title)
30     fb.write(chapter_content)
31     fb.write('\n')
32     print(chapter_url)

标签:chapter,匹配,python,每日,爬虫,爬取,re,url
From: https://www.cnblogs.com/azwz/p/18030890

相关文章

  • 20个改善编码的Python异常处理技巧,让你的代码更高效
    异常处理是写好代码的一个重要的方面,虽然许多开发人员都熟悉基本的try-except块,但是有很多更深入的知识可以使异常处理更高效、更可读和更python化。所以本文将介绍关于Python异常的20个可以显著改善编码的Python异常处理技巧,这些技巧可以让你熟练的掌握Python的异常处理。Python......
  • 《原神》那维莱特自动旋转的Python脚本
    实现代码importtimeimportpydirectinputimportkeyboardif__name__=='__main__':revolve=FalsewhileTrue:time.sleep(0.1)ifkeyboard.is_pressed(','):revolve=Trueprint('Revol......
  • Python的数据类型
    Python3中有六个标准的数据类型:Number(数字)、String(字符串)、List(列表)、Tuple(元组)、Sets(集合)、Dictionary(字典) 在Python3的六个标准数据类型中: 不可变数据(3个):Number(数字)、String(字符串)、Tuple(元组); 可变数据(3个):List(列表)、Dictionary(字典)、Set(集合)。   如何......
  • 如何学习PYTHON(python和c++哪个难学)
    1.如何学习PYTHONPython是一门简单易学的编程语言,但想要真正掌握它需要花费不少时间和精力。我的建议是先从Python基础开始学习,掌握基本语法和常见数据结构,再逐步深入学习高级特性和应用场景。 在学习Python的过程中,https://www.fuligou8.com/noking/4006.html我们可以通过阅......
  • 每日总结
    Scala方法与函数Scala有方法与函数,二者在语义上的区别很小。Scala方法是类的一部分,而函数是一个对象可以赋值给一个变量。换句话来说在类中定义的函数即是方法。Scala中的方法跟Java的类似,方法是组成类的一部分。Scala中的函数则是一个完整的对象,Scala中的函数其实就是......
  • map(python中的字典?)
    目录一、什么是map二、map的创建1.直接创建2.通过make函数创建三、map的取值、改值、增值1.取值、改值、增值实例2.判断key是否存在四、forrange遍历map五、删除map中的元素六、获取map的长度七、map是引用类型八、多类型value的map1.复杂map的定义2.复杂map的......
  • python 加密 变量 (可用于深度学习模型加密)
    需求:深度学习基于pytorch,模型需要加密。查看到网上有使用cryptography加密的方法,如https://blog.csdn.net/weixin_43508499/article/details/124390983,总体思路是调用torch的save函数将模型保存为io.BytesIO,然后使用cryptography将保存为io.BytesIO的字节进行加密,解密......
  • 盘点一个Python自动化办公Excel数据处理的需求
    大家好,我是Python进阶者。一、前言前几天在Python白银交流群【干锅牛蛙】问了一个Python处理Excel数据的问题。问题如下:有两个问题哈:1、表头有合并单元格识别不出来,如何处理类似下图2、遇到单元格有公式自动识别成了0,如何处理,保留计算后的值,类似下图附上他自己的代码如下:目......
  • 基于YOLOv8/YOLOv7/YOLOv6/YOLOv5的快递包裹检测系统(Python+PySide6界面+训练代码)
    摘要:本文介绍了一种基于深度学习的快递包裹检系统系统的代码,采用最先进的YOLOv8算法并对比YOLOv7、YOLOv6、YOLOv5等算法的结果·,能够准确识别图像、视频、实时视频流以及批量文件中的快递包裹。文章详细解释了YOLOv8算法的原理,并提供了相应的Python实现代码、训练数据集,以及基于P......
  • python基础学习8-网络协议、进程与线程
    UDP协议用户数据包协议socketbind()sendall()recvfrom()sendto()close()TCP服务器端流程:使用socket类创建一个套接字对象使用bind((ip,port))方法绑定ip地址和端口号使用listen()方法开始TCP监听使用accept()方法等待客户端的连接使用recv()/send()方法接受发送......