首页 > 其他分享 >爬虫案例分享

爬虫案例分享

时间:2023-06-12 15:34:56浏览次数:40  
标签:title 爬虫 find 爬取 案例 div 分享 page recent

案例

import requests #如果报红,电脑控制台执行:python -m pip install requests,下载即可
from bs4 import BeautifulSoup


title=[] #所有文章标题

#因为需要爬取的数据,不单单存在一个页面,所以需要分析目标网站的URL规律,构造出每一页的URL,并逐个爬取
for page in range(4): #目标网页总页数
    url = f'https://www.cnblogs.com/KeFeng/?page={page+1}' #目标网页,因为page是从0开始,但网页的第一页是从1开始,所以需要加1
    response = requests.get(url) #发起一个GET请求
    soup = BeautifulSoup(response.content, 'html.parser') #获取目标网页所有元素,目前跟我们按F12看见的内容一样
    #开始解析
    #使用find方法获取class为forFlow的标签,并使用find_all方法获取该div下的所有class为postTitle的div标签,也就是要爬取内容的标签
    recent_list = soup.find('div', {'class': 'forFlow'}).find_all('div', {'class': 'postTitle'})
    title.append(f'\n------------第{page+1}页数据-------------')
    for recent in recent_list:
        # 使用get_text()方法获取文本内容,也就是去除文本以外的内容
        # 使用strip()方法去除字符串开头和结尾的空格(包括换行符,制表符等空白字符)
        recent_title = recent.get_text().strip()
        title.append(recent_title) #将解析完的内容添加到列表

# 循环输出爬取的内容
for t in title:
    print(t)


#将爬取结果生成一个word文档
from docx import Document

document = Document() # 创建一个新的 Word 文档

# 将列表添加到文档中
for item in title:
    document.add_paragraph(item, style='List Bullet')

document.save('爬取结果.docx') # 保存文档

注意

  • 爬取过程需要网络

标签:title,爬虫,find,爬取,案例,div,分享,page,recent
From: https://www.cnblogs.com/KeFeng/p/17398625.html

相关文章

  • 智能ai写作,智能ai写作软件分享!​
    智能ai写作,智能AI写作是指利用人工智能技术,让计算机系统自动化地生成各种类型的文本内容。这种技术可以用于生成各种类型的文章,包括新闻报道、广告文案、产品描述、科技论文等等。智能AI写作的目的是提高文本内容的生成效率和质量,减少人力成本和时间成本,那么很多小伙伴不知道使用什......
  • 怎么利用代理IP优化网络爬虫
    网络爬虫会自动扫描互联网,搜集大量数据并将它们组织起来。但是,许多网站都采取了反爬虫策略,限制了网络爬虫的活动。这时候,代理IP就起到了关键作用。  一、代理ip在网络爬虫中的作用  代理ip爬虫中使用代理IP有很多好处。首先,它可以避免爬虫的真实IP地址被网站识别并被封禁......
  • 机器鱼的制作分享
    1.运动功能说明    本文示例将实现R330样机机器鱼胸鳍能够灵活的上下摆动的功能。2.结构说明    本样机采用舵机模块来进行仿生机器鱼结构的设计。胸鳍整机3.电子硬件    在这个示例中,我们采用了以下硬件,请大家参考:    电路连接:将舵机连接在Bigfis......
  • Java XML教程_编程入门自学教程_菜鸟教程-免费教程分享
    教程简介XML是一种简单的基于文本的语言,旨在以纯文本格式存储和传输数据。它代表可扩展标记语言。JavaXML入门教程-从基本到高级概念的简单步骤了解JavaXML,其中包括概述,JavaXML解析器,DOM解析器,解析XML文档,查询XML文档,创建XML文档,修改XML文档,SAX解析器,JDOMXMLParser,StAXP......
  • 如何高质量完成java爬虫
    Java爬虫是通过Java语言编写的网络爬虫程序,用于自动化地浏览和抓取互联网上的数据,并将数据进行处理和保存。为了编写高效且不容易被检测出来的Java爬虫,通常需要掌握Java语言以及与之相关的库和框架,如Jsoup、HttpClient、Selenium等。那么如何快速完成爬虫项目?具体有哪些流程呢?......
  • 学好Java爬虫需要什么技巧
    Java爬虫是一种利用Java编程语言编写的网络爬虫程序,它可以自动化地浏览和抓取互联网上的数据,并将数据进行处理和保存。Java爬虫通常使用HTTP协议模拟浏览器请求来获取网页内容,并通过解析HTML网页标签和属性等信息来提取有用的数据。Java爬虫也需要应对反爬虫机制,如IP封禁、验证码......
  • CSS选择器——简单爬虫代码
    爬取豆瓣top250影片资料(待修改)使用BeautifulSoup方法进行操作,CSS选择器截取html文本内容,对网页解析如。 importrequestsfrombs4importBeautifulSoup#避免反复获取出现爬取失败#头请求用于防止访问拒绝,亦可加cookiesdefpage_request(url,headers):htmltxt=requests.g......
  • 使用Xpath编写爬虫代码
    Xpath选择器爬取房源信息实例获取网页html,未处理子网页信息。python3.6foriinrange(1,101):print('正在爬取第'+str(i)+'页')#爬取北京上海广州深圳的二手房信息city=['bj','sh','gz','sz']forcincity:......
  • 利用AI点亮副业变现:5个变现实操案例的启示
    整体思维导图:在这里先分享五个实操案例:宝宝起名服务AI科技热点号头像壁纸号小说推广号流量营销号你们好,我是小梦。最初我计划撰写一篇关于AI盈利策略的文章,对AI目前的技术走向、应用场景以及盈利案例进行全面整理。然而,当我实际开始写作时,我发现这个话题的复杂度超乎......
  • Dubbo的spi机制分析和实战案例
    留下来一个问题,想深入学习Dubbo源码,你需要具备哪些技术点。技术点Springxml自定义标签或通过@DubboComponentScan("con.tian.dubbo.service")扫描@DubboService注解设计模式:模板方法模式、装饰器模式、责任链模式、代理模式、工厂模式Netty基本知识:创建服务端和客户端,handler,编......