首页 > 其他分享 >爬取汽车之家新闻首页数据

爬取汽车之家新闻首页数据

时间:2023-12-15 09:55:21浏览次数:35  
标签:name title 新闻 li 爬取 ul 首页 import find

1.分析网页

  如下图所知,该网页是一次性将所有数据全部返回

2.使用get请求也可以正常获取数据

1 import requests
2 res=requests.get('https://www.autohome.com.cn/news/1/#liststart').text
3 print(res)

  输出:

 3.解析页面

 4.解析数据

import bs4
import requests
from bs4 import BeautifulSoup
import pymysql
conn = pymysql.connect(
    user='root',
    password="123456",
    host='127.0.0.1',
    database='news'
)
cursor = conn.cursor()
for i in range(100):
    res = requests.get('https://www.autohome.com.cn/news/%s/#liststart'%i)
    soul = BeautifulSoup(res.text, 'lxml')
    #查询所有ul标签,class=article的元素
    ul_list = soul.find_all(name='ul', class_='article')
    for ul in ul_list:
        #查询出ul标签下所有li元素
        li_list = ul.find_all(name='li')
        for li in li_list:
            # 查询li标签下的h3标签
            title = li.find(name='h3')
            # 因为有广告的存在,做一层判断过滤广告
            if title:
                title = title.text
                desc = li.find(name='p').text
                address = 'https:' + li.find(name='a').attrs.get('href')
                img = li.find(name='img').attrs.get('src')
                print(title)
                # 存入数据库
                cursor.execute('insert into news (title,img,address,`desc`) values (%s,%s,%s,%s)', args=[title, img, address, desc])
                conn.commit()

  爬取一百页后数据如下

 

标签:name,title,新闻,li,爬取,ul,首页,import,find
From: https://www.cnblogs.com/Hao12345/p/17902715.html

相关文章

  • 大模型变身双面人:虚假新闻制造机VS假新闻鉴别大师!
    大家是怎样看待大型语言模型生成信息的可靠性呢?尽管大语言模型生成的内容“像模像样”,但这些模型偶尔的失误揭示了一个关键问题:它们生成的内容并不总是真实可靠的。那么,这种“不保真”特性能否被用来制造虚假信息呢?最近,一篇论文正好针对这一议题进行了探讨:我们能否利用大型语言模型......
  • 【Python爬虫】Scrapy框架处理分页爬取+cookie登录_17k小说网
    简介本文主要讲常规分页爬取与利用Scrapy框架怎么快捷的爬取分页的数据以及cookie登录,案例网站时17k小说网,url是https://www.17k.com/常规分页爬取Scrapy框架分页爬取cookie登录分页常规分页爬取常规分页爬取,直接观察页面数据,一共有多少页数据,就for循环多少次classXiao......
  • 提高爬取 10GB 数据效率的方法
    在进行大规模数据爬取时,面临的最大问题之一是效率。如何在较短时间内获取足够的数据成为了数据处理和分析的关键。以下是一些提高爬取10GB数据效率的方法:1.多线程爬虫:多线程爬虫是提高爬虫效率的一种常用方法。使用多线程能够同时启动多个线程来爬取数据,从而减少爬取时间。在Python......
  • 【Python爬虫】Scrapy框架文件写入方式CSV,MYSQL,MongoDB_爬取新浪彩票双色球
    Spider代码爬取新浪彩票双色球页面数据,只爬取期号、红球、篮球classShuangseqiu11Spider(scrapy.Spider):name="shuangseqiu11"allowed_domains=["sina.com.cn"]start_urls=["https://view.lottery.sina.com.cn/lotto/pc_zst/index?lottoType=ssq&......
  • springboot+vue小白升级之路14-实现系统公告首页公告展示、springboot+vue小白升级之
    还是接着之前的内容,我把新增的功能代码贴出来,给大家参考学习。数据库droptableifexistsan_user;createtablean_user( idintnotnullauto_incrementprimarykeycomment'主键id', namevarchar(255)notnulluniquecomment'姓名', `password`varchar(255)notnu......
  • 【Python爬虫】爬虫框架Scrapy初使用_爬取4399游戏页面数据
    Scrapy简介Scrapy是一个用于爬取和提取数据的开源web抓取框架。它提供了一个强大的机制,让开发者可以轻松地创建和管理爬虫程序,以从网站上自动提取结构化的数据。以下是Scrapy的一些主要特点和优势:强大灵活的爬取能力:Scrapy具有高度可配置的请求处理和数据提取功能。它可以轻......
  • Python爬取网站内容时,出现返回200和403状态码的原因解析
    在使用Python进行网页爬取时,我们有时会遇到返回200状态码表示成功,而有时会遇到返回403状态码表示访问被拒绝的情况。本文将解析造成这种情况的可能原因,并提供一些解决方法,以确保爬取网站内容的顺利进行。在使用Python进行网页爬取时,经常会遇到一种情况:有时成功返回200状态码,表示请......
  • 爬取动态网页内容的库
    爬取动态网页内容时,传统的Python爬虫库(如Requests、BeautifulSoup)可能无法直接获取JavaScript动态生成的内容。为了处理这种情况,你可以使用一些特别设计的库,它们能够模拟浏览器行为,执行JavaScript,并获取渲染后的页面内容。以下是一些常用的库:1.SeleniumSelenium是一个自动......
  • m3u8视频爬取处理流程分析
    处理流程:下载所有.ts结尾文件下载.m3u8文件解析出内部.ts结尾链接利用协程异步请求所有.ts文件并下载保存importasyncioimportosimportaiohttpimportrequestsfromsc.common.user_agentimportget_uafromfunctoolsimportpartial,wrapsm3u8_url='https://......
  • SSM框架实现新闻网站信息管理系统前台后台综合开发项目实战
    ......