爬取汽车之家新闻首页数据

时间：2023-12-15 09:55:21浏览次数：37

标签：name title 新闻 li 爬取 ul 首页 import find

1.分析网页

　　如下图所知，该网页是一次性将所有数据全部返回

2.使用get请求也可以正常获取数据

1 import requests
2 res=requests.get('https://www.autohome.com.cn/news/1/#liststart').text
3 print(res)

　　输出：

3.解析页面

4.解析数据

import bs4
import requests
from bs4 import BeautifulSoup
import pymysql
conn = pymysql.connect(
    user='root',
    password="123456",
    host='127.0.0.1',
    database='news'
)
cursor = conn.cursor()
for i in range(100):
    res = requests.get('https://www.autohome.com.cn/news/%s/#liststart'%i)
    soul = BeautifulSoup(res.text, 'lxml')
    #查询所有ul标签，class=article的元素
    ul_list = soul.find_all(name='ul', class_='article')
    for ul in ul_list:
        #查询出ul标签下所有li元素
        li_list = ul.find_all(name='li')
        for li in li_list:
            # 查询li标签下的h3标签
            title = li.find(name='h3')
            # 因为有广告的存在，做一层判断过滤广告
            if title:
                title = title.text
                desc = li.find(name='p').text
                address = 'https:' + li.find(name='a').attrs.get('href')
                img = li.find(name='img').attrs.get('src')
                print(title)
                # 存入数据库
                cursor.execute('insert into news (title,img,address,`desc`) values (%s,%s,%s,%s)', args=[title, img, address, desc])
                conn.commit()

　　爬取一百页后数据如下

标签：name,title,新闻,li,爬取,ul,首页,import,find
From： https://www.cnblogs.com/Hao12345/p/17902715.html

大模型变身双面人：虚假新闻制造机VS假新闻鉴别大师！
大家是怎样看待大型语言模型生成信息的可靠性呢？尽管大语言模型生成的内容“像模像样”，但这些模型偶尔的失误揭示了一个关键问题：它们生成的内容并不总是真实可靠的。那么，这种“不保真”特性能否被用来制造虚假信息呢？最近，一篇论文正好针对这一议题进行了探讨：我们能否利用大型语言模型......
【Python爬虫】Scrapy框架处理分页爬取+cookie登录_17k小说网
简介本文主要讲常规分页爬取与利用Scrapy框架怎么快捷的爬取分页的数据以及cookie登录，案例网站时17k小说网，url是https://www.17k.com/常规分页爬取Scrapy框架分页爬取cookie登录分页常规分页爬取常规分页爬取，直接观察页面数据，一共有多少页数据，就for循环多少次classXiao......
提高爬取 10GB 数据效率的方法
在进行大规模数据爬取时，面临的最大问题之一是效率。如何在较短时间内获取足够的数据成为了数据处理和分析的关键。以下是一些提高爬取10GB数据效率的方法：1.多线程爬虫：多线程爬虫是提高爬虫效率的一种常用方法。使用多线程能够同时启动多个线程来爬取数据，从而减少爬取时间。在Python......
【Python爬虫】Scrapy框架文件写入方式CSV，MYSQL，MongoDB_爬取新浪彩票双色球
Spider代码爬取新浪彩票双色球页面数据，只爬取期号、红球、篮球classShuangseqiu11Spider(scrapy.Spider):name="shuangseqiu11"allowed_domains=["sina.com.cn"]start_urls=["https://view.lottery.sina.com.cn/lotto/pc_zst/index?lottoType=ssq&......
springboot+vue小白升级之路14-实现系统公告首页公告展示、springboot+vue小白升级之
还是接着之前的内容，我把新增的功能代码贴出来，给大家参考学习。数据库droptableifexistsan_user;createtablean_user( idintnotnullauto_incrementprimarykeycomment'主键id', namevarchar(255)notnulluniquecomment'姓名', `password`varchar(255)notnu......
【Python爬虫】爬虫框架Scrapy初使用_爬取4399游戏页面数据
Scrapy简介Scrapy是一个用于爬取和提取数据的开源web抓取框架。它提供了一个强大的机制，让开发者可以轻松地创建和管理爬虫程序，以从网站上自动提取结构化的数据。以下是Scrapy的一些主要特点和优势：强大灵活的爬取能力：Scrapy具有高度可配置的请求处理和数据提取功能。它可以轻......
Python爬取网站内容时，出现返回200和403状态码的原因解析
在使用Python进行网页爬取时，我们有时会遇到返回200状态码表示成功，而有时会遇到返回403状态码表示访问被拒绝的情况。本文将解析造成这种情况的可能原因，并提供一些解决方法，以确保爬取网站内容的顺利进行。在使用Python进行网页爬取时，经常会遇到一种情况：有时成功返回200状态码，表示请......
爬取动态网页内容的库
爬取动态网页内容时，传统的Python爬虫库（如Requests、BeautifulSoup）可能无法直接获取JavaScript动态生成的内容。为了处理这种情况，你可以使用一些特别设计的库，它们能够模拟浏览器行为，执行JavaScript，并获取渲染后的页面内容。以下是一些常用的库：1.SeleniumSelenium是一个自动......
m3u8视频爬取处理流程分析
处理流程：下载所有.ts结尾文件下载.m3u8文件解析出内部.ts结尾链接利用协程异步请求所有.ts文件并下载保存importasyncioimportosimportaiohttpimportrequestsfromsc.common.user_agentimportget_uafromfunctoolsimportpartial,wrapsm3u8_url='https://......
SSM框架实现新闻网站信息管理系统前台后台综合开发项目实战
......

爬取汽车之家新闻首页数据

1.分析网页

2.使用get请求也可以正常获取数据

3.解析页面

4.解析数据

相关文章

赞助商

阅读排行