首页 > 其他分享 >百度热搜爬虫

百度热搜爬虫

时间:2024-07-23 23:17:38浏览次数:11  
标签:car 爬虫 hot print div divs find 百度

爬取页面热搜榜单

image

爬取汽车榜单中的热度和价格

image

import requests
from bs4 import BeautifulSoup

headers = {
"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36"
,
'Cookie':
"BIDUPSID=533E2C368EEB36A3FD9D61D5E2ED701D; PSTM=1701426278; BAIDUID=4445FFBCC0EE2BDC834E4893CDAC797E:FG=1; MCITY=-%3A; BDUSS=0NYU2N1ckxyM090STRqRUlPfktkN0pJT3ZiWlo0Q2hTeXBTajVNWmtqTzRRMTltSVFBQUFBJCQAAAAAAAAAAAEAAAD9jfvxu6WyuTIzAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAALi2N2a4tjdmb; BDUSS_BFESS=0NYU2N1ckxyM090STRqRUlPfktkN0pJT3ZiWlo0Q2hTeXBTajVNWmtqTzRRMTltSVFBQUFBJCQAAAAAAAAAAAEAAAD9jfvxu6WyuTIzAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAALi2N2a4tjdmb; H_WISE_SIDS_BFESS=60274_60340_60346_60362_60360; H_WISE_SIDS=60274_60362_60360; H_PS_PSSID=60274_60470_60491_60500; BDORZ=FFFB88E999055A3F8A630C64834BD6D0; BAIDUID_BFESS=4445FFBCC0EE2BDC834E4893CDAC797E:FG=1; BA_HECTOR=a5al8k01210l0404058180a103gi9j1j9stlv1u; ZFY=egHzkrAoC4T1EKBSIVxmq:A9d2CRZeNCzn1fI8:B6JPLU:C; BDRCVFR[Ter2S3H5o_D]=mk3SLVN4HKm; delPer=0; PSINO=6"}

url = "https://top.baidu.com/board?platform=pc&sa=pcindex_entry"

res = requests.get(url,headers)
result = res.content.decode('utf-8')
# print(res.content.decode('utf-8'))
def get_hots(result):
    soup = BeautifulSoup(result,'html.parser')

    divs = soup.find_all('div', class_ ="list_1EDla")
    # print(divs)
    a_s = divs[0].find_all('a', class_="item-wrap_2oCLZ")
    # print(a_s)
    hots =[]
    for a in a_s:
        hot_href = a['href']

        div_ = a.find_all('div', class_="c-single-text-ellipsis")
        hot_text = div_[0].text
        # print(div_[0].string)

        hot = {
            hot_text:hot_href
        }
        hots.append(hot)
    print(hots)
    return hots
    # break

def get_car(result):
    soup = BeautifulSoup(result, 'html.parser')
    divs = soup.find_all('div',theme ='car')
    print(divs)
    car_divs = divs[0].find_all('div', class_="item-wrap_Z0BrP")
    print(car_divs)
    car_infos =[]
    for div in car_divs:
        info_div = div.find_all('div', class_="right_1PE2e")
        car_name_tag = info_div[0].find_all('a')
        car_name = car_name_tag[0].text
        hot_price = info_div[0].find_all('div')
        hot = hot_price[0].text
        price = hot_price[-1].text
        # print(car_name,hot,price)
        car_info = {
            'car_name':car_name,
            '热搜指数':hot,
            'price':price
        }
        car_infos.append(car_info)
    print(car_infos)
    return car_infos
if __name__ == '__main__':
    hots = get_hots(result)
    cars = get_car(result)
    for car in cars:
        for v in car.values():
            print(v)
    print('--------------热点榜单--------------')
    num=1
    for hot in hots:
        for k,v in hot.items():
            print(num , k, v)
            num +=1

标签:car,爬虫,hot,print,div,divs,find,百度
From: https://www.cnblogs.com/iruan/p/18319839

相关文章

  • 这7款高效爬虫工具&软件,非常实用!
    在当今数据驱动的时代,自动化爬虫工具和软件成为了许多企业和个人获取数据的重要手段。这里会介绍6款功能强大、操作简便的自动化爬虫工具,用好了可以更高效地进行数据采集。1.八爪鱼采集器八爪鱼是一款功能强大的桌面端爬虫软件,主打可视化操作,即使是没有任何编程基础的用......
  • 基于大数据+爬虫的高校毕业生就业信息可视化系统设计与实现
    ......
  • 电影《抓娃娃》迅雷BT下载[MP4/1.12GB/2.35GB]高清画质[百度云中字已更新]
    电影《抓娃娃》以其独特的叙事手法和深刻的主题,引发了观众对教育体系、家庭教育以及人性成长的广泛讨论。这部影片通过荒诞的情节和密集的笑料,不仅让观众在欢笑中反思,更在轻松的氛围中感受到教育的沉重与复杂。本文将从故事情节、角色塑造、主题表达以及观众反响等角度,对电影......
  • PR速成教程+系统课程零基础学习视频百度云盘分享
    如大家所了解的,PR全称AdobePremiere,是一款专业的视频编辑软件。它是一款桌面端软件,支持Windows和MacOS操作系统。PR作为一款流行的视频编辑工具,被广泛应用于电影、电视、广告、纪录片等领域的视频制作中。下面总结一些Pr软件的常用功能,以便初学者参考、学习:1、视频剪辑(也......
  • python-爬虫实例(4):获取b站的章若楠的视频
    目录前言        道路千万条,安全第一条        爬虫不谨慎,亲人两行泪获取b站的章若楠的视频一、话不多说,先上代码二、爬虫四步走1.UA伪装2.获取url3.发送请求 4.获取响应数据进行解析并保存 总结前言        道路千万条,安全第一条......
  • 爬虫:爬取王者荣耀技能信息
    爬虫:爬取王者荣耀技能信息(代码和代码流程)代码#王者荣耀英雄信息获取importtimefromseleniumimportwebdriverfromselenium.webdriver.common.byimportByif__name__=='__main__':fp=open("./honorKing.txt","w",encoding='utf8')#......
  • 《0基础》学习Python——第二十四讲__爬虫/<7>深度爬取
    一、深度爬取        深度爬取是指在网络爬虫中,获取网页上的所有链接并递归地访问这些链接,以获取更深层次的页面数据。        通常,一个简单的爬虫只会获取到初始页面上的链接,并不会进一步访问这些链接上的其他页面。而深度爬取则会不断地获取链接,并继续访问......
  • 高级爬虫练习题及答案
    引言在当今的数据驱动世界,爬虫已经成为获取网络数据的重要工具。通过爬虫,我们可以从各种网站中提取信息,进行数据分析,支持决策。然而,爬虫技术不仅仅限于简单的网页抓取,还涉及到处理动态内容、反爬虫机制以及大规模数据提取等复杂问题。本文将介绍几个高级爬虫练习题,并附上详细......
  • 高级网络爬虫教程
    在网络爬虫领域,高级技术可以显著提升爬虫的性能、稳定性和数据处理能力。本教程将介绍一些更高级的爬虫技术,包括分布式爬虫、动态内容抓取、处理JavaScript生成的内容、使用机器学习进行反反爬虫等,并提供相应的实例代码。优点:全面性:文章涵盖了多种高级爬虫技术,包括分布式......
  • 最新PS零基础入门到高级精品自学教程百度云分享下载
    如大家所了解的,PS全称AdobePhotoshop,是一款大家非常熟悉的平面设计软件,也是大家常识认知里的P图软件。很多原创画家、设计师、插画爱好者都会使用这个软件进行创作,常用的版本有PS CS6以及CC版本。Photoshop这款软件,功能是非常强大且实用的。很多小伙伴在接触和学习之前,都觉......