从当当网批量获取图书信息

时间：2024-06-04 23:58:50浏览次数：27

标签：xpath join 批量 text 当当网 selector book id 图书

爬取当当网图书数据并保存到本地，使用request、lxml的etree模块、csv模块保存数据到本地。

爬取网页的url为：

http://search.dangdang.com/?key={}&act=input&page_index={}

其中{}为搜索关键字，page_index为页码。

爬取的数据包括：书名、作者、出版社、图书简介、出版日期、价格、评分、评价人数。

代码如下：

import random
import requests
from lxml import etree
import pandas as pd
import time

data = []
data.append(['书名', '作者', '图书简介', '出版社', '出版日期', '评论数量', '价格', '编辑推荐', '作者简介', '排名'])
def get_book_info(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
    }
    response = requests.get(url, headers=headers)
    response.encoding = 'utf-8'
    if response.status_code == 200:
        selector = etree.HTML(response.text)
        book_list = selector.xpath('//ul[@id="component_59"]/li')
        for book in book_list:            
            book_detail_url = book.xpath('.//a/@href')[0]
            get_book_detail('http:' + book_detail_url)
            time.sleep(random.randint(1, 5))

def get_book_detail(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
    }
    response = requests.get(url, headers=headers)
    response.encoding = 'utf-8'
    if response.status_code == 200:
        selector = etree.HTML(response.text)
        # 书名   
        book_name = selector.xpath('//*[@id="product_info"]/div[1]/h1/text()')
        if len(book_name) == 0:
            book_name = '无' 
        else:
            book_name = ','.join(book_name)
        # 作者
        book_author = selector.xpath('//*[@id="author"]/a//text()')
        if len(book_author) == 0:
            book_author = '无' 
        else:
            book_author = ','.join(book_author)
        # 简介
        book_intro = selector.xpath('//*[@id="product_info"]/div[1]/h2/span[1]/text()')
        if len(book_intro) == 0:
            book_intro = '无'
        else:
            book_intro = ','.join(book_intro)          
        # 出版社
        book_publisher = selector.xpath('//*[@id="product_info"]/div[2]/span[2]/a//text()')
        if len(book_publisher) == 0:
            book_publisher = '无'
        else:
            book_publisher = ','.join(book_publisher)
        # 出版日期
        book_date = selector.xpath('//*[@id="product_info"]/div[2]/span[3]/text()')
        if len(book_date) == 0:
            book_date = '无'
        else:
            book_date = ','.join(book_date)
        # 评论数量
        book_comments = selector.xpath('//*[@id="comm_num_down"]/text()')
        if len(book_comments) == 0:
            book_comments = '无'
        else:
            book_comments = ','.join(book_comments)
        # 价格      
        book_price = selector.xpath('//*[@id="dd-price"]/text()')       
        if len(book_price) == 0:
            book_price = '无'
        else:
            book_price = ','.join(book_price) 
        # 编辑推荐
        book_recommend = selector.xpath('//*[@id="abstract"]/div[2]/p/text()')
        if len(book_recommend) == 0:
            book_recommend = '无'
        else:
            book_recommend = ','.join(book_recommend)
        # 作者简介
        author_intro = ''.join(selector.xpath('//*[@id="authorIntroduction"]/div[2]//text()'))
        # 排名
        book_rank = ''.join(selector.xpath('//*[@id="product_info"]/div[2]/div/span[1]//text()'))        
        data.append([book_name, book_author, book_publisher, book_intro, book_date, book_price, book_comments, book_recommend, author_intro, book_rank])

if __name__ == '__main__':    
    keyword = input('请输入搜索关键字：')
    page_index = 1
    while True:
        url = f'http://search.dangdang.com/?key={keyword}&act=input&page_index={page_index}'
        get_book_info(url)
        page_index += 1
        if page_index > 5:
            break
    df = pd.DataFrame(data[1:], columns=data[0])
    # 将DataFrame保存为Excel文件
    df.to_excel('output.xlsx', index=False)

标签：xpath,join,批量,text,当当网,selector,book,id,图书
From： https://blog.csdn.net/svygh123/article/details/139456709

大学生HTML期末大作业——HTML+CSS+JavaScript个人网站（图书爱好）
HTML+CSS+JS【个人网站】网页设计期末课程大作业web前端开发技术web课程设计网页规划与设计......
文心一言、通义千问、智谱清言、kimi，AI批量生成文章保存word软件2.0版说明
AI批量生成文章2.0版已经打包上传，文末自行下载。AI批量软件工具集成了文心一言、通义千问、智谱清言、kimi一共18个接口。可同时选择5个不同接口，读取excel第2列多个内容生成文章，并保存word软件。每次最多5个不同接口多线程同时处理3行excel，直到excel所有行列内容处理完毕。同......
ado.net datetable批量新增
publicQueryResultSqlBulkCopy(DataTabledt,stringtableName){try{connection.Open();using(varcopy=newSqlBulkCopy(connection)){copy.DestinationTableName=tableName;copy.WriteToServer(dt......
批量查询必须进行批量操作
批量新增IService中的批量新增功能使用起来非常方便，但有一点注意事项，我们先来测试一下。首先我们测试逐条插入数据：@TestvoidtestSaveOneByOne(){longb=System.currentTimeMillis();for(inti=1;i<=100000;i++){userService.save(buildUser(i......
基于Python语言的图书馆信息管理系统的设计与实现
随着信息技术和我国教育产业的飞速发展，各高校的学生数量日益增多并且在这种全新的信息化时代下，传统的管理技术已经无法为我们带来高效、便捷的管理模式。为了迎合时代需求，优化管理效率，各种各样的管理系统应运而生，各行各业相继进入信息管理时代，图书馆管理系统就是信息时代变革中......
数据治理--数据接入批量接入脚本生成工具判断增量全量,过滤
表变化频率比较低的表覆盖数据接入工具 ......
【计算机毕业设计】ssm720图书馆智能选座系统设计与实现+jsp
现代经济快节奏发展以及不断完善升级的信息化技术，让传统数据信息的管理升级为软件存储，归纳，集中处理数据信息的管理方式。本图书馆智能选座系统就是在这样的大环境下诞生，其可以帮助使用者在短时间内处理完毕庞大的数据信息，使用这种软件工具可以帮助管理人员提高事务处理效率，......
利用python批量重命名（将「歌手名-歌名.mp3」更为「歌名-歌手名.mp3」）
效果原始：修改后：python代码importosdefrename_files(directory):forfilenameinos.listdir(directory):if"-"infilenameandfilename.endswith(".mp3"):#分割文件名为歌手名和歌曲名parts=filename.rsplit("-......
[工具] 批量BMP图片转为PNG透明图片，去掉BMP黑色背景，去黑底，压缩导出png图片V1.1
批量BMP图片转为PNG透明图片，去掉BMP黑色背景，压缩导出png图片V1.1前段时间上传了一款bmp转png并去黑底的demo软件，非常受欢迎，上一版本地址：批量BMP图片转为PNG透明图片，去掉BMP黑色背景应广大爱好者的要求，完善了一下软件的功能，增加了导出png图片压缩功能，界面如下：压......
淘宝商品id怎么实现批量自动获取？通过关键字搜索接口来获取批量商品id（淘宝API）
item_search-按关键字搜索淘宝商品传入商品关键字，通常在商品标题中进行检索，将包含此关键字的商品展示出来，分页展示。公共参数名称类型必须描述keyString是调用key（必须以GET方式拼接在URL中）secretString是调用密钥api_nameString是API接口名称（包括在请求地址中）[item_search,i......

从当当网批量获取图书信息

相关文章

赞助商

阅读排行