首页 > 编程语言 >利用python实现京东商品详细信息

利用python实现京东商品详细信息

时间:2023-11-10 13:04:56浏览次数:34  
标签:sku soup python text writer 商品 HTML 京东 详细信息


实现京东商品详细信息爬虫可以分为以下几个步骤:

  1. 发起 HTTP 请求获取商品页面 HTML;
  2. 使用网页解析库解析 HTML,提取商品详细信息;
  3. 存储提取的信息。

下面是一个简单的 Python 示例,使用 requests 库发起 HTTP 请求,使用 Beautiful Soup 解析 HTML,提取商品信息,最后将提取的信息存储到 CSV 文件中。

import requests
from bs4 import BeautifulSoup
import csv

# 商品 URL
url = 'https://item.jd.com/100008348542.html'

# 发起 HTTP 请求
response = requests.get(url)

# 使用 Beautiful Soup 解析 HTML
soup = BeautifulSoup(response.text, 'html.parser')

# 提取商品信息
sku = url.split('/')[-1].split('.')[0] # 商品 ID
name = soup.select_one('div.sku-name').text.strip() # 商品名称
price = soup.select_one('span.price.J-p-' + sku).text.strip() # 商品价格
comments = soup.select_one('a[href="#comment"]').text.strip() # 商品评论数

# 存储提取的信息到 CSV 文件
with open('products.csv', 'w', newline='', encoding='utf-8-sig') as csvfile:
    writer = csv.writer(csvfile)
    writer.writerow(['ID', '名称', '价格', '评论数'])
    writer.writerow([sku, name, price, comments])

需要注意的是,以上代码仅适用于解析单个商品页面,如果需要爬取多个商品信息,需要编写爬虫程序循环处理每个商品页面。此外,如果需要爬取的商品数量较多,需要考虑反爬虫策略,如降低爬取频率、使用代理 IP 等。

标签:sku,soup,python,text,writer,商品,HTML,京东,详细信息
From: https://blog.51cto.com/u_16191847/8296011

相关文章

  • 【python自动化】pytest系列(中)
    书接上文:【python自动化】pytest系列(上)本篇为中篇,后面还有两篇,从本篇开始,知识点会增加,难度会一丢丢的一次递增。本章知识点文章目录1、上节内容知识点回顾2、Pytest的前置后置操作3、断言assert4、运行和报告命令行执行相关插件allure报告安装pytest-allure如何使用通过allure命令......
  • Excel变天!微软把Python「塞」进去了,直接可搞机器学习
    喜大普奔!微软把Python弄进Excel了!搭建一个机器学习天气预测模型,在Excel里即可实现。而且无需任何设置,在单元格里输入“=PY”,就能开搞。数据清理、预测分析、可视化等等任务,都能轻松实现。还和Anaconda达成了合作。各种常见Python库都能直接用,如Matplotlib、Seaborn等。咱就是说,这回......
  • 【视频课】纯新手如何快速掌握深度学习必备的Python基础能力,150分钟助你入门!...
    前言欢迎大家关注有三AI的视频课程系列,我们的视频课程系列共分为5层境界,内容和学习路线图如下:第1层:掌握学习算法必要的预备知识,包括Python编程,深度学习基础,数据使用,框架使用。第2层:掌握CV算法最底层的能力,包括模型设计基础,图像分类,模型分析。第3层:掌握CV算法最核心的方向,包括图像分......
  • python读写文件
    str="Hello,World!"#打开一个文件,如果文件不存在,它将被创建file=open("my_file.txt","w")#将字符串写入文件file.write(str)#关闭文件file.close()#重新打开文件以读取内容file=open("my_file.txt","r")content=file.read()file.clos......
  • 为zabbix_server_docker容器安装Python 3完善机器人告警脚本环境
    1.安装Python3dnfinstallpython3 2.要验证安装,请输入以下命令检查Python版本:python3--version 3.建立软连接:ln-s/usr/bin/python3.6/usr/bin/python  4.安装epel:dnfinstallpython3-devel-y 5.启用epel:dnfins......
  • 手把手教你如何扩展(破解)mybatisplus的sql生成 | 京东云技术团队
    mybatisplus的常用CRUD方法众所周知,mybatisplus提供了强大的代码生成能力,他默认生成的常用的CRUD方法(例如插入、更新、删除、查询等)的定义,能够帮助我们节省很多体力劳动。他的BaseMapper中定义了这些常用的CRUD方法,我们在使用时,继承这个BaseMapper类就默认拥有了这些能力。如果我......
  • 谈谈压测方案的那点事 | 京东物流技术团队
    前言在现阶段大促备战的压测不算是一件新鲜事,已经不存在什么技术瓶颈或者资源问题,每个团队都有很多人能够执行性能测试,在一些团队也已经落地了日常常态化,但压测也没有简单到只在压测平台上设置参数、运行脚本,然后去看压测报告中某个指标是否满足压测目标那么简单,我平时也跟一些同......
  • Python Tricks
    1.同时按照一个list的大小排序两个listdefreturn_sorted_list(cclass):namelist=[]numlist=[]forcatincclass.cat:namelist.append(cat.catName)numlist.append(cat.catNum)#排序name_num_zip=zip(namelist,numlist)......
  • python 递归上传文件到阿里云oss
    python递归上传文件到阿里云ossimportosimportoss2importjson#阿里云OSS访问信息access_key_id='xxxxxxxxx'access_key_secret='xxxxxxxxxxxxx'endpoint='xxxxxxxxxxxxx'bucket_name='bucketName'#本地目录路径local_directory......
  • 【Mquant】9:python批量铭刻erc-20铭文
    1.ETHS铭文ETHS铭文是以太坊铭文协议Ethscriptions的代币名称。Ethscriptions是一个基于以太坊的铭文协议,允许用户在以太坊主网上刻入不同类型的文件,并将其记录到区块中。ETHS作为Ethscriptions的第一个"概念币",引起了人们的关注和热议。以太坊铭文协议Ethscriptions的特点包......