Python - Selenium抓取淘宝直播间评论（可使用无头模式）

时间：2024-07-25 13:54:19浏览次数：17

标签：浏览器 Python Selenium selenium 抓取 tm crawling options browser

Python - Selenium抓取淘宝直播间评论（可使用无头模式）

下面介绍如何使用python中的selenium简单抓取淘宝直播间实时评论。

友情提醒，仅供学习交流使用，请勿用于非法用途！

一、创建python项目

1.在目录下新建main.py和venv虚拟环境：

创建虚拟环境：
python -m venv venv

激活虚拟环境：
cd /venv/Scripts
source activate

请添加图片描述
2.安装selenium：

在激活的虚拟环境(venv)下：
pip install selenium -i https://mirrors.aliyun.com/pypi/simple/

3.下载谷歌浏览器Chrome驱动：

新版selenium会自动下载并载入webDriver，不需要以前的手动配置加载，但每隔一段时间, selenium就会检查webDriver更新并重新下载，重新下载的过程中程序无法运行，且因为网络问题，浏览器需要较长时间才能打开，所以我们选择使用selenium中的service类手动加载webDriver避免每次重新下载webDriver更新，解决浏览器长时间未打开的问题，把下载好的chromedriver.exe放到目录下。

1.在谷歌浏览器输入，获取当前的浏览器版本
chrome://version/

2.然后再访问链接下载驱动（替换自己的浏览器版本：127.0.6533.73）
https://storage.googleapis.com/chrome-for-testing-public/127.0.6533.73/win64/chromedriver-win64.zip

3.并把chromedriver.exe放到项目目录下

二、抓取淘宝直播间评论（PC大屏版）

1.在main.py文件中：

import time  # 事件库，用于硬性等待
import threading
from bs4 import BeautifulSoup
from selenium import webdriver  # 导入selenium的webdriver模块
from selenium.webdriver.chrome.service import Service

# 直播间链接（PC大屏版，需替换要连接的直播间链接）
live_tm_url = 'https://tbzb.taobao.com/live?spm=a21bo.29164009.discovery.d7.159f5f7e8bzrAm&liveSource=pc_live.discovery&liveId=xxxxxxxxx'  
crawling_browser_tm = None  # 浏览器
comment = []  # 评论列表

# 打开天猫直播间浏览器
def init_crawling_browser_tm(url):
    global crawling_browser_tm
    service = Service('./chromedriver.exe')
    options = webdriver.ChromeOptions()
    # 无头模式
    # options.add_argument('--headless')
    options.add_experimental_option('detach', True)
    # 忽略证书错误
    options.add_argument('--ignore-certificate-errors')
    # 忽略 Bluetooth: bluetooth_adapter_winrt.cc:1075 Getting Default Adapter failed. 错误
    options.add_experimental_option('excludeSwitches', ['enable-automation'])
    # 忽略 DevTools listening on ws://127.0.0.1... 提示
    options.add_experimental_option('excludeSwitches', ['enable-logging'])
    crawling_browser_tm = webdriver.Chrome(options=options,service=service) #
    crawling_browser_tm.get(url)
    crawling_browser_tm.maximize_window()  # 浏览器全屏
    threading.Timer(10, get_comment_tm_list, args=()).start()

# 获取天猫直播评论
def get_comment_tm_list():
    global comment,crawling_browser_tm
    try:
        content_tm = crawling_browser_tm.page_source
        soup_tm = BeautifulSoup(content_tm, 'html.parser')
        # 找到评论的class名称
        items_tm = soup_tm.find_all(class_='content--xxxxxx') # 元素xpath已被篡改，代码仅供学习参考使
        for item in items_tm[-5:]:
            comment.append(item.text)
        print(comment)
        comment.clear()
        threading.Timer(10, get_comment_tm_list, args=()).start()
    except:
        print('天猫自动化测试浏览器：未找到弹幕标签,请查看直播链接是否已结束或异常关闭')


init_crawling_browser_tm(live_tm_url)

2.运行main.py文件，获取最新的5条评论：

python main.py

请添加图片描述

到此为止，selenium获取淘宝直播间实时评论就完成啦，如遇到强制登录，可关闭登录弹窗，在左上角点击登录，进行扫码登录一次，其他验证码或密码登录在自动化测试中无效。仅供学习交流使用，请勿用于非法用途。

标签：浏览器,Python,Selenium,selenium,抓取,tm,crawling,options,browser
From： https://blog.csdn.net/miaomiaowins/article/details/140687790

需要帮助来提取此 XML 节点 - Python 中的 Excel 连接字符串
我有一个Python程序，打开Excel(XLSX)文件，并尝试查找<connection>节点。这是connections.xml文件中的完整XML。<?xmlversion="1.0"encoding="UTF-8"standalone="yes"?><connectionsxmlns="http://schemas.op......
【python】Python中采集Prometheus数据，进行数据分析和可视化展示
✨✨欢迎大家来到景天科技苑✨✨......
使用python3拼接rgb.txt与depth.txt为associate.txt(适用于GCNV2_SLAM中TUM数据集的运
这里以GCNV2_SLAM中TUM数据集的运行为例子：安装gnv2_slam可以参考：GCNv2_SLAM-CPU详细安装教程(ubuntu18.04)-CSDN博客首先下载数据集ComputerVisionGroup-DatasetDownload下载后通过该命令解压：tar-xvfrgbd_dataset_freiburg1_desk.tgz打开后，你可以发现：在该数据集......
【Python】到底什么是字符串格式化？
字符串格式化的目的：在字符串中动态地插入数据或表达式。字符串格式化的对象：要插入到字符串中的数据。在详细解释之前，先引入第一种字符串格式化的方法name=input('请输入你的名字:')gender=input('请输入你的性别：')age=input('请输入你的年龄：')print(f'你的名字是{......
Python PDF 编辑器
我将制作一个PDF编辑器，它可以更改PDF中的单词，而无需更改文本的来源。这是我的代码，到目前为止，它所做的一切都是正确的，但我可以获得文本颜色和文本大小。importpymupdfimportos#OpenthePDFdocumentdoc=pymupdf.open('input.pdf')#Loadthecustomfontfi......
JSON 响应中的字符串值变成 Python pandas datafram 中的数值
我正在使用Python从RESTAPI中提取数据并将其存储在SQL数据库中。除了响应中的一个JSON值之外，一切工作正常。JSON响应[{"pbxId":"XXXcxx","site":"XXXGroup-SydneyOffice","name":"XXXXService","extension":......
适用于 Python 的 Firebase-admin sdk 引发错误“StreamGenerator”不可迭代
以前（一周前）我与Firestore通信的Python代码工作得很好。但今天我又开始研究它，它在迭代collection.stream()service_account=credentials.Certificate('credential/serviceAccount.json')firebase_admin.initialize_app(service_account)firestore_d......
从 DOCKER 下的共享卷在 Linux 中执行 PyInstaller 生成的文件时出现 Python 子进程 F
我已经使用PyInstaller生成了一个可执行文件，例如test（没有扩展名，因为它是Linux）并将其存储在一个目录中，例如data我有一个Python程序，如下所示：importsubprocessfrompathlibimportPath...defrun_exe():try:#getcurrentdirectory......
从源代码安装 python3.5 后如何修复 virtualenv 的 python pip 分段错误（核心转储）响应
背景嗨，我的主要目标是为许多使用旧版本Python的项目创建一个virtualenv，这些项目与系统版本(3.10.x)是分开的。我是使用PopOS22.04并进行所有更新。由于此错误，我什至无法使用pip。我也阅读了周围的内容，但我读到的所有解决方案要么输出日志文件，要么......
无法使用适用于 Azure AI 搜索的 Python SDK 将数据添加到 ComplexField
我想将带有嵌套字典的有效负载上传到AzureAI搜索索引。我在索引中使用ComplexField作为负载中的嵌套字典。索引无法识别嵌套字典，并且出现空错误。这是我的代码：ComplexField,CorsOptions,SearchIndex,ScoringProfile,SearchFieldDataType,Sim......

Python - Selenium抓取淘宝直播间评论（可使用无头模式）

Python - Selenium抓取淘宝直播间评论（可使用无头模式）

一、创建python项目

二、抓取淘宝直播间评论（PC大屏版）

相关文章

赞助商

阅读排行