亲测有效！！！python实现抖音直播间评论区最新评论爬取

时间：2024-08-12 12:40:37浏览次数：11

标签：comment python dy list 爬取评论 crawling options browser

``
import time # 事件库，用于硬性等待
import threading
from bs4 import BeautifulSoup
from selenium import webdriver # 导入selenium的webdriver模块
from selenium.webdriver.chrome.service import Service

live_dy_url = 'https://live.douyin.com/36947836004' # 直播间链接
crawling_browser_dy = None # 浏览器
comment_list = [] # 评论列表

打开直播间浏览器（下载谷歌浏览器exe文件放在项目目录下）

def init_crawling_browser_dy(url):
global crawling_browser_dy
service = Service('./chromedriver.exe')
options = webdriver.ChromeOptions()
# 无头模式
# options.add_argument('--headless')
options.add_experimental_option('detach', True)
# 忽略证书错误
options.add_argument('--ignore-certificate-errors')
# 忽略 Bluetooth: bluetooth_adapter_winrt.cc:1075 Getting Default Adapter failed. 错误
options.add_experimental_option('excludeSwitches', ['enable-automation'])
# 忽略 DevTools listening on ws://127.0.0.1... 提示
options.add_experimental_option('excludeSwitches', ['enable-logging'])
crawling_browser_dy = webdriver.Chrome(options=options,service=service)
crawling_browser_dy.get('https://live.douyin.com/') # 抖音直播主页
crawling_browser_dy.maximize_window() # 浏览器全屏
time.sleep(3) # 等待3s
crawling_browser_dy.get(url) # 跳转到直播间链接
threading.Timer(10, get_comment_list, args=()).start() # 执行：10s

获取html标签中的评论文本

def get_comment_list():
global comment_list ,crawling_browser_dy
try:
content_dy = crawling_browser_dy.page_source
soup_dy = BeautifulSoup(content_dy, 'html.parser')
# 找到评论的class名称
items_dy = soup_dy.find_all(class_='webcast-chatroom___content-with-emoji-text') # 元素xpath已被篡改，代码仅供学习参考使用
for item in items_dy[-5:]: # 获取最新的5条评论
text = item.text.split('：')[1] if item.text.count('：') > 0 else item.text
comment_list .append(text)
print(comment_list) # 打印评论列表
comment_list.clear()
threading.Timer(10, get_comment_list, args=()).start() # 重复执行：10s
except:
print('抖音自动化测试浏览器：未找到弹幕标签,请查看直播链接是否已结束或异常关闭')

init_crawling_browser_dy(live_dy_url)

标签：comment,python,dy,list,爬取,评论,crawling,options,browser
From： https://www.cnblogs.com/yuanyongsheng/p/18354713

Loguru：Python 日志终极解决方案
日志的重要性日志的作用非常重要，日志可以记录用户的操作、程序的异常，还可以为数据分析提供依据，日志的存在意义就是为了能够在程序在运行过程中记录错误，方便维护和调试，能够快速定位出错的地方，减少维护成本。每个程序员都应该知道，不是为了记录日志而记录日志，日志也不是随意记的。要......
计算机毕业设计必看必学! ! 89344 springboot大学生就业管理系统，原创定制程序, java、
摘要信息化社会内需要与之针对性的信息获取途径，但是途径的扩展基本上为人们所努力的方向，由于站在的角度存在偏差，人们经常能够获得不同类型信息，这也是技术最为难以攻克的课题。针对大学生就业管理系统等问题，对大学生就业管理系统进行研究分析，然后开发设计出大学生就业管理......
一文告诉你如何用 Python 对图片和视频进行高清修复
估计大家应该在网上看过很多用AI修复的高清视频，最近我也有相关需求，需要修复几张图片。于是便去GitHub上寻找相关开源项目，结果还真找到一个，效果还很不错，这里特意分享出来给大家。首先将https://github.com/xinntao/Real-ESRGAN.git克隆下来，项目结构如下：然后我们要安装相关......
使用 Python 操作 Stable Diffusion 进行 AI 绘图
在几年前，AI领域对于普通人来说，还是无法触及的高岭之花。但随着chatGPT的爆火，AI变得越来越大众化，大量的工具让你可以在不具备任何前置知识的情况下使用AI，其中最火热的便是AI绘图了。相信很多人都知道Midjourney这个网站，只要输入相关的文字，便可通过网站背后的AI产出相对......
简单的python web项目的docker-compose.yml 示例
一个简单的pythonweb项目,包含redis,mysql,nginx,定时业务调度等其中web启动注册了自定义命令flaskcreate-db&&flaskinit-db&&uwsgi/web/uwsgi.iniversion:'3.5'services:db:image:mysqlcontainer_name:yeping_mysqlcommand:--default-......
Epson C4校准和Python通讯流程
第一章简介1.1机器人型号EsonC41.2.目的使用EponC4机械臂，通过python进行指令控制，在通讯之前，进行了原点和工具坐标系的校准1.3.流程C4机械臂的机械原点校准C4机械臂的工具坐标系校准C4机械臂的通讯第二章机械原点校准2.1.原点校准-硬件操作2.1.1.原点校准......
python实现文字识别
在Python中实现文字识别（OCR,OpticalCharacterRecognition）的一种流行方式是使用开源库如Tesseract。Tesseract是一个由HP实验室开发、后来由Google优化的OCR引擎，支持多种操作系统，并且能够识别多种语言的文本。步骤1:安装Tesseract首先，你需要在你的系统上安装Tesseract。......
CSP真题答案《202309-01、02》基于Python的实现
注意：注释在测试CSP时应全部删除！！！第一题：#键盘输入两个数以空格隔开，分别为n,mn,m=map(int,input().split())#根据n值可以循环输入n行值，得到一个列表（操作数）madenum=[list(map(int,input().split()))for_inrange(n)]#根据m值可以循环输入m行值，得到一个列表（初始......
OpenAI API: How do I handle errors in Python?
题意：在使用OpenAIAPI进行Python开发时，怎样处理错误？问题背景：Itriedusingthebelowcode,buttheOpenAIAPIdoesn'thavethe AuthenticationError methodinthelibrary.HowcanIeffectivelyhandlesucherror.我尝试使用下面的代码，但是OpenAIAPI的库中并没......
基于Python长时间序列遥感数据处理及在全球变化、物候提取、植被变绿与固碳分析、生物
植被是陆地生态系统中最重要的组分之一，也是对气候变化最敏感的组分，其在全球变化过程中起着重要作用，能够指示自然环境中的大气、水、土壤等成分的变化，其年际和季节性变化可以作为地球气候变化的重要指标。此外，由于生态工程保护建设和植被自然生长等因素，中国陆地生态系统发挥了重......

亲测有效！！！python实现抖音直播间评论区最新评论爬取

打开直播间浏览器（下载谷歌浏览器exe文件放在项目目录下）

获取html标签中的评论文本

相关文章

赞助商

阅读排行