首页 > 编程语言 >亲测有效!!!python实现抖音直播间评论区最新评论爬取

亲测有效!!!python实现抖音直播间评论区最新评论爬取

时间:2024-08-12 12:40:37浏览次数:11  
标签:comment python dy list 爬取 评论 crawling options browser

``
import time # 事件库,用于硬性等待
import threading
from bs4 import BeautifulSoup
from selenium import webdriver # 导入selenium的webdriver模块
from selenium.webdriver.chrome.service import Service

live_dy_url = 'https://live.douyin.com/36947836004' # 直播间链接
crawling_browser_dy = None # 浏览器
comment_list = [] # 评论列表

打开直播间浏览器(下载谷歌浏览器exe文件放在项目目录下)

def init_crawling_browser_dy(url):
global crawling_browser_dy
service = Service('./chromedriver.exe')
options = webdriver.ChromeOptions()
# 无头模式
# options.add_argument('--headless')
options.add_experimental_option('detach', True)
# 忽略证书错误
options.add_argument('--ignore-certificate-errors')
# 忽略 Bluetooth: bluetooth_adapter_winrt.cc:1075 Getting Default Adapter failed. 错误
options.add_experimental_option('excludeSwitches', ['enable-automation'])
# 忽略 DevTools listening on ws://127.0.0.1... 提示
options.add_experimental_option('excludeSwitches', ['enable-logging'])
crawling_browser_dy = webdriver.Chrome(options=options,service=service)
crawling_browser_dy.get('https://live.douyin.com/') # 抖音直播主页
crawling_browser_dy.maximize_window() # 浏览器全屏
time.sleep(3) # 等待3s
crawling_browser_dy.get(url) # 跳转到直播间链接
threading.Timer(10, get_comment_list, args=()).start() # 执行:10s

获取html标签中的评论文本

def get_comment_list():
global comment_list ,crawling_browser_dy
try:
content_dy = crawling_browser_dy.page_source
soup_dy = BeautifulSoup(content_dy, 'html.parser')
# 找到评论的class名称
items_dy = soup_dy.find_all(class_='webcast-chatroom___content-with-emoji-text') # 元素xpath已被篡改,代码仅供学习参考使用
for item in items_dy[-5:]: # 获取最新的5条评论
text = item.text.split(':')[1] if item.text.count(':') > 0 else item.text
comment_list .append(text)
print(comment_list) # 打印评论列表
comment_list.clear()
threading.Timer(10, get_comment_list, args=()).start() # 重复执行:10s
except:
print('抖音自动化测试浏览器:未找到弹幕标签,请查看直播链接是否已结束或异常关闭')

init_crawling_browser_dy(live_dy_url)

``

标签:comment,python,dy,list,爬取,评论,crawling,options,browser
From: https://www.cnblogs.com/yuanyongsheng/p/18354713

相关文章

  • Loguru:Python 日志终极解决方案
    日志的重要性日志的作用非常重要,日志可以记录用户的操作、程序的异常,还可以为数据分析提供依据,日志的存在意义就是为了能够在程序在运行过程中记录错误,方便维护和调试,能够快速定位出错的地方,减少维护成本。每个程序员都应该知道,不是为了记录日志而记录日志,日志也不是随意记的。要......
  • 计算机毕业设计必看必学! ! 89344 springboot大学生就业管理系统,原创定制程序, java、
    摘 要信息化社会内需要与之针对性的信息获取途径,但是途径的扩展基本上为人们所努力的方向,由于站在的角度存在偏差,人们经常能够获得不同类型信息,这也是技术最为难以攻克的课题。针对大学生就业管理系统等问题,对大学生就业管理系统进行研究分析,然后开发设计出大学生就业管理......
  • 一文告诉你如何用 Python 对图片和视频进行高清修复
    估计大家应该在网上看过很多用AI修复的高清视频,最近我也有相关需求,需要修复几张图片。于是便去GitHub上寻找相关开源项目,结果还真找到一个,效果还很不错,这里特意分享出来给大家。首先将https://github.com/xinntao/Real-ESRGAN.git克隆下来,项目结构如下:然后我们要安装相关......
  • 使用 Python 操作 Stable Diffusion 进行 AI 绘图
    在几年前,AI领域对于普通人来说,还是无法触及的高岭之花。但随着chatGPT的爆火,AI变得越来越大众化,大量的工具让你可以在不具备任何前置知识的情况下使用AI,其中最火热的便是AI绘图了。相信很多人都知道Midjourney这个网站,只要输入相关的文字,便可通过网站背后的AI产出相对......
  • 简单的python web项目的docker-compose.yml 示例
    一个简单的pythonweb项目,包含redis,mysql,nginx,定时业务调度等其中web启动注册了自定义命令flaskcreate-db&&flaskinit-db&&uwsgi/web/uwsgi.iniversion:'3.5'services:db:image:mysqlcontainer_name:yeping_mysqlcommand:--default-......
  • Epson C4校准和Python通讯流程
    第一章简介1.1机器人型号EsonC41.2.目的使用EponC4机械臂,通过python进行指令控制,在通讯之前,进行了原点和工具坐标系的校准1.3.流程C4机械臂的机械原点校准C4机械臂的工具坐标系校准C4机械臂的通讯第二章机械原点校准2.1.原点校准-硬件操作2.1.1.原点校准......
  • python实现文字识别
    在Python中实现文字识别(OCR,OpticalCharacterRecognition)的一种流行方式是使用开源库如Tesseract。Tesseract是一个由HP实验室开发、后来由Google优化的OCR引擎,支持多种操作系统,并且能够识别多种语言的文本。步骤1:安装Tesseract首先,你需要在你的系统上安装Tesseract。......
  • CSP真题答案《202309-01、02》基于Python的实现
    注意:注释在测试CSP时应全部删除!!!第一题:#键盘输入两个数以空格隔开,分别为n,mn,m=map(int,input().split())#根据n值可以循环输入n行值,得到一个列表(操作数)madenum=[list(map(int,input().split()))for_inrange(n)]#根据m值可以循环输入m行值,得到一个列表(初始......
  • OpenAI API: How do I handle errors in Python?
    题意:在使用OpenAIAPI进行Python开发时,怎样处理错误?问题背景:Itriedusingthebelowcode,buttheOpenAIAPIdoesn'thavethe AuthenticationError methodinthelibrary.HowcanIeffectivelyhandlesucherror.我尝试使用下面的代码,但是OpenAIAPI的库中并没......
  • 基于Python长时间序列遥感数据处理及在全球变化、物候提取、植被变绿与固碳分析、生物
    植被是陆地生态系统中最重要的组分之一,也是对气候变化最敏感的组分,其在全球变化过程中起着重要作用,能够指示自然环境中的大气、水、土壤等成分的变化,其年际和季节性变化可以作为地球气候变化的重要指标。此外,由于生态工程保护建设和植被自然生长等因素,中国陆地生态系统发挥了重......