首页 > 编程语言 >Python爬虫:抖音个人主页视频抓取

Python爬虫:抖音个人主页视频抓取

时间:2022-08-26 10:36:15浏览次数:76  
标签:opt web get Python 抖音 个人主页 href div 视频

目标:抓取抖音某博主发布的全部视频

用到的模块 selenium+requests

整体思路:

1、先用selenium自动化让数据加载出来 到视频获取详情页的链接

 

 

 

 

 

2、然后在详情页获取到视频的真实链接

 

 

 

3、然后对链接进行requests请求并保存

 

 

 

4、在保存视频那行代码加try 有的发的不是视频 是图文信息 不加try程序会中断

 

 

具体代码如下:

 1 import time
 2 from selenium.webdriver.chrome.options import Options
 3 from selenium.webdriver import Chrome, ActionChains
 4 import requests
 5 opt = Options()
 6 # 无头浏览器
 7 # opt.add_argument('--headless')
 8 # opt.add_argument('--disable-gpu')
 9 # 屏蔽谷歌浏览器正在接收自动化软件控制提示
10 # opt.add_experimental_option('useAutomationExtension', False)
11 opt.add_experimental_option('excludeSwitches', ['enable-automation'])
12 opt.add_argument('--disable-blink-featurse=AutomationControlled')
13 # 不自动关闭浏览器
14 opt.add_experimental_option("detach", True)
15 web = Chrome(executable_path=r'D:\bigdata\pycharmxiangmu\venv\Scripts/chromedriver.exe',options=opt)
16 web.get('https://www.douyin.com/user/MS4wLjABAAAAJUwAJJ0vxcAx1-uUtcTG6yTIndqqLZJOU5Xvnej5sbD2GdYv818HElibMnCUajp_')
17 script = 'Object.defineProperty(navigator, "webdriver", {get: () => false,});'
18 web.execute_script(script)
19 time.sleep(2)
20 web.maximize_window()
21 web.implicitly_wait(10)
22 n = 1
23 shipindizhi = './抖音个人主页视频/'
24 try:
25     web.find_element_by_xpath('//*[@id="login-pannel"]/div[2]').click()
26 except:
27     print('没有登陆提示')
28 # 下滑到底部 全部数据加载出来
29 for i in range(1000,20000,1000):
30     web.execute_script(f'window.scrollTo(0,{i})')
31     time.sleep(2)
32 href_list = []
33 for page in range(1, 101):
34     time.sleep(1)
35     href = web.find_element_by_xpath(f'//li[{page}]/a').get_attribute('href')
36     href_list.append(href)
37 # print(len(href_list))
38 for hrefs in href_list:
39     # 循环请求报错
40     web.get(hrefs)
41     web.implicitly_wait(5)
42     web.find_element_by_xpath('/html/body/div[2]/div/div/div[2]/div/button[text()="取消"]').click()
43     web.implicitly_wait(5)
44     try:
45         web.find_element_by_xpath('//*[@id="login-pannel"]/div[2]').click()
46     except:
47         print('没有扫码登陆提示')
48     time.sleep(2)
49     web.maximize_window()
50     web.implicitly_wait(10)
51     time.sleep(1)
52     # 因为每次绝对地址都会动 所以换成//video/source[1]点一个get获取href属性
53     try:
54         splj = web.find_element_by_xpath('//video/source[1]').get_attribute('src')
55     except:
56         print('图文信息 没有视频')
57     # print(splj)
58     pinjie = shipindizhi + 'shiping_%s' % n + '.mp4'
59     f = open(pinjie, mode='wb')
60     f.write(requests.get(url=splj).content)
61     n += 1
62     print(pinjie + '图片保存成功')

 

 

标签:opt,web,get,Python,抖音,个人主页,href,div,视频
From: https://www.cnblogs.com/Gil-1117/p/16626712.html

相关文章

  • Python爬虫 AttributeError: 'NoneType' object has no attribute 'replace'
    在爬虫时执行js代码报错node=execjs.get()ctx=node.compile(js_code).call('webInstace.shell',data)  点击1处进入subprocess.py文件   把encoding=Non......
  • 折腾Nas——①执行Python应用
    ①虚拟机或直接安装Nas②开启SSH,并且安装Python3③登录后台sudo-i输入管理员密码,进入root模式④直接输入pip不可以,需要先安装。首先安装setuptoolswget--no-ch......
  • python内置模块tarfile模块详解:tarfile模块是Python的标准模块之一,能够方便读取tar归
    前言1、通常来说,在工作中我们遇到的最多的压缩文件格式只有5种,如下: xxx.gz 、 xxx.tar 、 xxx.tgz 、 xxx.zip 、 xxx.rar 2、各种压缩文件格式的简介:①gz:......
  • 学习:python操作数据库
      一次性添加多条数据   ......
  • Python正则表达式常用写法
    一、正则表达式模式模式字符串使用特殊的语法来表示一个正则表达式:下表列出了正则表达式模式语法中的特殊元素。如果你使用模式的同时提供了可选的标志参数,某些模式元素......
  • python中常见的几个函数
    functionuselen()用来求元组利润表或者字符串等的长度str()将数据转化成字符串类型......
  • python中的变量
    python中的变量变量命名的时候只能包含字母数字和下划线,并且不能是数字开头变量命名的时候不能和python的关键字冲突python中的数据类字符串......
  • Python——pymysql(连接mysql数据库)
    基本设置(包括预防SQL注入):SQL注入问题,在写入sql语言时,可能会有利用mysql语句来进行正常输入的规避。importpymysqlconn=pymysql.connect(host='127.0.0.1',user......
  • python学习Day53
    Day53今日内容概要JS数据类型JS数据类型—布尔值JS数据类型—对象objectJS数据类型—自定义对象objectJS运算符JS流程控制JS函数JS内置对象JS的BOM与DOM操......
  • 学习python-Day47
    今日学习内容JS数据类型比较我们学过python的数据类型去学习布尔值python:boolTrue:数字False:0None''[]{}...JS:boolentruefa......