selenium 爬豆瓣帖子

时间：2023-01-13 10:05:39浏览次数：31

标签：temp selenium html 帖子豆瓣 time import div browser

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
Created on Mon Aug 30 19:17:12 2021

@author: ledi
"""

import time
import parsel
import csv
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait

import requests
from lxml import etree
import datetime

from bs4 import BeautifulSoup
import pandas as pd

url = 'https://accounts.douban.com/passport/login?source=group'

browser = webdriver.Chrome()

wait = WebDriverWait(browser, 50)

browser.get(url)

time.sleep(30)

import time

data=[]
for pa in range(10000):
    
    kkt=25*pa
    url='https://www.douban.com/group/707669/discussion?start='+str(kkt)
    # url = 'https://www.douban.com/group/707669/'
    
    browser.get(url)
    
    page = browser.page_source
    
    print(page)
    
    soup = BeautifulSoup(page, "lxml")
    
    # soup = BeautifulSoup(html, "lxml")
    # 查找所有class属性为hd的div标签下的a标签的第一个span标签
    # soup = BeautifulSoup(html, "lxml")
    # 查找所有class属性为hd的div标签
    div_list = soup.find_all('td', class_='title')
    
    
    
    # import time
    # data=[]
    
    dd=pd.read_html(page)[1].values
    time.sleep(3)
    for k in range(len(div_list)):
        print(div_list[k])
        c=str(div_list[k].a).split()
        
        print(c)
        print(len(c))
        print('############')
        c1=c[2].split('=')
        c2=c1[1].split('"')
        
        temp=[c2[1],c[-2],dd[:,2][k]]
        
        
        # temp_html= requests.get(temp[0], headers=headers).text
        browser.get(temp[0])
        temp_html = browser.page_source
        et_html = etree.HTML(temp_html)
        # # 查找所有class属性为hd的div标签下的a标签的第一个span标签
        
    
        urls = et_html.xpath("""//*[@id="topic-content"]/div[2]/h3/span[2]""")
        
        
        
        
        this_time=[each.text.strip() for each in  urls]
        
        
        kkp=temp+this_time
        data.append(kkp)
        print(kkp)
        time.sleep(0.2)
    
    # time.sleep(1)
    


# result = []

标签：temp,selenium,html,帖子,豆瓣,time,import,div,browser
From： https://blog.51cto.com/u_15202985/6005775

【Python爬虫项目实战】Python爬虫豆瓣Top250电影短评数据保存本地
前言今天给大家介绍的是Python爬虫豆瓣Top250电影短评数据保存本地，在这里给需要的小伙伴们帮助，并且给出一点小心得。开发工具Python版本：3.6相关模块：requests模块par......
java+selenium基础知识
----------1.获取浏览器驱动：---ChromeSystem.setProperty("webdriver.chrome.driver","E:\\chromedriver\\newChrome\\chromedriver.exe");WebDriverwebDriver=newChro......
Web自动化测试03：Selenium安装配置，详细教程
文章目录系列文章目录学习目标一、环境搭建1.1安装selenium包1.2安装浏览器驱动火狐浏览器：谷歌浏览器：Edge......
菜鸟金融登录页面的滑动验证码，selenium写法
#获取拖动按钮位置并拖动defslide_auth(self):try:time.sleep(random.randint(6,8))#checkhaveslideverifyelementsor......
Selenium多浏览器处理
实战演示Python版本#导入依赖importosfromseleniumimportwebdriverdeftest_browser():#使用os模块的getenv方法来获取声明环境变量browserbrowser=os.geten......
Selenium 测试用例编写
原文链接编写Selenium测试用例就是模拟用户在浏览器上的一系列操作，通过脚本来完成自动化测试。编写测试用例的优势：开源，免费。支持多种浏览器IE，Firefox，Chrome，Safar......
Python+Selenium
python+Selenium学习Selenium组件SeleniumIDE：是一个测试集成开发环境，可以结合FF录制脚本，并对脚本编辑和调试特点：1.很容易在页面上就行录制2.能自动通......
Selenium57-使用fixture
第四版使用fixturetest_后台_双创_基础设置_赛区管理_添加赛区_case_v4_1.py使用fixture来做前置和后置处理。使用yield来分隔前置后后置处理步骤。定义prepare_and_exit方......
Selenium58-优化fixture
v4_1问题代码运行效率较低：prepare_and_exit包含所有前置和后置步骤，每组测试数据都从重新启动浏览器开始到关闭浏览器结束。。思考：是否可以省略每组数据测试时的重新启动浏......
Selenium65-Allure报告
Allure简介Allure是一款轻量级并且非常灵活的开源测试报告框架。它支持绝大多数测试框架，例如TestNG、Pytest、JUint等。它简单易用，易于集成。官网：http://allure.qato......

selenium 爬豆瓣帖子

相关文章

赞助商

阅读排行