首页 > 其他分享 >selenium使用

selenium使用

时间:2023-03-17 19:55:29浏览次数:36  
标签:webdriver 浏览器 selenium bro 使用 import browser

目录

selenium基本使用

selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题。selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器。

步骤

1.下载selenium
   pip install selenium
2.操作浏览器:根据浏览器下载相应浏览器驱动
     谷歌:谷歌浏览器驱动,版本:111.0.5563.65
      https://registry.npmmirror.com/binary.html?path=chromedriver/
        
3.下载完的驱动放在项目路径下
4.写代码,控制谷歌浏览器
  from selenium import webdriver
    import  time
    bro = webdriver.Chrome(executable_path='chromedriver.exe')  # 打开一个谷歌浏览器
    bro.get('https://www.baidu.com/s?wd=%E8%8A%B1%E8%8A%B1') # 在地址栏中输入地址
    print(bro.page_source)  # 当前页面的内容  (html格式)
    with open('1.html','w',encoding='utf-8')as f:
        f.write(bro.page_source)

    time.sleep(3)
    bro.close()
"""
代码控制浏览器:打开谷歌浏览器---》在地址栏输入网址---打开网址---》存进去html页面"""

image

无界面浏览器

from selenium import webdriver
import time
from selenium.webdriver.chrome.options import Options

# 隐藏浏览器的图形化界面,但是数据还拿到
chrome_options = Options()
chrome_options.add_argument('window-size=1920x3000')  # 指定浏览器分辨率
chrome_options.add_argument('--hide-scrollbars')  # 隐藏滚动条, 应对一些特殊页面
chrome_options.add_argument('blink-settings=imagesEnabled=false')  # 不加载图片, 提升速度
chrome_options.add_argument('--headless')  # 浏览器不提供可视化页面. linux下如果系统不支持可视化不加这条会启动失败
# chrome_options.binary_location = r"C:\Program Files (x86)\Google\Chrome\Application\chrome.exe" #手动指定使用的浏览器位置

bro = webdriver.Chrome(executable_path='chromedriver.exe', chrome_options=chrome_options)  # 打开一个谷歌浏览器
# 打开一个谷歌浏览器
bro.get('https://www.cnblogs.com/')  # 在地址栏中输入地址
print(bro.page_source)
time.sleep(3)
bro.close()  # 关闭浏览器

selenium其他用法

1.小案例,自动登录

from selenium import webdriver
import time
from selenium.webdriver.common.by import By


bro = webdriver.Chrome(executable_path='chromedriver.exe')
bro.get('https://www.baidu.com')
# 加入等待:找标签,如果找不到,就等待 x秒,如果还找不到就报错
bro.implicitly_wait(10) # 1 等待
# 从页面中找到登录 a标签,点击它  By.LINK_TEXT  按a标签文本内容找
btn = bro.find_element(by=By.LINK_TEXT,value='登录')
btn.click()
# 找到按账号登录的点击按钮,有id,优先用id,因为唯一TANGRAM__PSP_11__changePwdCodeItem
btn1 = bro.find_element(by=By.ID,value='TANGRAM__PSP_11__changeSmsCodeItem')
btn1.click()
time.sleep(2)

# 返回账号登录
btn2 = bro.find_element(by=By.ID,value='TANGRAM__PSP_11__changePwdCodeItem')
btn2.click()
time.sleep(3)

# 往输入框输入用户名和密码
name=bro.find_element(by=By.ID,value='TANGRAM__PSP_11__userName')
password = bro.find_element(by=By.ID,value='TANGRAM__PSP_11__password')
name.send_keys('[email protected]')
time.sleep(1)
password.send_keys('12334455')
time.sleep(2)
submit=bro.find_element(by=By.ID,value='TANGRAM__PSP_11__submit')

time.sleep(3)
bro.close()

2.查找标签

import time

from selenium import webdriver
from selenium.webdriver.common.by import By

bro = webdriver.Chrome(executable_path='chromedriver.exe')
bro.get('https://www.baidu.com')


# 可以按id,标签名,name属性名,类名,a标签的文字,a标签的文字模糊匹配,css选择器,xpath【后面聊】


# input1 =bro.find_element(by=By.ID,value='wd')  # 按id找
# input_1 = bro.find_element(by=By.NAME, value='wd')  # name属性名
# input_1=bro.find_element(by=By.TAG_NAME,value='input') # 可以按标签名字找
# input_1=bro.find_element(by=By.CLASS_NAME,value='s_ipt') # 可以按类名
# input_1=bro.find_element(by=By.LINK_TEXT,value='登录') # 可以按a标签内容找
# input_1=bro.find_element(by=By.PARTIAL_LINK_TEXT,value='录') # 可以按a标签内容找
input_1= bro.find_element(by=By.CSS_SELECTOR, value='#su')  # 可以按css选择器

input_1.click()
time.sleep(4)
# print(bro.page_source)
bro.close()

3.获取位置属性大小、文本

print(tag.get_attribute('src'))  # 用的最多
tag.text  # 文本内容
#获取标签ID,位置,名称,大小(了解)
print(tag.id)
print(tag.location)
print(tag.tag_name)
print(tag.size)

4.等待元素被加载

# 代码执行很快,有的标签没来的及加载,直接查找就会报错,设置等待
# 隐士等待:所有标签,只要去找,找不到就遵循 等10s的规则
	bro.implicitly_wait(10)
# 显示等待:需要给每个标签绑定一个等待,麻烦

5.元素操作

# 点击
tag.click()

# 输入内容
tag.send_keys()

# 清空内容
tag.clear()


# 浏览器对象 最大化
bro.maximize_window() 
#浏览器对象  截全屏
bro.save_screenshot('main.png') 

6. 执行JS代码

bro.execute_script('alert("美女")')  # 引号内部的相当于 用script标签包裹了


# 可以干的事
	-获取当前访问的地址  window.location
    -打开新的标签
    -滑动屏幕--》bro.execute_script('scrollTo(0,document.documentElement.scrollHeight)')
    -获取cookie,获取定义的全局变量

7. 切换选项卡

# 打开谷歌浏览器---打开百度网址---切换新网址(淘宝)---切换新浪网址
import time
from selenium import webdriver

browser=webdriver.Chrome(executable_path='chromedriver.exe')
browser.get('https://www.baidu.com') 
browser.execute_script('window.open()') # 打开新的网址窗口

print(browser.window_handles) #获取所有的选项卡

# switch_to.window切换新网址
browser.switch_to.window(browser.window_handles[1])
browser.get('https://www.taobao.com')
time.sleep(2)
browser.switch_to.window(browser.window_handles[0])
browser.get('https://www.sina.com.cn')
browser.close()

8.浏览器前进后退

# 同一个网址窗口浏览器前进后退
import time
from selenium import webdriver

browser=webdriver.Chrome(executable_path='chromedriver.exe')
browser.get('https://www.baidu.com')
browser.get('https://www.taobao.com')
browser.get('http://www.sina.com.cn/')

browser.back()
time.sleep(2)
browser.forward()
browser.close()

9.异常处理

import time
from selenium import webdriver

browser=webdriver.Chrome(executable_path='chromedriver.exe')
try:
except Exception as e:
    print(e)
    
finally:
    browser.close()

补充知识

1. 内网穿透
   花生壳:https://hsk.oray.com/activity/sem/
   
2. java与python的区别?
   java是编译性语言,而python是解释器语言

image

标签:webdriver,浏览器,selenium,bro,使用,import,browser
From: https://www.cnblogs.com/zhanglanhua/p/17227989.html

相关文章