1 css选择器
bs4 可以通过遍历,搜索,css选择器选择标签
from bs4 import BeautifulSoup html_doc = """ <html><head><title>The Dormouse's story</title></head> <body> <p id="my p" class="title">asdfasdf<b id="bbb" class="boldest">The Dormouse's story</b> </p> <p class="story">Once upon a time there were three little sisters; and their names were <a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>, <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and <a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>; and they lived at the bottom of a well.</p> <p class="story">...</p> """ soup = BeautifulSoup(html_doc, 'lxml') # res=soup.select('a') # res=soup.select('#link1') #代表id # res=soup.select('.sister') .代表class # res=soup.select('body>p>a') # 只需要会了css选择,几乎所有的解析器[bs4,lxml...],都会支持css和xpath # res=soup.select('body>p>a:nth-child(2)') # res=soup.select('body>p>a:nth-last-child(1)') # [attribute=value] res=soup.select('a[href="http://example.com/tillie"]') print(res) ''' 记住的: 1 标签名 2 .类名 3 #id号 4 body a body下子子孙孙中得a 5 body>a body下子的a,没有孙 6 其他的参照css选择器 '''
2 selenium基本使用
# requests 发送http请求获取数据,获取数据是xml使用bs4解析,解析出咱么想要的数据 -使用requests获取回来的数据,跟直接在浏览器中看到的数据,可能不一样 -requests不能执行js -如果使用requets,需要分析当次请求发出了多少请求,每个都要发送一次,才能拼凑出网页完整的数据 # selenium 操作浏览器,控制浏览器,模拟人的行为 # 人为点:功能测试 # 自动化测试(接口测试,压力测试),网站,认为点,脚本 appnium # 测试开发 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器 # 使用: -安装模块:pip3 install selenium -下载浏览器驱动:selenium操作浏览器,需要有浏览器(谷歌浏览器),谷歌浏览器驱动 -https://registry.npmmirror.com/binary.html?path=chromedriver/ -浏览器版本对应的驱动 106.0.5249.119 找到相应的驱动 -写代码测试 from selenium import webdriver import time # 驱动放到环境变量中,就不用传这个参数了 # 打开一个浏览器 bro = webdriver.Chrome(executable_path='./chromedriver.exe') # 在地址栏输入 网站 bro.get('http://www.baidu.com') time.sleep(3) bro.close() # 关闭tab页 bro.quit() # 关闭浏览器 # rpa:自动化流程机器人,认为做的体力活
3 无界面浏览器
from selenium import webdriver import time from selenium.webdriver.chrome.options import Options # 驱动放到环境变量中,就不用传这个参数了 # 打开一个浏览器 chrome_options = Options() # chrome_options.add_argument('window-size=1920x3000') # 指定浏览器分辨率 # chrome_options.add_argument('--disable-gpu') # 谷歌文档提到需要加上这个属性来规避bug # chrome_options.add_argument('--hide-scrollbars') # 隐藏滚动条, 应对一些特殊页面 # chrome_options.add_argument('blink-settings=imagesEnabled=false') # 不加载图片, 提升速度 chrome_options.add_argument('--headless') # 浏览器不提供可视化页面. linux下如果系统不支持可视化不加这条会启动失败 # chrome_options.binary_location = r"C:\Program Files (x86)\Google\Chrome\Application\chrome.exe" # 手动指定使用的浏览器位置 bro = webdriver.Chrome(executable_path='./chromedriver.exe', options=chrome_options) # 在地址栏输入 网站 bro.get('https://www.jd.com/') print(bro.page_source) # 浏览器中看到的页面的内容 time.sleep(3) bro.close() # 关闭tab页 bro.quit() # 关闭浏览器
5 selenium其它用法
5.1 小案例,自动登录百度
from selenium import webdriver from selenium.webdriver.common.by import By import time bro = webdriver.Chrome(executable_path='./chromedriver.exe') bro.get('http://www.baidu.com') bro.implicitly_wait(10) # 等待,找一个标签,如果标签没加载出来,等一会 bro.maximize_window() # 全屏 # 通过 a标签文字内容查找标签的方式 a = bro.find_element(by=By.LINK_TEXT, value='登录') # 点击标签 a.click() # 页面中id唯一,如果有id,优先用id input_name = bro.find_element(by=By.ID, value='TANGRAM__PSP_11__userName') # 输入用户名 input_name.send_keys('[email protected]') time.sleep(1) input_password = bro.find_element(by=By.ID, value='TANGRAM__PSP_11__password') input_password.send_keys('lqz12345') time.sleep(1) input_submit = bro.find_element(by=By.ID, value='TANGRAM__PSP_11__submit') # 点击 input_submit.click() time.sleep(5) bro.close()
5.1 获取位置属性大小,文本
# 查找标签 bro.find_element(by=By.ID,value='id号') bro.find_element(by=By.LINK_TEXT,value='a标签文本内容') bro.find_element(by=By.PARTIAL_LINK_TEXT,value='a标签文本内容模糊匹配') bro.find_element(by=By.CLASS_NAME,value='类名') bro.find_element(by=By.TAG_NAME,value='标签名') bro.find_element(by=By.NAME,value='属性name') # -----通用的---- bro.find_element(by=By.CSS_SELECTOR,value='css选择器') bro.find_element(by=By.XPATH,value='xpath选择器') # 获取标签位置,大小 print(code.location) print(code.size) ------- print(code.tag_name) print(code.id)
from selenium import webdriver from selenium.webdriver.common.by import By import time import base64 bro = webdriver.Chrome(executable_path='./chromedriver.exe') bro.get('https://kyfw.12306.cn/otn/resources/login.html') # # bro.get('https://www.jd.com/') # bro.implicitly_wait(10) # # bro.maximize_window() # # # 找到扫码登录的标签,搜索标签 # bro.find_element(by=By.ID,value='id号') # bro.find_element(by=By.LINK_TEXT,value='a标签文本内容') # bro.find_element(by=By.PARTIAL_LINK_TEXT,value='a标签文本内容模糊匹配') # bro.find_element(by=By.CLASS_NAME,value='类名') # bro.find_element(by=By.TAG_NAME,value='标签名') # bro.find_element(by=By.NAME,value='属性name') # # -----通用的---- # bro.find_element(by=By.CSS_SELECTOR,value='css选择器') # bro.find_element(by=By.XPATH,value='xpath选择器') # # a = bro.find_element(by=By.LINK_TEXT, value='扫码登录') # a = bro.find_element(by=By.CSS_SELECTOR, value='.login-hd-account>a') a.click() # code = bro.find_element(by=By.ID, value='J-qrImg') code = bro.find_element(by=By.CSS_SELECTOR, value='#J-qrImg') # # # # code = bro.find_element(by=By.CSS_SELECTOR, value='.logo_scene_img') # # print(code) # # # 方案一:通过位置,和大小,截图截出来 print(code.id) print(code.location) print(code.tag_name) print(code.size) # # 方案二:通过src属性获取到图片 print(code.location) print(code.size) print(code.id) # 不是标签的id号 print(code.tag_name) # 是标签的名字 s = code.get_attribute('src') print(s) with open('code.png','wb') as f: res=base64.b64decode(s.split(',')[-1]) f.write(res) time.sleep(3) bro.close()
5.2 等待元素被加载
# 代码执行很快,有些标签还没加载出来,直接取,取不到 # 等待 -显示等待:一般不用,需要指定等待哪个标签,如果标签很多,每个都要设置比较麻烦 -隐士等待: bro.implicitly_wait(10) find找标签的时候,如果找不到,等最多10s钟
5.3 元素操作
# 点击 标签.click() # input写文字 标签.send_keys('文字') #input清空文字 标签.clear() # 模拟键盘操作 from selenium.webdriver.common.keys import Keys input_search.send_keys(Keys.ENTER)
5.4 执行js代码
import time from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.common.keys import Keys bro = webdriver.Chrome(executable_path='./chromedriver.exe') bro.get('https://www.jd.com/') # 1 能干很多事情,打印了cookie # bro.execute_script('alert(document.cookie)') # 2 滚动页面,到最底部 # 一点点滑动 # for i in range(10): # y=400*(i+1) # bro.execute_script('scrollTo(0,%s)'%y) # time.sleep(1) # 一次性直接滑动到最底部 bro.execute_script('scrollTo(0,document.body.scrollHeight)') time.sleep(3) bro.close()
5.5 切换选项卡
import time from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.common.keys import Keys bro = webdriver.Chrome(executable_path='./chromedriver.exe') bro.get('https://www.jd.com/') # 使用js打开新的选项卡 bro.execute_script('window.open()') # 切换到这个选项卡上,刚刚打开的是第一个 bro.switch_to.window(bro.window_handles[1]) bro.get('http://www.taobao.com') time.sleep(2) bro.switch_to.window(bro.window_handles[0]) time.sleep(3) bro.close() bro.quit()
5.6 浏览器前进后退
import time from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.common.keys import Keys bro = webdriver.Chrome(executable_path='./chromedriver.exe') bro.get('https://www.jd.com/') time.sleep(2) bro.get('https://www.taobao.com/') time.sleep(2) bro.get('https://www.baidu.com/') # 后退一下 bro.back() time.sleep(1) # 前进一下 bro.forward() time.sleep(3) bro.close()
5.7 异常处理
from selenium.common.exceptions import TimeoutException,NoSuchElementException,NoSuchFrameException try: except Exception as e: print(e) finally: bro.close()
标签:入门,selenium,爬虫,value,element,bro,import,入狱,find From: https://www.cnblogs.com/shangxin-bai/p/16955871.html