王者荣耀英雄图片爬取

pyquery库

https://pyquery.readthedocs.io/en/latest/ 官方文档

https://github.com/gawel/pyquery github

pyquery实际上是python中的jquery
安装
```
pip install  pyquery
```
导入
```
from  pyquery import PyQuery as pq
```

对象解析

urlparse = pq(url='https://www.baidu.com/')
# urlparse = pq(url='https://www.baidu.com/',headers=USER_HEARDER)
fileparse=pq(file='./test.html')  # 本文不做过多阐述
reqparse = pq(req.text)  #req = requests.get('https://www.baidu.com/')   # 本文不做过多阐述

元素定位：直接使用css选择器

element = reqparse(css表达式).items() # .items()得到了一个generator 可以遍历获取每个元素

元素属性值/文本获取
- element.attr.属性名 # 如ele.attr.class就是获取class属性的值 # 这是获取元素属性方式1
- element.attr['属性名'] # 获取元素属性方式2
- element.text() # 获取元素的文本

示例代码1: 用pyquery爬

from pyquery import  PyQuery as pq
import requests
from pathlib import Path
hero_url = pq(url='https://pvp.qq.com/web201605/herolist.shtml',encoding='gbk')
heros = hero_url('.herolist img').items()
Path('hero').mkdir(exist_ok=True)
for hero in heros:
    img_url = 'https:' + hero.attr.src
    hero_name = hero.attr.alt
    with open(f'./hero/{hero_name}.png','wb') as f:
        f.write(requests.get(img_url).content)

几点说明
- encoding要加，不然无法解析出html中的中文
- Path('hero').mkdir(exist_ok=True)只是为了在当前目录下创建一个hero的文件夹用来存放英雄图片
- hero.attr.src得到的url地址不全，要在前面加上协议信息
- 写文件的时候要用wb模式来写图片
- f.write应该塞一个二进制的对象，这个对象可以通过requests请求上面的url得到的响应的content来获取。
但是！这样下载下来的英雄图片是缺失的，只有93个。
截止到目前版本，王者已有113个，前面的一些英雄丢失了。（我的理解是延迟了？）

示例代码2: 用selenium爬

不解释了

import requests
from selenium import webdriver
from selenium.webdriver.common.by import By
driver = webdriver.Chrome()
driver.get('https://pvp.qq.com/web201605/herolist.shtml')
driver.maximize_window()  # 最大化窗口
driver.implicitly_wait(5)  # 隐式等待5s， 定位元素的时候如果没找到，等5s
heros = driver.find_elements('css selector','.herolist img') # 找到所有的英雄
for  hero in heros:  # hero 就是某个英雄元素， 对应到selenium中是WebElement类型
    img_url = hero.get_attribute('src') # 获取元素的src属性值
    hero_name = hero.get_attribute('alt')
    with open(f'./hero1/{hero_name}.png','wb') as f:
        pic_content = requests.get(img_url).content
        f.write(pic_content)

这样可以爬下来113个英雄
element.text() # 获取的是element的文本

标签：pq,hero,王者,url,荣耀,爬取,https,import,pyquery
From： https://www.cnblogs.com/wuxianfeng023/p/17163144.html

基于SpringBoot WebMagic爬虫爬取大乐透双色球
大乐透网页地址:https://kjh.55128.cn/dlt-history-360.htm双色球网页地址:https://kjh.55128.cn/ssq-history-120.htm 注：程序仅用于个人兴趣爱好，不得用于商业行为，本......
scrapy框架图片爬取案例——以堆糖网为例
本节主要分享的是scrapy框架中关于图片类的简单爬取方法，在这里只需要用到三个文件：1.setting.py进行scrapy抓取图片所用到的基础。2.duitang_spider.py实现获取多出url进......
爬虫实战---爬取音乐
爬虫实战---爬取音乐前言：此方法来源于网络：https://www.bilibili.com/video/BV1g8411G7ZC?p=1，仅供个人学习模块：模块ostkinterwebbrowserrequests......
爬取大乐透历史中奖信息，随便写，数据不大
爬取大乐透历史中奖数据importrequestsfromlxmlimportetreeimportpprint#importjsonurl='http://datachart.500.com/dlt/history/newinc/history.php?limit=230......
爬取网页信息遇到的小问题
在网页头部信息看到：Accept-Encoding:gzip,deflate图片：而爬到的汉字的部分是乱码：查看获取响应的数据类型：importreimportrequestsfrombs4importBe......
爬取网页图片
网络图片链接的格式：http://www.example.com/picture.jpghttp://img0.dili360.com/ga/M00/34/5E/wKgBzFS8cISAYYg5AB5r1Gar-oQ103.tub.jpg1importrequests2import......
P5638 【CSGRound2】光骓者的荣耀
题目链接：https://www.luogu.com.cn/problem/P5638前缀和模拟#include<bits/stdc++.h>usingnamespacestd;constintmax_n=1e6+10;intn,k;longlonga[max_n];......
为了快速了解原神，我用Python爬取了原神所有角色信息！
原神是由米哈游制作发行的一款开放世界冒险游戏，号称全球玩家5600W，可以说是非常热门了，朋友都说好玩，哎，但我就是不玩，就是皮… 但是，今天我就要用python来打开“原......
Python爬取百度文库文档，无须充值VIP，直接免费下载所有文档！
哈喽兄弟们，今天给大家带来最新版如何实现百度文库VIP内容获取 ......
CrawlSpider(全站数据爬取)
CrawlSpider(全站数据爬取)实现网站的全站数据爬取就是将网站中所有页码对应的页面数据进行爬取。crawlspider其实就是scrapy封装好的一个爬虫类，通过该类提供的相......

王者荣耀英雄图片爬取

王者荣耀英雄图片爬取

pyquery库

示例代码1: 用pyquery爬

示例代码2: 用selenium爬

相关文章

赞助商

阅读排行