首页 > 其他分享 >爬取虎牙标题、作者、热度

爬取虎牙标题、作者、热度

时间:2022-12-23 13:04:42浏览次数:38  
标签:parse 热度 span item url text li 爬取 虎牙

# -*- coding: utf-8 -*-
import scrapy
from huyaAll1.items import Huyaall1Item


class HuyaSpider(scrapy.Spider):
name = 'huya'
# allowed_domains = ['www.xxx.com']
start_urls = ['https://www.huya.com/g/xingxiu']

# 建立通用的url模板:
url = "https://www.huya.com/cache.php?m=LiveList&do=getLiveListByPage&gameId=1663&tagAll=0&page=%d"

def parse(self, response):
li_list = response.xpath('//*[@id="js-live-list"]/li')
for li in li_list:
title = li.xpath('./a[2]/text()').extract_first()
author = li.xpath('./span/span[1]/i/text()').extract_first()
hot = li.xpath('./span/span[2]/i[2]/text()').extract_first()
# 实例化item类型对象:
item = Huyaall1Item()
item['title'] = title
item['author'] = author
item['hot'] = hot
yield item

# 手动请求发送:
for page in range(2, 5):
new_url = format(self.url % 1)
# 发起get请求:
yield scrapy.Request(url=new_url, callback=self.parse_othor)

# 解析方法模拟parse进行定义、必须要有和parse同样的参数:
def parse_othor(self, response):
print(response.text)



标签:parse,热度,span,item,url,text,li,爬取,虎牙
From: https://blog.51cto.com/u_15920572/5965367

相关文章

  • scrapy爬取站长素材
    1、创建项目scrapystartproject爬虫项目名字2、创建虫子scrapygenspider虫名字3、setting里面加UA伪装4、加LOG_LEVEL级别、ROBOTSTXT_OBEY=False5、虫名字里面爬取网......
  • 增量式爬取阳光热线网
    -增量式-概念:用于监测网站数据更新的情况。-核心机制:去重。redis的set实现去重-总结反爬机制:-robots-UA伪装-验证码-代理-cookie......
  • 再来爬取4K美女图片
    importrequestsimportosfromlxmlimportetreedirName="./4kmeimv"ifnotos.path.exists(dirName):os.mkdir(dirName)url="http://pic.netbian.com/4kmeinv/ind......
  • [前端js] 爬取亿图脑图大纲
    这段程序使看到了好的东西,又没有零钱的产物还是老师让画思维导图我不想画还想白嫖的想法用时20分钟就拿这个来作为例子https://mm.edrawsoft.cn/template/2868421.......
  • 42爬取数据并保存至db
    需求:将爬取数据保存到数据库将爬取数据保存为txt文件将txt文件内容生成为词云查看爬取到数据库的数据信息代码如下:importos.pathimportrequestsimportpymysqli......
  • Python网络爬虫——爬取和分析福建二手房房价及各项数据
    一、 选题的背景介绍随着越来越多城市的房地产市场进入存量时代,二手房市场的地位愈发重要,其走势对于房地产整体市场的影响也逐渐加强。在很多二手房市场规模占比较高的一......
  • 联合早报新闻数据爬取与可视化分析
    联合早报新闻数据爬取与可视化分析 一. 选题背景在现今随着互联网的发展,时刻流通的信息变得更加庞大而繁杂,获取信息,整合提取有实际效益的信息成为了一个难题。......
  • 网易云热门音乐评论爬取+大数据分析+数据可视化
    一、选题的背景声乐艺术的情感,是歌唱者在自己内心唤起曾经的体验的情感,是一首歌曲的灵魂,抒发情感,给人带来幸福感满足感是音乐的魅力所在。只有加入情感的表现才能使演......
  • 爬虫1 认识和基本爬取UA伪装
    robots.txt协议君子协议如果爬取了robots.txt不允许被爬的东西,会封你IP,你还可以进局子。可以在网站根目录下加上访问看下存在不,大网站一般是存在的。百度翻译[练练手......
  • python爬虫-美团海底捞评论及评分数据爬取和分析
    美团海底捞评论及评分数据爬取和分析一、选题背景  通过网络请求的方式获取响应数据,再对获取的数据进行分析提取和汇总,并储存到xlsx表格中。在进入互联网存储海量数据......