首页 > 其他分享 >爬虫基础之爬取表情包GIF

爬虫基础之爬取表情包GIF

时间:2025-01-03 21:05:10浏览次数:3  
标签:提取 img url 爬虫 GIF 数据 page css 表情

网站地址 : 热门表情_发表情,表情包大全fabiaoqing.com

爬取思路: 通过开发者工具找到包含页面表情包的数据包 通过re parsel css等解析提取数据

爬取步骤:

一. 请求数据 模拟浏览器向服务器发送请求

        打开F12 or 右击开发者模式
        Ctrl+F 打开搜索框 输入要找寻的数据 找到服务器返回的数据包
        将标头中的url地址复制过来 其实也就是浏览器框里的地址

        

#导包
import requests

url = 'https://fabiaoqing.com/biaoqing/lists/page/3.html'
# 服务器返回的数据  response响应体对象
# 此网站没有反爬机制不需要添加请求头就可以请求到数据
resp = requests.get(url)

print(resp.text)

 Ctrl+F 确认数据是否正确


二. 提取数据 提取我们想要的数据
      表情包的名称和地址
提取方式:

  1. re 正则表达式  能够从文本中提取数据
  2. xpath  路径提取器  从xml 或者是 html 中根据路径提取数据
  3. css 选择器    能够从html中选择标签  语法和前端的css语法相同
  4. parsel  从HTML和XML文档中提取数据的Python库,它依赖于lxml解析器,并且提供了类似于jQuery的选择器语法 也是scrapy的组件    可以使用css 和 xpath 语法提取数据

本案例采用parsel模块进行解析  

提取img标签中的data-original 属性

import parsel
# 服务器返回的数据  response响应体对象
resp = requests.get(url)
# 实例化 Selector对象
selector = parsel.Selector(resp.text)
# 使用对应的语法进行提取
gif_url = selector.css('.tagbqppdiv a')
#定义一个变量 方便保存图片
num = 1
for i in gif_url:
    src = ''.join(i.css('img::attr(data-original)').getall()[0])
    # 将地址进行切割 取到每个图片的后缀名 jpg gif
    end = src.split('.')[-1]
    

三. 保存数据 将图片保存到本地
        

#向图片地址发送请求 获取二进制的数据 音乐 电影 图片视频都是以二进制形式保存
content = requests.get(url=src).content
# 以二进制写入文件  在当前代码目录中 新建一个img文件夹 或使用os模块自动创建都可以
with open('img\\'+str(num)+'.'+f'{end}','wb') as f:
     f.write(content)
num+=1

运行代码

想要看到下载进度的可以下载 tqdm 模块

导包 from tqdm import tqdm 
在for 循坏遍历时加上 for i in tqdm(gif_url)即可
os:操作文件目录模块  import os  内置模块
if not os.path.exists('img\\'):
    os.mkdir('img\\')  


        

 Explain:
        此网站复制图片的地址在浏览器打开是打开不了的,但可以进行正常的保存

 到此一页的表情包采集完毕 
多页采集需改变page页码即可  多页采集嵌套for 循坏

 

for page in range(1,6):
    url = f'https://fabiaoqing.com/biaoqing/lists/page/{page}.html'

        本次的案例分享到此结束 感谢大家的观看 您的点赞和关注是我跟新的动力 谢谢

        

        

标签:提取,img,url,爬虫,GIF,数据,page,css,表情
From: https://blog.csdn.net/2302_80243887/article/details/144777829

相关文章

  • 美图录-中国美女爬虫.py
    #-*-coding:utf-8-*-importreimportrequestsimportosdef取全部页():单_访问=requests.get('https://www.meitulu.com/guochan/')if单_访问.status_code==200:单_访问.encoding='utf-8'return(int(re.findall('..<ahref=".*?......
  • 淘宝店铺商品数据洞察:利用Python爬虫获取item_search_shop接口
    引言在电子商务的世界里,商品详情页是连接商家与消费者的重要桥梁。它不仅展示了商品的详细信息,还直接影响着消费者的购买决策。淘宝作为全球知名的电商平台,提供了丰富的API接口,使得开发者能够获取商品的详细信息。本文将探讨如何利用JAVA爬虫技术,获取淘宝的item_get_pro接口,以......
  • 淘宝店铺商品数据洞察:利用Python爬虫获取item_search_shop接口
    引言在电商领域,数据的力量不容小觑。对于淘宝店铺而言,掌握店铺内所有商品的数据,对于优化库存、提升销售策略、增强用户体验等方面都至关重要。本文将探讨如何利用Python爬虫技术,获取淘宝的item_search_shop接口,以获得店铺的所有商品信息,包括商品ID、名称、价格、库存量等关键数据......
  • 利用JAVA爬虫获取item_search_img-按图搜索1688商品(拍立淘)接口
    引言在当今的电商领域,图像识别技术的应用越来越广泛,尤其是以图搜图功能,它极大地提高了用户的购物体验。本文将详细介绍如何利用JAVA爬虫技术获取1688商品的按图搜索接口,即拍立淘接口,实现商品的图像识别搜索。一、1688API接口概述1688作为阿里巴巴集团旗下的批发交易平台,提......
  • 爬虫基础之爬取博客博主文章保存为PDF
    网址:爬虫基础之爬取某阁小说(最新版1)_小说在线爬虫-CSDN博客工具:爬虫工具库-spidertools.cn本案列所需要的模块:requestswkhtmlwopdfparselospdfkitpprint以我自己的博客为例:爬取步骤:一.请求数据模拟浏览器向服务器发送请求确定爬取的目标--文章的标题和内容 ......
  • (免费源码)计算机毕业设计必学必看 java、python、php、node.js、c#、APP、小程序、大数
     摘 要疫情之下,实体经济面临下行压力。2019年以来,新冠肺炎疫情卷土而来,各地地疫情防控形势严峻,许多中小微企业经营发展屡次遭受打击。面对疫情常态化的社会现实,为纾困中小企业,助力经济复苏,保障社会稳定运行,国家有关部门相继出台一系列政策“组合拳”,加大纾困支持力度,提振......
  • (免费源码)计算机毕业设计必学必看 万套实战教程 java、python、php、node.js、c#、APP
    摘 要随着我国经济迅速发展,人们对手机的需求越来越大,各种手机软件也都在被广泛应用,但是对于手机进行数据信息管理,对于手机的各种软件也是备受用户的喜爱,抗疫物资管理小程序被用户普遍使用,为方便用户能够可以随时进行抗疫物资管理小程序的数据信息管理,特开发了基于PHP南宁......
  • (免费源码)计算机毕业设计必学必看 万套实战教程 java、python、php、node.js、c#、APP
     摘 要随着我国经济迅速发展,人们对医疗管理的需求越来越大,各种医疗管理系统也都在被广泛应用,对于医疗管理的各种软件也是备受用户的喜爱,医疗管理系统被用户普遍使用,为方便用户能够可以随时进行医疗管理系统的数据信息管理,特开发了基于springboot医疗管理系统。医疗管理系......
  • (免费源码)计算机毕业设计必学必看 万套实战教程 java、python、php、node.js、c#、APP
    摘要信息化社会内需要与之针对性的信息获取途径,但是途径的扩展基本上为人们所努力的方向,由于站在的角度存在偏差,人们经常能够获得不同类型信息,这也是技术最为难以攻克的课题。针对高校课程实验系统等问题,对面向过程性考核的高校课程实验系统进行研究分析,然后开发设计出面向过......
  • Python----Python爬虫(re、bs4、pyquery、xpath、json的使用)
    一、正则表达式的使用1.1、正则表达式        正则表达式是用来匹配字符串非常强大的工具,在其他编程语言中同样有正则表达式的概念,Python同样不例外,利用了正则表达式,我们想要从返回的页面内容提取出我们想要的内容就易如反掌了1.2、规则1.2.1、定位符字符描述^......