首页 > 编程语言 >Python爬虫之爬取绝对领域美女图片

Python爬虫之爬取绝对领域美女图片

时间:2022-11-13 17:33:55浏览次数:46  
标签:__ name img get Python 爬虫 url 美女 data


Python爬虫之爬取绝对领域美女图片

第一步:

导入模块:

import requests
from lxml import etree

第二步:定义函数:

def get_url(start_url):
response=requests.get(start_url)
data=etree.HTML(response.text)#转化成xpath能处理的对象
#print(data)
new_url_list=data.xpath('//div[@class="post-module-thumb"]/a/@href')
for url in new_url_list:
res=requests.get(url)
img_data=etree.HTML(res.text)
img_url_list=img_data.xpath('//div[@class="entry-content"]//img/@src')
for img_url in img_url_list:
#print(img_url)
file_name=img_url.split("/")[-2]+img_url.split("/")[-1]
print(file_name)
result=requests.get(img_url).content
with open("图片/"+file_name,'wb') as f:
f.write(result)
print("正在下载",file_name)

最后主体运行函数:

if __name__=="__main__":#python的程序入口
for i in range(50,78):
start_url='https://www.jdlingyu.com/tuji/hentai/gctt/page/{}'.format(i)
get_url(start_url)

完整代码:

import requests
from lxml import etree

def get_url(start_url):
response=requests.get(start_url)
data=etree.HTML(response.text)#转化成xpath能处理的对象
#print(data)
new_url_list=data.xpath('//div[@class="post-module-thumb"]/a/@href')
for url in new_url_list:
res=requests.get(url)
img_data=etree.HTML(res.text)
img_url_list=img_data.xpath('//div[@class="entry-content"]//img/@src')
for img_url in img_url_list:
#print(img_url)
file_name=img_url.split("/")[-2]+img_url.split("/")[-1]
print(file_name)
result=requests.get(img_url).content
with open("图片/"+file_name,'wb') as f:
f.write(result)
print("正在下载",file_name)



if __name__=="__main__":#python的程序入口
for i in range(50,78):
start_url='https://www.jdlingyu.com/tuji/hentai/gctt/page/{}'.format(i)
get_url(start_url)

运行成功截图如下:

Python爬虫之爬取绝对领域美女图片_python

我在外面自己创建一个文件夹用来存储图片:

Python爬虫之爬取绝对领域美女图片_html_02


标签:__,name,img,get,Python,爬虫,url,美女,data
From: https://blog.51cto.com/u_15870497/5847873

相关文章

  • Python之递归函数与装饰器
    Python之递归函数与装饰器文章目录​​Python之递归函数与装饰器​​​​递归的含义:​​​​python中的时间模块​​​​装饰器​​递归函数在函数内部,可以调用其他函数。如......
  • Python之selenium的打开浏览器的二种方式
    Python之selenium的打开浏览器的二种方式文章目录​​Python之selenium的打开浏览器的二种方式​​​​第一步我们要先按照selenium:​​​​第一种打开方式:​​​​第二种......
  • Python如何使用XPath对HTMl内容解析,,玩转XPath
    Python如何使用XPath对HTMl内容解析文章目录​​Python如何使用XPath对HTMl内容解析​​​​HTMl内容解析​​​​HTML基础:​​​​什么是XPath:​​​​lxml的安装​​​​......
  • (Python)简易通讯录
    问题描述:将用户输入用逗号分隔的一系列人名作为键,用户输入的逗号分隔的手机号作为值,创建字典MyDict,输入一个正整数n,你将被要求读入n个输入(输入形式如下所示),每得到一......
  • python元祖
    元祖里是数据是固定的,不能修改1str_tuple=('dew','','as')23int_tuple=(1,2,4,5,4)45float_tuple=(1.1,20.3,23.9)67bool_tuple=(True,Fals......
  • 【Python零基础入门篇 · 41】:内置模块的使用二:pyinstaller模块(打包py文件以及更换图
    pyinstaller模块pyinstaller是第三方模块,需要在Terminal输入命令安装:pipinstallpyinstaller步骤演示在Day18.py文件下写入代码在cmd或Terminal找到文件进行打包。......
  • 【Python零基础入门之终结篇】:虚拟机Linux命令、Vim编辑器、有趣的命令
    以下操作均在ubuntu虚拟机中的终端进行鼠标右键,点击“打开终端”ctrl+shift+"+":放大终端字体ctrl+"-":减小终端字体虚拟机Linux命令基本命令常用命令命令作......
  • Python开发人脸动态追踪
    Python开发人脸动态追踪导入库文件cv2通过pip命令安装pipinstallopencv-python或者在在设置里面找到+进行opencv-python你还要去下载文件:haarcascade_frontalface_alt.xm......
  • 网易云vip音乐免费下载方法(python爬虫)
    importosimportreimportjsonimportrequestsfromlxmlimportetreedefdownload_songs(url=None):  ifurlisNone:    url='https://music.......
  • 爬虫-aiohttp
     #-*-coding:utf-8-*-importrequestsimportasyncioimporttimeimportaiohttp'''-aiohttp-是一个支持异步的网络请求模块-pipinstallaiohttp......