首页 > 编程语言 >【Python】转载一个python 爬虫的帖子

【Python】转载一个python 爬虫的帖子

时间:2023-07-24 12:22:43浏览次数:35  
标签:mg img Python 爬虫 python url https print import

原帖地址

原帖标题:爬取图网的4K图片自动保存本地
https://www.52pojie.cn/thread-1809600-1-1.html
(出处: 吾爱破解论坛)

python 代码


import os.path
import random
import time

import requests
from lxml import etree
import webbrowser

webbrowser.open('https://pic.netbian.com')

ua = input("请输入浏览器的User-Agent,不会的请百度\n")

print('''例如:https://pic.netbian.com/4kmeinv
              https://pic.netbian.com/4kfengjing
              https://pic.netbian.com
''')
uuuu = input("请输入彼岸图的URL不带'/'\n")

headers = {
    'User-Agent': ua
}
url = uuuu

def huoqu(urll):
    url = urll
    # print(url)

    respones = requests.get(url, headers=headers)
    mg = respones.content.decode("gbk")

    tree = etree.HTML(mg)
    img_url = tree.xpath('//ul[@class="clearfix"]//li')
    # print(img_url)

    for a in img_url:
        c = a.xpath('./a//img/@alt')[0]
        img_mg = a.xpath('./a//img/@src')
        img_mgg = requests.get('https://pic.netbian.com' + ''.join(img_mg))

        if not os.path.exists('彼岸图网'):
            os.mkdir("彼岸图网")
        with open(f'彼岸图网/{c}.jpg', 'wb') as f:

            f.write(img_mgg.content)
            print(f'彼岸图网/{c}.jpg,保存成功')

def zongpage(url):
    url = url
    print(url)

    respones = requests.get(url, headers=headers)
    mg = respones.content.decode("gbk")

    tree = etree.HTML(mg)
    page = tree.xpath('//div[@class="page"]/a/text()')

    zongpage = page[-2]
    print('总共:' + zongpage + '页')
    return zongpage

zongpagee = zongpage(url)

for a in range(1, int(zongpagee)):

    if a == 1:
        huoqu(url)
    else:
        uu = f'{url}/index_{a}.html'
        print(uu)
        huoqu(uu)
        time.sleep(random.randint(2, 5))

标签:mg,img,Python,爬虫,python,url,https,print,import
From: https://www.cnblogs.com/aksoam/p/17576919.html

相关文章

  • 使用Python读取txt中的指定内容
    一、序在一些情况下,导出txt的配置信息,但是又有特定的规律。在这种情况下读取配置二、问题分析我们首先肯定是通过关键字定位文本位置,但txt文件我们会面临两种情况:1.关键字与文本在同一行2.关键字与文本不在同一行3.判断条件例如MAC地址只有有IP的才读取,没有IP的就......
  • 【Python】输出函数:pint
    输出函数:printprint() 方法用于打印输出,最常见的一个函数。print在Python3.x是一个函数,但在Python2.x版本不是一个函数,只是一个关键字。语法:print(*objects,sep='',end='\n',file=sys.stdout,flush=False)参数objects--复数,表示可以一次输出多个对象。输出......
  • Python list里面定义自定义类型
    PythonList中定义自定义类型在Python中,List(列表)是一种非常常见且强大的数据结构。它允许我们以有序的方式存储和访问多个元素。在List中,我们可以存储各种类型的数据,包括整数、浮点数、字符串等。但是,Python的灵活性还允许我们在List中存储自定义的数据类型,从而提供更高的灵活性和......
  • Python【17】 torch.cat()
    竖着或者横着拼接矩阵参考:https://www.cnblogs.com/JeasonIsCoding/p/10162356.html参考:https://blog.csdn.net/qian2213762498/article/details/88795848......
  • python的lru_cache
    functools模块中的lru_cache是一个装饰器,用于缓存函数的结果,以避免重复计算。LRU(LeastRecentlyUsed)表示最近最少使用,这意味着当缓存空间满时,会优先删除最久未被使用的缓存项。要使用lru_cache装饰器,需要将其应用于你想要缓存的函数。以下是一个简单的例子:importfunctools@f......
  • python打包方法
    在Python中,要编写setup.py文件,用于构建和打包你的Python项目,你可以遵循以下步骤:创建项目目录结构:首先,你需要创建项目的目录结构,包括源代码文件、资源文件等。一个常见的项目结构如下:project_name/|-project_name/|-__init__.py|-module1.py......
  • [爬虫]1.1.2 网络爬虫的工作原理
    网络爬虫(WebCrawler),也被称为网页蜘蛛(Spider),是一种用来自动浏览互联网的网络机器人。其主要目标通常是为搜索引擎创建复制的网页内容,但它们也可以被用于其他目的,比如数据挖掘。现在,我们一起来深入理解一下网络爬虫的工作原理。整个过程可以被大致分为四个步骤:发送HTTP请求从服......
  • brew 安装的python
    brew安装的Python简介Python是一种面向对象、解释型的高级编程语言。它非常流行,广泛应用于Web开发、数据分析、人工智能等领域。在macOS系统上,我们可以使用Homebrew(简称brew)来安装Python。Homebrew是macOS上的一个包管理器,可以方便地安装、升级和管理软件包。它会自动解决依赖......
  • Python爬虫实战之提高CSDN访问量
    python爬虫之建立代理池(一)_CodingInCV的博客-CSDN博客python爬虫之建立代理池(二)_CodingInCV的博客-CSDN博客前面2篇分别介绍了从2个免费代理网站爬取免费代理来构建我们自己的代理池。这一篇我们从实战的角度来将我们的代理池用起来,通过代理的方式访问我们的CSDN博客(CSDN会认为......
  • Python入门 - 路径,文件夹
    路径#分隔符print(os.pathsep)#;print(os.altsep)#/print(os.extsep)#.#拼接print(os.path.join("a","b","c"))#a\b\c#绝对路径print(os.path.abspath("a/b/c"))#C:\Users\win\PycharmProjects\myTest\a\b\c......