【Python】转载一个python 爬虫的帖子

时间：2023-07-24 12:22:43浏览次数：45

标签：mg img Python 爬虫 python url https print import

原帖地址

原帖标题：爬取图网的4K图片自动保存本地
https://www.52pojie.cn/thread-1809600-1-1.html
(出处: 吾爱破解论坛)

python 代码


import os.path
import random
import time

import requests
from lxml import etree
import webbrowser

webbrowser.open('https://pic.netbian.com')

ua = input("请输入浏览器的User-Agent，不会的请百度\n")

print('''例如：https://pic.netbian.com/4kmeinv
              https://pic.netbian.com/4kfengjing
              https://pic.netbian.com
''')
uuuu = input("请输入彼岸图的URL不带'/'\n")

headers = {
    'User-Agent': ua
}
url = uuuu

def huoqu(urll):
    url = urll
    # print(url)

    respones = requests.get(url, headers=headers)
    mg = respones.content.decode("gbk")

    tree = etree.HTML(mg)
    img_url = tree.xpath('//ul[@class="clearfix"]//li')
    # print(img_url)

    for a in img_url:
        c = a.xpath('./a//img/@alt')[0]
        img_mg = a.xpath('./a//img/@src')
        img_mgg = requests.get('https://pic.netbian.com' + ''.join(img_mg))

        if not os.path.exists('彼岸图网'):
            os.mkdir("彼岸图网")
        with open(f'彼岸图网/{c}.jpg', 'wb') as f:

            f.write(img_mgg.content)
            print(f'彼岸图网/{c}.jpg，保存成功')

def zongpage(url):
    url = url
    print(url)

    respones = requests.get(url, headers=headers)
    mg = respones.content.decode("gbk")

    tree = etree.HTML(mg)
    page = tree.xpath('//div[@class="page"]/a/text()')

    zongpage = page[-2]
    print('总共：' + zongpage + '页')
    return zongpage

zongpagee = zongpage(url)

for a in range(1, int(zongpagee)):

    if a == 1:
        huoqu(url)
    else:
        uu = f'{url}/index_{a}.html'
        print(uu)
        huoqu(uu)
        time.sleep(random.randint(2, 5))

标签：mg,img,Python,爬虫,python,url,https,print,import
From： https://www.cnblogs.com/aksoam/p/17576919.html

使用Python读取txt中的指定内容
一、序在一些情况下，导出txt的配置信息，但是又有特定的规律。在这种情况下读取配置二、问题分析我们首先肯定是通过关键字定位文本位置，但txt文件我们会面临两种情况：1.关键字与文本在同一行2.关键字与文本不在同一行3.判断条件例如MAC地址只有有IP的才读取，没有IP的就......
【Python】输出函数：pint
输出函数：printprint() 方法用于打印输出，最常见的一个函数。print在Python3.x是一个函数，但在Python2.x版本不是一个函数，只是一个关键字。语法：print(*objects,sep='',end='\n',file=sys.stdout,flush=False)参数objects--复数，表示可以一次输出多个对象。输出......
Python list里面定义自定义类型
PythonList中定义自定义类型在Python中，List（列表）是一种非常常见且强大的数据结构。它允许我们以有序的方式存储和访问多个元素。在List中，我们可以存储各种类型的数据，包括整数、浮点数、字符串等。但是，Python的灵活性还允许我们在List中存储自定义的数据类型，从而提供更高的灵活性和......
Python【17】 torch.cat()
竖着或者横着拼接矩阵参考：https://www.cnblogs.com/JeasonIsCoding/p/10162356.html参考：https://blog.csdn.net/qian2213762498/article/details/88795848......
python的lru_cache
functools模块中的lru_cache是一个装饰器，用于缓存函数的结果，以避免重复计算。LRU（LeastRecentlyUsed）表示最近最少使用，这意味着当缓存空间满时，会优先删除最久未被使用的缓存项。要使用lru_cache装饰器，需要将其应用于你想要缓存的函数。以下是一个简单的例子：importfunctools@f......
python打包方法
在Python中，要编写setup.py文件，用于构建和打包你的Python项目，你可以遵循以下步骤：创建项目目录结构：首先，你需要创建项目的目录结构，包括源代码文件、资源文件等。一个常见的项目结构如下：project_name/|-project_name/|-__init__.py|-module1.py......
[爬虫]1.1.2 网络爬虫的工作原理
网络爬虫（WebCrawler），也被称为网页蜘蛛（Spider），是一种用来自动浏览互联网的网络机器人。其主要目标通常是为搜索引擎创建复制的网页内容，但它们也可以被用于其他目的，比如数据挖掘。现在，我们一起来深入理解一下网络爬虫的工作原理。整个过程可以被大致分为四个步骤：发送HTTP请求从服......
brew 安装的python
brew安装的Python简介Python是一种面向对象、解释型的高级编程语言。它非常流行，广泛应用于Web开发、数据分析、人工智能等领域。在macOS系统上，我们可以使用Homebrew（简称brew）来安装Python。Homebrew是macOS上的一个包管理器，可以方便地安装、升级和管理软件包。它会自动解决依赖......
Python爬虫实战之提高CSDN访问量
python爬虫之建立代理池（一）_CodingInCV的博客-CSDN博客python爬虫之建立代理池（二）_CodingInCV的博客-CSDN博客前面2篇分别介绍了从2个免费代理网站爬取免费代理来构建我们自己的代理池。这一篇我们从实战的角度来将我们的代理池用起来，通过代理的方式访问我们的CSDN博客（CSDN会认为......
Python入门 - 路径，文件夹
路径#分隔符print(os.pathsep)#;print(os.altsep)#/print(os.extsep)#.#拼接print(os.path.join("a","b","c"))#a\b\c#绝对路径print(os.path.abspath("a/b/c"))#C:\Users\win\PycharmProjects\myTest\a\b\c......

【Python】转载一个python 爬虫的帖子

原帖地址

python 代码

相关文章

赞助商

阅读排行