爬取百度图片

爬取百度图片

时间：2023-03-12 22:48:08浏览次数：30

标签：img url list 爬取 file path page 百度图片

import os
import time

from fake_useragent import UserAgent
import requests
import re
import uuid

headers = {"User-agent": UserAgent().random,  # 随机生成一个代理请求
           "Accept-Encoding": "gzip, deflate, br",
           "Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6",
           "Connection": "keep-alive"}

img_re = re.compile('"thumbURL":"(.*?)"')
img_format = re.compile("f=(.*).*?w")


def file_op(img, file_path):
    uuid_str = uuid.uuid4().hex
    tmp_file_name = file_path+'/%s.jpeg' % uuid_str
    with open(file=tmp_file_name, mode="wb") as file:
        try:
            file.write(img)
        except:
            pass


def xhr_url(url_xhr, start_num=0, page=5, file_path=''):
    end_num = page*30
    curre_page = 1
    file_path = file_path
    for page_num in range(start_num, end_num, 30):
        print('正在爬取第{}页'.format(curre_page))
        resp = requests.get(url=url_xhr+str(page_num), headers=headers)
        if resp.status_code == 200:
            img_url_list = img_re.findall(resp.text)  # 这是个列表形式
            for img_url in img_url_list:
                img_rsp = requests.get(url=img_url, headers=headers)
                file_op(img=img_rsp.content, file_path=file_path)
        else:
            break
        time.sleep(5)
        print('第{}页爬取完成！！！'.format(curre_page))
        curre_page += 1
    print("内容已经全部爬取")


if __name__ == "__main__":
    basic_path = r'E:\spider_leaning\Images_Data_Dog'
    # folder_list = ['哈士奇', '比熊']
    serch_list = ['巴哥犬', '法国斗牛犬', '博美犬', '吉娃娃', '约克夏', '雪纳瑞', '比熊', '贵宾犬', '马尔济斯犬', '西高地白梗犬', '哈士奇',
                 '萨摩耶', '阿拉斯加犬', '金毛犬', '拉布拉多犬', '德牧', '柯基犬', '边境牧羊犬', '喜乐蒂', '腊肠犬', '松狮犬', '秋田犬',
                 '罗威纳犬', '杜宾犬', '比格犬', '柴犬', '中华田园犬'
                 ]
    start_page = 1
    page_number = 50
    for i in range(len(serch_list)):
        filePath = os.path.join(basic_path, serch_list[i])
        if not os.path.exists(filePath):
            os.makedirs(filePath)
        org_url = "https://image.baidu.com/search/acjson?tn=resultjson_com&word={text}&pn=".format(text=serch_list[i])
        xhr_url(url_xhr=org_url, start_num=start_page, page=page_number, file_path=filePath)

标签：img,url,list,爬取,file,path,page,百度,图片
From： https://www.cnblogs.com/moon3496694/p/17209433.html

爬取抖音评论
importrequestsimportjsonurl="https://www.douyin.com/aweme/v1/web/comment/list/?device_platform=webapp&aid=6383&channel=channel_pc_web&aweme_id=720808164......
【Java】图片压缩处理
需求如下：一些图片太大了，手机拍摄上传的图片有5M大小，然后阅读的内容其实不需要特别高的分辨率1M以下的图片并不需要被压缩，压缩只是针对部分过大的图片处理图片处理库：......
ChatGPT 辅助 stable-diffusion 生成图片描述 tag 话术
将如下话术发给ChatGPT:请用尽量多的英文单词描述一幅画，描述词尽量丰富，每个单词之间用逗号分隔:一个XXX 如果回复的tag数量不够，则追加四个字：不够丰富之后Chat......
python爬虫案列02，百度翻译，KFC城市查询
百度翻译（有点潦草，懒得优化）看运行结果：过程：F12，输入一个单词，找到带有翻译结果的数据包,查看请求方式，请求的url，payload代码：#导入模块importrequestsimportjsonwor......
python批量处理图片设置分辨率
fromPILimportImageimportos#设置图片路径和分辨率input_path="input_folder"output_path="output_folder"resolution=(1280,720)#循环处理图片for......
2020 年百度之星·程序设计大赛 - 初赛一 Dec 二维DP，预处理
problemDecAccepts:1284Submissions:4572TimeLimit:2000/1000MS(Java/Others)MemoryLimit:32768/32768K(Java/Others)ProblemDescription初始有a,ba,b......
2020 年百度之星·程序设计大赛 - 初赛一 Civilization BFS广搜
problemCivilizationAccepts:619Submissions:2182TimeLimit:6000/3000MS(Java/Others)MemoryLimit:32768/32768K(Java/Others)ProblemDescription这是一个......
2020 年百度之星·程序设计大赛 - 初赛一 GPA DFS深搜
problemGPAAccepts:1554Submissions:3947TimeLimit:2000/1000MS(Java/Others)MemoryLimit:32768/32768K(Java/Others)ProblemDescription小沃沃一共参加了......
2019百度之星程序设计大赛 1005 Seq
ProblemDescription度度熊有一个递推式a_{n}=(\sum_{i=1}^{n-1}a_{i}*i)%nan=(∑i=1n−1ai∗i)%n其中a_1=1a1=1。现给......
2020 年百度之星·程序设计大赛 - 复赛 1002 Binary Addition
problemBinaryAdditionAccepts:851Submissions:3320TimeLimit:2000/1000MS(Java/Others)MemoryLimit:65536/65536K(Java/Others)ProblemDescription你有......

相关文章

赞助商

阅读排行