首页 > 其他分享 >Bash 并行爬虫

Bash 并行爬虫

时间:2023-06-15 14:06:30浏览次数:30  
标签:10 并行 爬虫 190 start let page Bash


Bash 并行下载脚本。1900 页,分 190 次下载完。

for i in {0..190} ; do
{
let start=$i*10
let end=$i*10+10
for ((page=$start;page<$end;page++)) do
{
  echo "down $page"
  curl "http://www.site.org/advice/index.asp?DjjIntPcnt=$page" -o src/$page.txt
} &
done
wait
echo "finish batch $i"
sleep 1
}
done

如果遇到字符集问题,可下载完成后转换:

find *.txt -exec sh -c "iconv -f GB18030 -t UTF8 {} > result/{}" \;


标签:10,并行,爬虫,190,start,let,page,Bash
From: https://blog.51cto.com/u_16162111/6486715

相关文章

  • .net core 实现简单爬虫—抓取博文列表
    概述HttpCode.Core源自于HttpCode,不同的是HttpCode.Core是基于.netstandard2.0实现的,移除了HttpCode与windows相耦合的api,且修改了异步实现,其余特性完全与HttpCode相同详细一、介绍一个Http请求框架HttpCode.CoreHttpCode.Core 源自于HttpCode(传送门),不同的是H......
  • 探秘WebMagic:爬虫神器
    一、介绍WebMagic是一款基于Java的开源网络爬虫框架,能够快速、灵活、高效地实现网络数据的爬取和抽取。WebMagic支持多线程、分布式、自动重试等特性,而且使用起来也非常方便。二、优点1.快速:使用了NIO框架,能够高效地进行网络通信,提高爬虫效率。2.灵活:支持自定义爬取规则,能够......
  • python GUI+爬虫——12306抢票软件(1)
    使用python的GUI和爬虫等功能自己构造一个12306的抢票软件。该课程来自网易云课堂的撩课学院,付费课程。地址:网易云课堂搜索以下内容就可找到我跟着学,不一定最后能成功。先试试,想要成功的同学请看我该系列有没有真正实现,如果我没有实现,你可以直接放弃,不用再浪费时间了。简单描述一......
  • python GUI+爬虫——12306抢票软件(2)
    这部分主要是项目环境的配置,下图是概览1.基于项目的虚拟环境--pipenv1.1简介1.2安装pipinstallpipenv, 检查安装状态:pipenv--version 我的系统是mac,该项目使用Windows10开发更好1.3创建项目的虚拟环境,使用pycharm1.4创建完后修改安装源,修改位置为pipfile文件修改:来源修......
  • Java8-并行流的使用
    Java8中的并行流使用publicclassStreamTest{publicList<Person>constructPersons(){List<Person>persons=newArrayList<Person>();for(inti=0;i<5;i++){Personp=newPerson(i,"name"+......
  • 全自动 抖音搜索、抖音Api、抖音直播Api、抖音评论采集、抖音弹幕、抖音采集、抖音爬
    抖音搜索、抖音Api、抖音直播Api、抖音评论采集、抖音弹幕、抖音采集、抖音爬虫、抖音去水印、抖音下载、抖音解析抖音爬虫源码、抖音去水印源码、抖音解析源码、抖音桌面批量去水印工具源码价钱便宜qq:1013811393,有demo,可以试用,可以看效果。非免费,有诚意的加我。售后有保障......
  • 知名爬虫
    GooglebotgoogleWebCrawlers谷歌搜索googleWebCrawlersBingbotBingWebCrawlers微软必应BingWebCrawlersSlurpYahooWebCrawlers雅虎搜索YahooWebCrawlersDuckDuckBotDuckDuckGoWebCrawlersentirewebDuckDuckGoWebCrawlersBaiduspider......
  • 爬虫使用代理IP主要解决什么问题
    很多爬虫因为IP被限制访问而购买了代理IP,然而再次使用一会儿还是被限制访问,这又是为什么呢?爬虫使用代理IP主要能帮我们解决什么问题呢?众所周知,每个网站都有其独特的反爬策略,最基础的有请求频率,请求次数等策略,如果不使用代理IP的话,客户端IP很快就会被目标网站限制访问。但如果购买了......
  • 使用爬虫IP有什么好处?
    在进行爬虫操作时,使用代理IP可以避免自己的真实IP被目标网站识别和追踪,并且可以设置多个不同的代理IP以增加请求的随机性,提高成功率。 爬虫IP的好处包括:隐藏真实IP地址:使用爬虫IP,通过代理服务器来连接互联网,可以隐藏用户的真实IP地址,避免被攻击者追踪。访问被封......
  • 指令级并行
    流水线相关与冲突相关两条指令之间存在某种依赖关系数据相关:真数据相关RAWreadafterwrite前一条指令写,后一条指令读名相关:名:寄存器的名称两条指令使用相同的名,但之间没有数据流动反相关:WARwirteafterread读之后写输出相关:WAWwirteafterwrite两个指令......