首页 > 其他分享 >【最新】网站下载工具,整站下载工具汇总

【最新】网站下载工具,整站下载工具汇总

时间:2022-12-16 10:06:46浏览次数:104  
标签:下载工具 文件 整站 -- no 汇总 FILE wget 下载


 【最新】网站下载工具,整站下载工具汇总

整站下载,包括声音,图片,javascirpt等,下载之后可以在本地运行

以下排序不分先后,以及是否好用 

不过现在很多网站都加入了防爬虫的机制,以软件默认的频率抓取很可能被 禁用。

一、windows

 1.* 小飞兔

 2.Internet Download Manage

​Internet Download Manager: The fastest download accelerator


https://www.internetdownloadmanager.com/​

3.* Teleport Pro

Teleport Pro由美国Tennyson Maxwell公司开发,曾被PC Magazine评为"编辑选择奖"、ZDNet评为五星。它可以完全或部分下载一个网站上的内容,使用户能够离线浏览;可以在硬盘上创建一个与原网站完全相同的镜象;可以在网站上寻找并下载某一类型的文件;可以探测并记录一个网站的所有网页和文件的清单;可以从一个中心网站探测每一个与之链接的网站。

​http://www.tenmax.com/teleport/pro/home.htmhttp://www.tenmax.com/teleport/pro/home.htm​

 Teleport Ultra/Pro 1.72 安装+便携版(备份网站内容工具+离线网页浏览)


4.How to Download an Entire Website for Offline Viewing

​How to Download a Website for Offline ViewingA great list of tools that you can use to download the entire website for offline viewing.https://dynomapper.com/blog/11-content-inventory/287-how-to-download-an-entire-website-for-offline-viewing​

5.* MetaProducts Offline Explorer

6.* Website Ripper Copier

7.其它

firefox 下 ​​DownThemAll! :: Add-ons for Firefox​​​ windows 下 ​​Internet Download Manager: the fastest download accelerator​

  

chrome浏览器

然后下载插件Save All Resources: ​​https://chrome.google.com/webstore/search/Save%20All%20Resources?hl=zh-CN​​ 接着安装好后,打开控制台,

【最新】网站下载工具,整站下载工具汇总_HTTP

二、Linux

wget命

wget -m http://www.baidu.com

--或者

wget -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; GTB5)" -r -p -k -nc http://www.baidu.com


--或者

wget -c -r -np -k -L -p http://www.baidu.com

Linux wget命令详解

转载 

​​Linux wget命令详解 - 小a玖拾柒 - 博客园Linux wget命令详解

wget是一个下载文件的工具,它用在命令行下。对于Linux用户是必不可少的工具,我们经常要下载一些软件或从远程服务器恢复备份到本地服务器。

  wget支持HTTP,HTTPS和FTP协议,可以使用HTTP代理。所谓的自动下载是指,wget可以在用户退出系统的之后在后台执行。这意味这你可以登录系统,启动一个wget下载任务,然后退出系统,wget将在后台执行直到任务完成

   wget 可以跟踪HTML页面上的链接依次下载来创建远程服务器的本地版本,完全重建原始站点的目录结构。这又常被称作”递归下载”。

   wget 非常稳定,它在带宽很窄的情况下和不稳定网络中有很强的适应性.如果是由于网络的原因下载失败,wget会不断的尝试,直到整个文件下载完毕。如果是服务器打断下载过程,它会再次联到服务器上从停止的地方继续下载。这对从那些限定了链接时间的服务器上下载大文件非常有用。

wget常见命令参数

​GNU ​​​​Wget​​​ ​​1.12,非交互式的网络文件下载工具。​

​用法: wget [选项]... [URL]...​


​长选项所必须的参数在使用短选项时也是必须的。​


​开始:​

​-V,  --version           显示 ​​​​Wget​​​ ​​的版本信息并退出。​

​-h,  --help              打印此帮助。​

​-b,  --background        启动后转入后台。​

​-e,  --execute=COMMAND   运行一个‘.wgetrc’风格的命令。​


​登入并输入文件:​

​-o,  --output-​​​​file​​​​=FILE    将信息写入 FILE。​

​-a,  --append-output=FILE  将信息添加至 FILE。​

​-d,  --debug               打印大量调试信息。​

​-q,  --quiet               安静模式(无信息输出)。​

​-​​​​v​​​​,  --verbose             详尽的输出(此为默认值)。​

​-nv, --no-verbose          关闭详尽输出,但不进入安静模式。​

​-i,  --input-​​​​file​​​​=FILE     下载本地或外部 FILE 中的 URLs。​

​-F,  --force-html          把输入文件当成 HTML 文件。​

​-B,  --base=URL            解析与 URL 相关的​

​HTML 输入文件(由 -i -F 选项指定)。​


​下载:​

​-t,  --tries=NUMBER           设置重试次数为 NUMBER (0 代表无限制)。​

​--retry-connrefused       即使拒绝连接也是重试。​

​-O,  --output-document=FILE    将文档写入 FILE。​

​-​​​​nc​​​​, --no-clobber              不要重复下载已存在的文件。​

 

​-c,  --​​​​continue​​​                ​​继续下载部分下载的文件。​

​--progress=TYPE           选择进度条类型。​

​-N,  --timestamping            只获取比本地文件新的文件。​

 

​-S,  --server-response         打印服务器响应。​

​--spider                   不下载任何文件。​

​-T,  --timeout=SECONDS         将所有超时设为 SECONDS 秒。​

​--dns-timeout=SECS        设置 DNS 查寻超时为 SECS 秒。​

​--connect-timeout=SECS    设置连接超时为 SECS 秒。​

​--​​​​read​​​​-timeout=SECS       设置读取超时为 SECS 秒。​

​-w,  --wait=SECONDS            等待间隔为 SECONDS 秒。​

​--waitretry=SECONDS       在取回文件的重试期间等待 1..SECONDS 秒。​

​--random-wait             取回时等待 0...2*WAIT 秒。​

​--no-proxy                关闭代理。​

​-Q,  --​​​​quota​​​​=NUMBER            设置取回配额为 NUMBER 字节。​

​--bind-address=ADDRESS    绑定至本地主机上的 ADDRESS (主机名或是 IP)。​

​--limit-rate=RATE         限制下载速率为 RATE。​

​--no-dns-cache            关闭 DNS 查寻缓存。​

​--restrict-​​​​file​​​​-names=OS  限定文件名中的字符为 OS 允许的字符。​

​--ignore-​​​​case​​​             ​​匹配文件/目录时忽略大小写。​

​-4,  --inet4-only              仅连接至 IPv4 地址。​

​-6,  --inet6-only              仅连接至 IPv6 地址。​

​--prefer-family=FAMILY    首先连接至指定协议的地址​

​FAMILY 为 IPv6,IPv4 或是 none。​

​--user=USER               将 ​​​​ftp​​​ ​​和 http 的用户名均设置为 USER。​

​--password=PASS           将 ​​​​ftp​​​ ​​和 http 的密码均设置为 PASS。​

​--ask-password           提示输入密码。​

​--no-iri                关闭 IRI 支持。​

​--​​​​local​​​​-encoding=ENC      IRI 使用 ENC 作为本地编码。​

​--remote-encoding=ENC     使用 ENC 作为默认远程编码。​


​目录:​

​-nd, --no-directories           不创建目录。​

​-x,  --force-directories        强制创建目录。​

​-nH, --no-host-directories      不要创建主目录。​

​--protocol-directories     在目录中使用协议名称。​

​-P,  --directory-prefix=PREFIX  以 PREFIX/... 保存文件​

​--​​​​cut​​​​-​​​​dirs​​​​=NUMBER          忽略 NUMBER 个远程目录路径。​


​HTTP 选项:​

​--http-user=USER        设置 http 用户名为 USER。​

​--http-password=PASS    设置 http 密码为 PASS。​

​--no-cache              不在服务器上缓存数据。​

​--default-page=NAME     改变默认页​

​(默认页通常是“index.html”)。​

​-E,  --adjust-extension      以合适的扩展名保存 HTML​​​​/CSS​​​ ​​文档。​

​--ignore-length         忽略头部的‘Content-Length’区域。​

​--header=STRING         在头部插入 STRING。​

​--max-redirect          每页所允许的最大重定向。​

​--proxy-user=USER       使用 USER 作为代理用户名。​

​--proxy-password=PASS   使用 PASS 作为代理密码。​

​--referer=URL           在 HTTP 请求头包含‘Referer: URL’。​

​--save-headers          将 HTTP 头保存至文件。​

​-U,  --user-agent=AGENT      标识为 AGENT 而不是 ​​​​Wget​​​​/VERSION​​​​。​

​--no-http-keep-alive    禁用 HTTP keep-alive(永久连接)。​

​--no-cookies            不使用 cookies。​

​--load-cookies=FILE     会话开始前从 FILE 中载入 cookies。​

​--save-cookies=FILE     会话结束后保存 cookies 至 FILE。​

​--keep-session-cookies  载入并保存会话(非永久) cookies。​

​--post-data=STRING      使用 POST 方式;把 STRING 作为数据发送。​

​--post-​​​​file​​​​=FILE        使用 POST 方式;发送 FILE 内容。​

​--content-disposition   当选中本地文件名时​

​允许 Content-Disposition 头部(尚在实验)。​

​--auth-no-challenge     send Basic HTTP authentication information​

​without first waiting ​​​​for​​​ ​​the server's​

​challenge.​


​HTTPS (SSL​​​​/TLS​​​​) 选项:​

​--secure-protocol=PR     选择安全协议,可以是 auto、SSLv2、​

​SSLv3 或是 TLSv1 中的一个。​

​--no-check-certificate   不要验证服务器的证书。​

​--certificate=FILE       客户端证书文件。​

​--certificate-​​​​type​​​​=TYPE  客户端证书类型, PEM 或 DER。​

​--private-key=FILE       私钥文件。​

​--private-key-​​​​type​​​​=TYPE  私钥文件类型, PEM 或 DER。​

​--ca-certificate=FILE    带有一组 CA 认证的文件。​

​--ca-directory=DIR       保存 CA 认证的哈希列表的目录。​

​--random-​​​​file​​​​=FILE       带有生成 SSL PRNG 的随机数据的文件。​

​--egd-​​​​file​​​​=FILE          用于命名带有随机数据的 EGD 套接字的文件。​


​FTP 选项:​

​--​​​​ftp​​​​-user=USER         设置 ​​​​ftp​​​ ​​用户名为 USER。​

​--​​​​ftp​​​​-password=PASS     设置 ​​​​ftp​​​ ​​密码为 PASS。​

​--no-remove-listing     不要删除‘.listing’文件。​

​--no-glob               不在 FTP 文件名中使用通配符展开。​

​--no-passive-​​​​ftp​​​        ​​禁用“passive”传输模式。​

​--retr-symlinks         递归目录时,获取链接的文件(而非目录)。​


​递归下载:​

​-r,  --recursive          指定递归下载。​

​-l,  --level=NUMBER       最大递归深度( inf 或 0 代表无限制,即全部下载)。​

​--delete-after       下载完成后删除本地文件。​

​-k,  --convert-links      让下载得到的 HTML 或 CSS 中的链接指向本地文件。​

​-K,  --backup-converted   在转换文件 X 前先将它备份为 X.orig。​

​-m,  --mirror             -N -r -l inf --no-remove-listing 的缩写形式。​

​-p,  --page-requisites    下载所有用于显示 HTML 页面的图片之类的元素。​

​--strict-comments    开启 HTML 注释的精确处理(SGML)。​


​递归接受/拒绝:​

​-A,  --accept=LIST               逗号分隔的可接受的扩展名列表。​

​-R,  --reject=LIST               逗号分隔的要拒绝的扩展名列表。​

​-D,  --domains=LIST              逗号分隔的可接受的域列表。​

​--exclude-domains=LIST      逗号分隔的要拒绝的域列表。​

​--follow-​​​​ftp​​​                ​​跟踪 HTML 文档中的 FTP 链接。​

​--follow-tags=LIST          逗号分隔的跟踪的 HTML 标识列表。​

​--ignore-tags=LIST          逗号分隔的忽略的 HTML 标识列表。​

​-H,  --span-hosts                递归时转向外部主机。​

​-L,  --relative                  只跟踪有关系的链接。​

​-I,  --include-directories=LIST  允许目录的列表。​

​-X,  --exclude-directories=LIST  排除目录的列表。​

​-np, --no-parent                 不追溯至父目录。​

常用的命令展示

使用wget -O下载并以不同的文件名保存(-O:下载文件到对应目录,并且修改文件名称)

​wget -O wordpress.zip http:​​​​//www​​​​.minjieren.com​​​​/download​​​​.aspx?​​​​id​​​​=1080​

​​【最新】网站下载工具,整站下载工具汇总_HTTP_02​​

使用wget -b后台下载

​wget -b <a href=​​​​"http://www.minjieren.com/wordpress-3.1-zh_CN.zip"​​​​>http:​​​​//www​​​​.minjieren.com​​​​/wordpress-3​​​​.1-zh_CN.zip<​​​​/a​​​​>​

​备注: 你可以使用以下命令来察看下载进度:​​​​tail​​​ ​​-f wget-log​

利用-spider: 模拟下载,不会下载,只是会检查是否网站是否好着

​[root@localhost ~]​​​​# wget --spider  www.baidu.com    #不下载任何文件​

​​【最新】网站下载工具,整站下载工具汇总_python_03​​

模拟下载打印服务器响应

​[root@localhost ~]​​​​# wget -S  www.baidu.com     # 打印服务器响应​

​​【最新】网站下载工具,整站下载工具汇总_HTML_04​​

设定指定次数

​[root@localhost ~]​​​​#  wget -r --tries=2  www.baidu.com       (指定尝试2次,2次后不再尝试)​

​[root@localhost ~]​​​​# wget -r --tries=2 -q www.baidu.com    (指定尝试,且不打印中间结果)​

​​【最新】网站下载工具,整站下载工具汇总_HTTP_05​​

标签:下载工具,文件,整站,--,no,汇总,FILE,wget,下载
From: https://blog.51cto.com/cplvfx/5946747

相关文章

  • 收藏 | 自然语言处理(NLP)数据集汇总(附下载链接)
    OverridetheentrypointofanimageIntroducedinGitLabandGitLabRunner9.4.Readmoreaboutthe extendedconfigurationoptions.Beforeexplainingtheav......
  • Intelli idea 常用快捷键汇总
    Tonavigatetotheimplementation(s)ofanabstractmethod,positionthecaretatitsusageoritsnameinthedeclarationandpressCtrl+Alt+B. UseCtrl+Jto......
  • svn常见错误汇总
    comment中的换行。把换行去掉就可以了 ......
  • 关于IPv6升级改造的政策文件汇总-中科三方
      一、《推进互联网协议第六版(IPv6)规模部署行动计划》发布时间:2017年11月发文单位:中共中央办公厅、国务院办公厅主要内容:用5到10年时间,形成下一代互联网自主技术体......
  • VNC常用操作及常见问题解决办法汇总
     VNC登录用户缺省是root,但在安装oracle时必须用oracle用户的身份登录,下面我们就以oracle为例说明如何配置VNC,从而可以使用不同的用户登录到主机。步骤描述如下:   步骤......
  • 前端vue面试题汇总
    常见的事件修饰符及其作用.stop:等同于JavaScript中的event.stopPropagation(),防止事件冒泡;.prevent:等同于JavaScript中的event.preventDefault(),防止执行预设......
  • Windows系统操作指令汇总
    CMD命令:开始->运行->键入cmd或command(在命令行里可以看到系统版本、文件系统版本)1.appwiz.cpl:程序和功能2.calc:启动计算器3.certmgr.msc:证书管理实用程序4.charmap:启动字......
  • 移动端ios和安卓兼容问题个人汇总
    正则表达式断言:/(?<=venue\/)[0-9a-zA-Z]*/gi表现:ios:直接报正则表达式语法无效的错误安卓:表现正常解决方法:使用严格匹配/venue/[0-9a-zA-Z]*/时间格式newDate('2......
  • Linux内核铁三角文章汇总
    最近发现一个word直接转换markdown的工具,因此尝试把以前整理的一些Linux内核文章发到博客上;首先整理一点Linux内核铁三角(进程、内存、IO)的文章:说明:1.这是之前学宋宝华老......
  • 遥感SCI期刊汇总
     1.BOLETIMDECIENCIASGEODESICAS《大地测量科学通报》​http://ojs.c3sl.ufpr.br/ojs2/index.php/bcg​Semiannual  (注:2008年开始被SCI收录)ISSN:1413-4853UNIV F......