首页 > 编程语言 >python 网络爬虫

python 网络爬虫

时间:2023-03-24 15:01:13浏览次数:45  
标签:网页 python 爬虫 网络 html 并存 page 下载



# -*- coding: cp936 -*-
import string,urllib2
path = "G:/New Knowledge/practice/python/tmp/"
def baidu_tieba(url,begin_page,end_page):
    for i in range(begin_page,end_page+1):
        Name = path+string.zfill(i,5)+'.html'#自动填充
        print '下载'+str(i)+'个网页,并存为'+Name
        f = open(Name,'w+')
        data = urllib2.urlopen(url+str(i)).read()
        f.write(data)
        f.close()

bdurl = raw_input(u'input url 去除最后的数字\n')
begin_page = raw_input("begin page")
end_page = raw_input("endpage")
if not bdurl:
    bdurl = 'http://tieba.baidu.com/p/2296017831?pn='
if not begin_page:
    begin_page = 1
if not end_page:
    end_page = 10
baidu_tieba(bdurl,int(begin_page),int(end_page));


input url 去除最后的数字


http://tieba.baidu.com/p/301797825 begin page0


endpage9


下载1个网页,并存为00001.html


下载2个网页,并存为00002.html


下载3个网页,并存为00003.html


下载4个网页,并存为00004.html


下载5个网页,并存为00005.html


下载6个网页,并存为00006.html


下载7个网页,并存为00007.html


下载8个网页,并存为00008.html


下载9个网页,并存为00009.html


>>> ================================ RESTART ================================


>>> 


input url 去除最后的数字




begin page


endpage


下载1个网页,并存为G:/New Knowledge/practice/python/tmp/00001.html


下载2个网页,并存为G:/New Knowledge/practice/python/tmp/00002.html


下载3个网页,并存为G:/New Knowledge/practice/python/tmp/00003.html


下载4个网页,并存为G:/New Knowledge/practice/python/tmp/00004.html


下载5个网页,并存为G:/New Knowledge/practice/python/tmp/00005.html


下载6个网页,并存为G:/New Knowledge/practice/python/tmp/00006.html


下载7个网页,并存为G:/New Knowledge/practice/python/tmp/00007.html


下载8个网页,并存为G:/New Knowledge/practice/python/tmp/00008.html


下载9个网页,并存为G:/New Knowledge/practice/python/tmp/00009.html


下载10个网页,并存为G:/New Knowledge/practice/python/tmp/00010.html



标签:网页,python,爬虫,网络,html,并存,page,下载
From: https://blog.51cto.com/u_15953788/6147305

相关文章

  • Python离线库压缩文件怎么安装tar.gz文件?
    在使用pip安装python库的时候,大部分情况下都是通过命令来在线安装的。但是在网络不好或者是库比较特殊的情况下就要去下载python库压缩文件来手动安装了。而tar.gz就是pyth......
  • Python安装和解释器
    开始学习Python编程,首先就得把Python安装到你的电脑里。安装后,你会得到Python解释器(就是负责运行Python程序的),一个命令行交互环境,还有一个简单的集成开发环境。安装Python......
  • python apscheduler 定时任务的基本使用-5-添加任务
    pythonapscheduler定时任务的基本使用-5-添加任务1、添加定时任务可以随时随地添加任务,不论调度器是否启动。如果未启动时,添加了定时任务,则会在调度器启动时,正常执行该......
  • Python学习day2
    ##day3##今日内容1.整型2.布尔类型3.字符串###内容回顾和补充###内容回顾每周写一个思维导图,罗列本周学习的知识点1.运算符补充-in-notin###......
  • 用Python编写一个封装mstsc的RDP批量管理工具
    要实现的功能1.调用系统的mstsc命令来实现远程桌面2.确保连接过程不可见,实现直接连接的效果3.支持窗口和全屏连接4.支持手动添加新的桌面5.支持显示桌面列表6.......
  • 使用DHCP配置路由器(网络)
    1.实验拓扑2.路由器里配置命令2.1在第一个路由器里配置ipRouter(config)#intg0/0Router(config-if)#ipadd192.168.1.5255.255.255.0Router(config-if)#noshR......
  • python函数递归例子
    tvs=["少年歌行:",['\t萧瑟:',['\t\t六皇子','\t\t萧楚河'],'\t无心','\t雷无桀']]defislist(sublist):foriinsublist:ifisinstance(i,list):#......
  • python监控linux环境磁盘空间,并通过钉钉通知
    #-*-coding:utf-8-*-importpsutilimporttimefromdingtalkchatbot.chatbotimportDingtalkChatbotfromdatetimeimportdatetimeimportosfromos.pathim......
  • 【PTA|Python】浙大版《Python 程序设计》题目集:第五章
    前言Hello!小伙伴!非常感谢您阅读海轰的文章,倘若文中有错误的地方,欢迎您指出~ 自我介绍ଘ(੭ˊᵕˋ)੭昵称:海轰标签:程序猿|C++选手|学生简介:因C语言结识编程,随后转入计算......
  • Python 栈 django框架开源商城系统baykeShop
    起始2022年我用django开发了一个商城的第三方包,起名为:django-happy-shop。当时纯粹是利用业余时间来开发和维护这个包,想法也比较简单,Python语言做web可能用的人比较少,不一......