首页 > 编程语言 >python抓网页资源小脚本

python抓网页资源小脚本

时间:2022-12-20 11:04:38浏览次数:38  
标签:脚本 src 网页 goal python list source str obj


#!/usr/bin/env python
# coding: utf-8
import urllib

def filter_src(file_name):
resource_list = []
f_obj = open(file_name)
for f_line in f_obj:
if '404' in f_line:
str_goal = f_line.strip().split(' ')[7]
if not str_goal in resource_list:
print str_goal
if '/static' in str_goal:
str_goal = str_goal.replace('/static', '')
resource_list.append(str_goal[:-1])
print resource_list
return resource_list

def down_src(source_list):
base_url = "http://www.ttcrm.com"
down_path = r"src"
for source in source_list:
source_url = base_url + source
source_path = down_path + source
print source_url
source_stram = urllib.urlopen(source_url)
f_obj = open(source_path,'wb')
f_obj.write(source_stram.read())



if __name__=='__main__':
file_name = 'src.txt'
source_list = filter_src(file_name)
down_src(source_list)


关键点在于保存是以二进制方式保存!

f_obj = open(source_path,'wb')
f_obj.write(source_stram.read())


标签:脚本,src,网页,goal,python,list,source,str,obj
From: https://blog.51cto.com/u_15918230/5954453

相关文章

  • python中的编解码攻略
    正如其他语言一样,在Python的世界里也有有字符的编解码问题;有的在命令行回显时出现,有的在读取文件时出现,有的在执行命令时出现,有的在读取数据库时出现,不尽相同。注:如未特别申......
  • python PIL图片简单处理
    #!/usr/bin/envpython#-*-coding:utf-8-*-fromPILimportImagef=r'1.jpg'defresize(fn,width=None,height=None):printfnim=Image.open(fn)......
  • python中telnetlib模块的使用
    python下能支持telnet的模块telnetlib是内置模块,直接import就可以了,其基本的使用方法也是比较简单的。 #encoding=utf-8defdo_telnet(Host,username,password,finish,......
  • python模块的打包
    模块安装:需要安装对应版本的setuptools模块,这是一个python的模块打包工具。(可以在pypi上找到)样例代码:新建test.py文件,内容如下:print"showme"新建一个setup.py编译文......
  • python 网站爬虫需要哪些技术?
    对于从事网络爬虫行业的资深技术员来说,正常只要学会下面几点,基本就能够独立完成爬虫任务。学Python爬虫需要学习的八个知识点:1、HTMLHTML被称为超文本标记语言,有着一系......
  • 日志切割: logrotate、python、shell实现
    对于Linux系统安全来说,日志文件是极其重要的工具。不知为何,我发现很多运维同学的服务器上都运行着一些诸如每天切分Nginx日志之类的CRON脚本,大家似乎遗忘了Logrotate,争相发......
  • 用Python来写个小型购物车程序
    0x1前言Python语言能做很多东西的,像数据分析啊、自动化、开发、爬虫(真的很棒哟,初学者玩很有成就感的啊哈哈)等等还有挺多。0x2用Python编写的一个小型购物车程序impor......
  • Python__08--运算符
    1常用运算符1.1算数运算符加(+)、减(-)、乘(*)、除(/)、整除(//)取余(%)测试代码:print(-9//-4)print(9//4)print(9//-4)print(-9//4)#一正一负向下取整......
  • anaconda配置Python环境
    查看环境condaenvlist创建python name环境,python版本为3.9:condacreate-nnamepython=3.9激活:condaactivatename去掉激活:condadeactivatename进入panda......
  • Python单元测试框架unittest+requests +HTMLTestRunnerNew
    1)写用例TestCase2)执行用例1:TestSuite存储用例,2:TestLoader找用例,存储用例,存放指定的TestSuite3)对比实际结果/期望结果,判定用例是否通过#断言Assert4)出局测试报告TextT......