python-爬虫-自带库抓取网页内容

时间：2022-10-28 14:34:53浏览次数：55

标签：xpath utf python 爬虫 sys print url 网页内容 txt

python-爬虫-自带库抓取网页内容

版本：Python 2.7.10

python-爬虫-自带库抓取网页内容

版本：Python 2.7.10 

# -*- coding: utf-8 -*-
import sys
import lxml
import requests
import codecs
import time
from lxml import etree
from lxml.html.clean import Cleaner

reload(sys)
sys.setdefaultencoding('utf8')  # 设置默认编码格式为'utf-8'

#防止 print 不能输出中文
if sys.stdout.encoding != 'UTF-8':
    sys.stdout = codecs.getwriter('utf-8')(sys.stdout, 'strict')
if sys.stderr.encoding != 'UTF-8':
    sys.stderr = codecs.getwriter('utf-8')(sys.stderr, 'strict')


demo_file="/Library/temp/demo.txt"
#~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
def save_tags(url):
    print '请求',url
    resp = requests.get(url) #请求
    print '请求完成'
    if not resp:
        print '无响应内容'
        return

    txt = resp.text
    print 'txt = ',type(txt)

    dom = etree.HTML(txt)
    print 'dom type = ',type(dom)

    xpath = '//div[@class=\'myClassName\']/a' //xpath
    result = dom.xpath(xpath)
    if not result or len(result)<1:
        print 'xpath = ',xpath,' 无内容'
        return

    n=0
    print '系统默认编码：',sys.getdefaultencoding()
    print '准备写入文件：',demo_file
    f = codecs.open(demo_file,'a+','utf-8')
    f.write('###{}\n'.format(url))
    for t in result:
        n=n+1
        txt = t.text.strip()
        print n,txt
        f.write('{}\n'.format(txt))
    f.close()
    print '写入文件结束：{}'.format(f.name)

#~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
def run():
    url_base = 'http://www.xxx.net/list?page='
    page_index=1
    end = 863
    print '爬取开始'
    for i in range(page_index,end+1):
        print '*'*30
        url = '{}{}'.format(url_base,i)
        save_tags(url)
        print 'sleep 中...'
        time.sleep(3)
        print '*'*30
    print '爬取结束'

run()

标签：xpath,utf,python,爬虫,sys,print,url,网页内容,txt
From： https://blog.51cto.com/u_4518216/5804855

python-比较两个文件交集、并集、差集
python比较两个文件交集、并集、差集#!/usr/bin/envpython2.7#coding=utf-8'''s05=set(['x','b','a'])s06=set(['c','x','e'])'''s05=set(open('/Users/.../1205.txt','r'......
python-爬虫-requests.get()-响应内容中文乱码
python-爬虫-requests.get()-响应内容中文乱码由于目标url的headers没有提供charset，那么这串字节流就会用latin-1转换为unicode编码的方式转换成......
Python办公自动化_Excel篇
Python办公自动化_Excel篇库名作用xlrd从excel中读取数据，支持xls,xlsxxlwt从excel进行修改操作，不支持对xlsx格式的修改xlutils在xlrd和xlwt中，对一个已......
python 爬虫 Bs4解析 ----HTML语法
Bs4bs4全称：beautifulsoup4，意思为美丽的汤版本4可以在HTML或XML文件中提取数据的网页信息提取库与re和xpath模块的区别：re模块：使用起来过于麻烦且阅读性不好xpath模......
Python 嵌入式打包（图文）
Python嵌入式打包过程目录Python嵌入式打包过程下载嵌入式包解压和配置安装pip和其他依赖启动项目python嵌入式打包：将python环境与项目代码打包到同一个文件夹中，在其他......
数据结构与算法（Python）[一看就会] 01-1 线性表-顺序表定义
线性表的顺序表示线性表的顺序表示又称为顺序存储结构或顺序映像。顺序存储定义：把逻辑上相邻的数据元素存储在物理上相邻的存储单元中的存储结构。特点：逻辑上相邻的元素，物......
数据结构与算法（Python）[超详细版本] 02-2 栈-栈的操作（或实现）
##栈结构实现栈可以用顺序表实现，也可以用链表实现。栈的操作ListitemStack()创建一个新的空栈push(item)添加一个新的元素item到栈顶pop()弹出栈顶元素peek()返回栈顶......
全球名校AI课程库（23）| Harvard哈佛 · 基于Python/JavaScript的Web编程课程『Web Progr
......
Python报错 “ TypeError :'NoneType object is not iterable”
TypeError:'NoneTypeobjectisnotiterable：错误的意思是：没有类型可迭代。1.当if条件没有考虑到else的情况的时候，函数默认返回None需要加一个return‘ ’。 i......
python的装饰器
转载：https://www.cnblogs.com/tobyqin/p/python-decorator.html这篇文章写的特别棒，我就不复制粘贴了，深入浅出，符合不同阶段的阅读需求。当前的简单理解：装饰器，就是在已有的......

python-爬虫-自带库抓取网页内容

相关文章

赞助商

阅读排行