爬虫获取主页信息

1.如何使Python获取到网页的源代码
	urllib：用来模拟浏览器
	urllib.request：获取主页源码
	urllib.request.Request()：构建数据结构 
	add_header("user-agent")：添加请求头，伪装浏览器
	urllib.request.urlopen()：打开URL获取源码
	
2.过滤

爬虫爬取主页信息

#调用函数
import urllib.request

#定义类
class GetHtml(object):
    def __init__(self,URL):		#赋值变量
        self.url = URL

    def get_index(self):		#爬取方法
        self.index = urllib.request.urlopen(self.url)
        return self.index.read()


#对象
html = GetHtml("http://www.megshuai.top:8012/")
print(html.get_index())		打印内容

//添加请求头信息

#调用函数
import urllib.request

class GetHtml(object):
    def __init__(self,URL,HEAD):
        self.url = URL
        self.head = HEAD

    def get_index(self):
        self.Agent = urllib.request.Request(self.url)	#重新构建数据结构
        self.Agent.add_header("user-agent",self.head)	#添加请求头，伪装浏览器
        self.index = urllib.request.urlopen(self.Agent)	#请求网站，获取源代码
        return self.index.read()


#lei
html = GetHtml("http://www.megshuai.top:8012/","Mozilla/5.0 (Windows NT 10.0; Win32; x64) AppleWebKit/537.36 \
(KHTML, like Gecko) Chrome/100.0.4240.183 Safari/537.36")
print(html.get_index())

#爬虫爬取主页信息
//下载网站所有图片
#调用函数
import urllib.request
import re

class GetHtml(object):
    def __init__(self,URL,HEAD):
        self.url = URL
        self.head = HEAD

    def get_index(self):
        self.Agent = urllib.request.Request(self.url)
        self.Agent.add_header("user-agent",self.head)
        self.index = urllib.request.urlopen(self.Agent)
        return self.index.read()

    def get_list(self):		#拼接图片地址，将地址放入列表
        self.starimage = []		#创建一个空列表
        self.imglist = re.findall(b"\w{16}.jpg",self.get_index())	#使用正则过滤出地址
        for i in self.imglist:		#将拼接的地址信息放入列表
            self.starimage.append(self.url+str(i,encoding="utf8"))
        return self.starimage

    def get_image(self):
        num = 0			#定义图片名字
        for self.url in self.get_list():	#将拼接好的图片复制给get_index
            num += 1
            with open(str(num)+".jpg","wb") as f:	#创建文件夹
                f.write(self.get_index())	#将get_index的内容存入到创建文件夹中

#lei
html = GetHtml("http://www.megshuai.top:8012/","Mozilla/5.0 \
(Windows NT 10.0; Win32; x64) AppleWebKit/537.36 (KHTML, like Gecko)\
Chrome/100.0.4240.183 Safari/537.36")
html.get_image()

标签：index,主页,get,self,request,爬虫,urllib,获取,def
From： https://www.cnblogs.com/megshuai/p/18518298

练习爬虫的网站
练习爬虫的网站http://www.glidedsky.com/爬虫-基础1爬虫的目标很简单，就是拿到想要的数据。这里有一个网站，里面有一些数字。把这些数字的总和，输入到答案框里面，即可通过本关。题目其实是蛮简单的，就是抓取一个网页中的数据，然后求和。代码如下：##把这些数字的总和，输入到答......
专业视频剪辑软件 Premiere Pro (PR) 轻松获取全版本安装使用
一、软件简介1.1软件背景AdobePremierePro（简称PR）是由Adobe公司开发的一款功能强大的视频编辑软件。自推出以来，PR已成为广告制作、电视节目和网络视频内容创作的首选工具之一。其高质量的编辑画面、强大的兼容性以及与Adobe其他软件的紧密集成，使得PR在影视后期剪辑领域具有......
js 获取上一周下一周月年
//获取当前周日期constgetCurrentWeekDates=(type)=>{ letcurrentDate=null if(type=='before'){ currentDate=newDate(newDate(getShowDateStartOld.value).getTime()-7*24*3600*1000) }elseif(type=='after'){ ......
编写高性能爬虫抓取股票行情数据
最近给一个私募大佬帮忙做了一些股票交易有关的系统，其中涉及到行情数据抓取的问题，一番摸索之后，把成果在这里做个分享。我把行情抓取的部分，和一个写手记的小功能，单独拿了出来放在一个小系统里面，可以免费使用：https://rich.shengxunwei.com/先简单介绍下这个小系统的样子，然后我会详......
推荐5个开发人员最常用的高级爬虫软件
爬虫，又称为网络爬虫或网页爬虫，是一种自动浏览互联网的程序，它按照一定的算法顺序访问网页，并从中提取有用信息。爬虫软件通常由以下几部分组成：- 用户代理（User-Agent）：模拟浏览器访问，避免被网站识别为机器人。- 请求处理：发送HTTP请求，获取网页内容。- 内容解析：使用正则表达式或......
金蝶云星空获取简单账表数据写入临时表中
#引入clr运行库importclr#添加对cloud插件开发的常用组件的引用clr.AddReference('System')clr.AddReference('System.Data')clr.AddReference('Kingdee.BOS')clr.AddReference('Kingdee.BOS.Core')clr.AddReference('Kingdee.BOS.App')clr.Ad......
Java爬虫：在1688上“夺宝奇兵”获取店铺详情
想象一下，你是一名勇敢的探险家，手持藏宝图，在数字世界的海洋中寻找那传说中的宝藏——1688店铺详情。今天，我们将一起化身为代码界的“夺宝奇兵”，使用Java爬虫技术，揭开1688店铺详情的神秘面纱。准备好你的帽子和鞭子，我们即将启程！背景介绍你是否曾在浏览1688时，对那些神秘的店铺充......
获取数据类型js
functiongetFieldType(field){if(field===null){return'null';}switch(typeoffield){case'undefined':return'undefined';case'string':return&......
akshare股票涨跌停获取统计分析
参看：https://akshare.akfamily.xyz/data/stock/stock.html#id375数据源来自东方财富网：https://quote.eastmoney.com/ztb/detail#type=ztgc参数说明涨停统计：n/m代表m天中有n次涨停板安装：pipinstallakshare-ihttp://mirrors.aliyun.com/pypi/simple--trusted-......
ObservableCollection<T>获取索引
如果是普通类型我们直接可以用indexOf()获取，比如：ObservableCollection<string>oc=newObservableCollection<string>();oc.Add("Item1");oc.Add("Item2");oc.Add("Item3");stringitem="Item2";intindex=oc.IndexOf(ite......

爬虫获取主页信息

爬虫获取主页信息

爬虫爬取主页信息

相关文章

赞助商

阅读排行