首页 > 其他分享 >爬虫获取主页信息

爬虫获取主页信息

时间:2024-10-31 16:49:26浏览次数:1  
标签:index 主页 get self request 爬虫 urllib 获取 def

爬虫获取主页信息

1.如何使Python获取到网页的源代码
	urllib:用来模拟浏览器
	urllib.request:获取主页源码
	urllib.request.Request():构建数据结构 
	add_header("user-agent"):添加请求头,伪装浏览器
	urllib.request.urlopen():打开URL获取源码
	
2.过滤

爬虫爬取主页信息

#调用函数
import urllib.request

#定义类
class GetHtml(object):
    def __init__(self,URL):		#赋值变量
        self.url = URL

    def get_index(self):		#爬取方法
        self.index = urllib.request.urlopen(self.url)
        return self.index.read()


#对象
html = GetHtml("http://www.megshuai.top:8012/")
print(html.get_index())		打印内容
//添加请求头信息

#调用函数
import urllib.request

class GetHtml(object):
    def __init__(self,URL,HEAD):
        self.url = URL
        self.head = HEAD

    def get_index(self):
        self.Agent = urllib.request.Request(self.url)	#重新构建数据结构
        self.Agent.add_header("user-agent",self.head)	#添加请求头,伪装浏览器
        self.index = urllib.request.urlopen(self.Agent)	#请求网站,获取源代码
        return self.index.read()


#lei
html = GetHtml("http://www.megshuai.top:8012/","Mozilla/5.0 (Windows NT 10.0; Win32; x64) AppleWebKit/537.36 \
(KHTML, like Gecko) Chrome/100.0.4240.183 Safari/537.36")
print(html.get_index())
#爬虫爬取主页信息
//下载网站所有图片
#调用函数
import urllib.request
import re

class GetHtml(object):
    def __init__(self,URL,HEAD):
        self.url = URL
        self.head = HEAD

    def get_index(self):
        self.Agent = urllib.request.Request(self.url)
        self.Agent.add_header("user-agent",self.head)
        self.index = urllib.request.urlopen(self.Agent)
        return self.index.read()

    def get_list(self):		#拼接图片地址,将地址放入列表
        self.starimage = []		#创建一个空列表
        self.imglist = re.findall(b"\w{16}.jpg",self.get_index())	#使用正则过滤出地址
        for i in self.imglist:		#将拼接的地址信息放入列表
            self.starimage.append(self.url+str(i,encoding="utf8"))
        return self.starimage

    def get_image(self):
        num = 0			#定义图片名字
        for self.url in self.get_list():	#将拼接好的图片复制给get_index
            num += 1
            with open(str(num)+".jpg","wb") as f:	#创建文件夹
                f.write(self.get_index())	#将get_index的内容存入到创建文件夹中

#lei
html = GetHtml("http://www.megshuai.top:8012/","Mozilla/5.0 \
(Windows NT 10.0; Win32; x64) AppleWebKit/537.36 (KHTML, like Gecko)\
Chrome/100.0.4240.183 Safari/537.36")
html.get_image()

标签:index,主页,get,self,request,爬虫,urllib,获取,def
From: https://www.cnblogs.com/megshuai/p/18518298

相关文章

  • 练习爬虫的网站
    练习爬虫的网站http://www.glidedsky.com/爬虫-基础1爬虫的目标很简单,就是拿到想要的数据。这里有一个网站,里面有一些数字。把这些数字的总和,输入到答案框里面,即可通过本关。题目其实是蛮简单的,就是抓取一个网页中的数据,然后求和。代码如下:##把这些数字的总和,输入到答......
  • 专业视频剪辑软件 Premiere Pro (PR) 轻松获取全版本安装使用
    一、软件简介1.1软件背景AdobePremierePro(简称PR)是由Adobe公司开发的一款功能强大的视频编辑软件。自推出以来,PR已成为广告制作、电视节目和网络视频内容创作的首选工具之一。其高质量的编辑画面、强大的兼容性以及与Adobe其他软件的紧密集成,使得PR在影视后期剪辑领域具有......
  • js 获取上一周 下一周 月 年
    //获取当前周日期constgetCurrentWeekDates=(type)=>{ letcurrentDate=null if(type=='before'){  currentDate=newDate(newDate(getShowDateStartOld.value).getTime()-7*24*3600*1000) }elseif(type=='after'){ ......
  • 编写高性能爬虫抓取股票行情数据
    最近给一个私募大佬帮忙做了一些股票交易有关的系统,其中涉及到行情数据抓取的问题,一番摸索之后,把成果在这里做个分享。我把行情抓取的部分,和一个写手记的小功能,单独拿了出来放在一个小系统里面,可以免费使用:https://rich.shengxunwei.com/先简单介绍下这个小系统的样子,然后我会详......
  • 推荐5个开发人员最常用的高级爬虫软件
    爬虫,又称为网络爬虫或网页爬虫,是一种自动浏览互联网的程序,它按照一定的算法顺序访问网页,并从中提取有用信息。爬虫软件通常由以下几部分组成:- 用户代理(User-Agent):模拟浏览器访问,避免被网站识别为机器人。- 请求处理:发送HTTP请求,获取网页内容。- 内容解析:使用正则表达式或......
  • 金蝶云星空获取简单账表数据写入临时表中
    #引入clr运行库importclr#添加对cloud插件开发的常用组件的引用clr.AddReference('System')clr.AddReference('System.Data')clr.AddReference('Kingdee.BOS')clr.AddReference('Kingdee.BOS.Core')clr.AddReference('Kingdee.BOS.App')clr.Ad......
  • Java爬虫:在1688上“夺宝奇兵”获取店铺详情
    想象一下,你是一名勇敢的探险家,手持藏宝图,在数字世界的海洋中寻找那传说中的宝藏——1688店铺详情。今天,我们将一起化身为代码界的“夺宝奇兵”,使用Java爬虫技术,揭开1688店铺详情的神秘面纱。准备好你的帽子和鞭子,我们即将启程!背景介绍你是否曾在浏览1688时,对那些神秘的店铺充......
  • 获取数据类型js
    functiongetFieldType(field){if(field===null){return'null';}switch(typeoffield){case'undefined':return'undefined';case'string':return&......
  • akshare股票涨跌停获取统计分析
    参看:https://akshare.akfamily.xyz/data/stock/stock.html#id375数据源来自东方财富网:https://quote.eastmoney.com/ztb/detail#type=ztgc参数说明涨停统计:n/m代表m天中有n次涨停板安装:pipinstallakshare-ihttp://mirrors.aliyun.com/pypi/simple--trusted-......
  • ObservableCollection<T>获取索引
    如果是普通类型我们直接可以用indexOf()获取,比如:ObservableCollection<string>oc=newObservableCollection<string>();oc.Add("Item1");oc.Add("Item2");oc.Add("Item3");stringitem="Item2";intindex=oc.IndexOf(ite......