首页 > 其他分享 >31. [实例]Cookie模拟登录

31. [实例]Cookie模拟登录

时间:2022-09-21 11:56:08浏览次数:95  
标签:登录 text 31 html parse 实例 Cookie self

1. 前言

在使用爬虫采集数据的规程中,我们会遇到许多不同类型的网站,比如一些网站需要用户登录后才允许查看相关内容,如果遇到这种类型的网站,又应该如何编写爬虫程序呢?Cookie 模拟登录技术成功地解决了此类问题。

Cookie 是一个记录了用户登录状态以及用户属性的加密字符串。当你第一次登陆网站时,服务端会在返回的 Response Headers 中添加 Cookie, 浏览器接收到响应信息后,会将 Cookie 保存至浏览器本地存储中,当你再次向该网站发送请求时,请求头中就会携带 Cookie,这样服务器通过读取 Cookie 就能识别登陆用户了。

提示:我们所熟知的“记住密码”功能,以及“老用户登陆”欢迎语,这些都是通过 Cookie 实现的。

下面介绍如何实现 Cookie 模拟登录,本节以模拟登录人人网(http://life.renren.com/)为例进行讲解。

2. 注册登录

首先你要注册一个人人网的账号,注册过中要填写个人资料,以便后续抓取数据使用。注册成功后点击上方头像进入我的主页(或左侧主页选项卡),如下图所示:

人人网主界面
图1:人人网主界面


然后使用 F12 打开调试工具,刷新页面来抓取登录时的数据包(包名:timeline...开头), 并在 Headers 选项中找到请求头中的 Cookie 信息,将 Cookie 值拷贝下来,以备后续使用。如下所示:

查找cookie信息
图2:浏览Headers信息

3. 分析网页结构

确定了 Cookie 信息后,接下来分析页面元素结构。通过调试工具审查如图 1 所示的个人信息栏,其元素结构如下:

<div id="operate_area" class="clearfix">
<div class="tl-information">
  <ul>
   <li class="school"><span>就读于电子科技大学</span></li>
   <li class="birthday">
    <span>男生</span> 
    <span>,7月7日</span>
   </li>
   <li class="hometown">来自北京西城区</li>
   <li class="address">现居 北京</li>
  </ul>
...
</div>
</div>

由此可知其 Xpath 表达式为:

r_school = parse_html.xpath('//*[@id="operate_area"]/div[1]/ul/li[1]/span/text()'
r_birthday = parse_html.xpath('//li[@class="birthday"]/span/text()')
home_info=parse_html.xpath('//*[@id="operate_area"]/div[1]/ul/li/text()')

4. 编写完整程序

完成程序如下所示:

import requests
from lxml import etree
class RenrenLogin(object):
  def __init__(self):
    # 个人主页的url地址
    self.url = 'http://www.renren.com/972496145/profile'
    self.headers = {
      # 将拷贝的cookie值放在此处
      'Cookie':'anonymid=kmol2vxqgd4n0e; depovince=HEB; _r01_=1; ick_login=c577d6c0-0ec3-465a-89d0-9e2b8f23e107; taihe_bi_sdk_uid=0738130d7f4532165841f09abc596215; taihe_bi_sdk_session=6277ea795624ba1eddb2603d7fe45c85; _de=1D29BC9596B9643C92425970B59A3DAE; p=3e6989099ff75de92407b791266376095; first_login_flag=1; ln_uact=18519784236; ln_hurl=http://hdn.xnimg.cn/photos/hdn321/20191017/0945/h_main_El46_9a13000ecbe41986.jpg; t=7f25f8a4d3515786d146143f63d108b25; societyguester=7f25f8a4d3515786d146143f63d108b25; id=972496145; xnsid=9770206d; wpsid=15900539012757; ver=7.0; loginfrom=null; wp_fold=0; jebecookies=59f8dfaf-8416-4dbc-a539-016a7ae1b6c5|||||',
      # 注意,useragent不能改变,否则cookie失效
      'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36'
    }
  def get_html(self):
    html = requests.get(url=self.url,headers=self.headers).text
    self.parse_html(html)
  def parse_html(self,html):
    parse_html = etree.HTML(html)
    r_school = parse_html.xpath('//*[@id="operate_area"]/div[1]/ul/li[1]/span/text()')
    print(r_school)
    r_birthday = parse_html.xpath('//li[@class="birthday"]/span/text()')
    print(r_birthday)
    home_info=parse_html.xpath('//*[@id="operate_area"]/div[1]/ul/li/text()')
    item = {}
    item['hometown'] = home_info[2].strip()
    item['address'] = home_info[3].strip()
    print(item)
if __name__ == '__main__':
  spider = RenrenLogin()
  spider.get_html()

最后关闭“人人网”网站,运行上述程序,其结果如下:

['就读于电子科技大学']
['男生', ',7月7日']
{'hometown': '来自 北京 西城区', 'address': '现居 上海'}

  

标签:登录,text,31,html,parse,实例,Cookie,self
From: https://www.cnblogs.com/jiajunling/p/16715093.html

相关文章

  • 29. [实例]抓取动态加载数据
    1.前言本节讲解如何抓取豆瓣电影“分类排行榜”中的电影数据(https://movie.douban.com/chart),比如输入“犯罪”则会输出所有犯罪影片的电影名称、评分,效果如下所示:剧情|......
  • Target API level升级到31后Android 12启动黑屏卡死
    1)TargetAPIlevel升级到31后Android12启动黑屏卡死​2)UnityRenderer中SortingLayer、SortingOrder底层如何实现渲染排序3)如何用Addressable实现按需下载4)多个Package需......
  • 25. [实例]Python lxml应用
    1.前言本节通过编写一个简单的爬虫程序,进一步熟悉lxml解析库的使用。下面使用lxml库抓取猫眼电影Top100榜(点击访问),编写程序的过程中,注意与《Python爬虫抓取猫眼电......
  • Flask 学习-70.Flask-RESTX 注册接口实例
    前言注册接口主要是密码需要加密,用到werkzeug.security模块的2个方法generate_password_hash,check_password_hash.数据库操作用到Flask-SQLAlchemy,相关的基础配置就......
  • Kafka本地单实例安装
    下载安装从国内镜像站点下载并安装Kafka安装包,以下载并安装v3.2.3版本为例。$tar-xzfkafka_2.12-3.2.3.tgz$cdkafka_2.12-3.2.3启动服务如下命令均在Kafka安装......
  • T1031:反向输出一个三位数(信息学一本通C++)
     目录[题目描述]将一个三位数反向输出,例如输入358,反向输出853。[输入]一个三位数n。[输出]反向输出n。[输入样例]100[输出样例]001 #include<iostream>u......
  • 实例化、销毁游戏物体
    1.实例化游戏物体1.游戏中的案例介绍在很多MMORPG类的游戏中都有类似于“金钱副本”的副本关卡。在这类副本中通常都是限定一个时间,在这个时间内玩家可以尽情的破坏,然......
  • 2022-2023学年 20211319蓝宇 《信息安全专业导论》第四周学习总结
    作业信息|2020-2021-1信息安全专业导论|https://edu.cnblogs.com/campus/besti/2020-2021-1fois|2020-2021-1信息安全专业导论第三周作业|第三周作业(必学,选做)-作业-2......
  • 网页大文件上传解决方案实例代码
    ​第一点:Java代码实现文件上传FormFilefile=manform.getFile();StringnewfileName= null;Stringnewpathname= null;StringfileAddre= "/numUp";try{ ......
  • 前端大文件上传解决方案实例代码
    ​前言:因自己负责的项目(jetty内嵌启动的SpringMvc)中需要实现文件上传,而自己对java文件上传这一块未接触过,且对Http协议较模糊,故这次采用渐进的方式来学习文件上传的原......