首页 > 编程语言 >python | scrapy

python | scrapy

时间:2022-10-11 17:12:28浏览次数:74  
标签:xpath python list item scrapy html new

进入某网页的步骤分为

  1. 域名解析,找到域名对应的ip地址
  2. 向ip地址的服务器发送请求
  3. 服务器响应,返回内容(html/json
  4. 浏览器解析网页内容

爬虫即实现浏览器功能,通过发送请求而后解析内容返回自己想要的

解决如何请求和解析就可以了

请求先看看那个网页F12查看一下Network中发送的请求(如果只是获取页面内容的话,单纯像我练习里一样,就是直接get请求了

解析我认为重点是正则表达式,对样式class name id的取用方法要有了解,多加尝试

先入个门吧,这个是作为爬虫新手的必要练手网站

http://news.163.com/special/000120FU/test080617.html

抓取页面

request请求是必要的,导包,写个方法表示爬取页面,用utf-8解码即可,这里我们已经完成了上述讲的23步骤,获取页面只用最简单的get即可

get(url)得到一个res,请求状态,content获得返回的内容再通过utf-8解码即可

import requests

def Spider(url):
    print("拉取",url)
    page = requests.get(url).content.decode("utf-8")
View Code

用print(page)打印查看

 

 分解

我们主要爬取的是如下的每个标题下的新闻,F12查看源码找到这个标签的html代码块

 

可以看到作为卡片标题的全站、新闻、娱乐等等,都是一个class为titleBar的div标签内的h2标签,而后是一个left、right作为点击榜和跟贴榜

把代码块复制出来,这一段除了whole、全站和a中的链接部分,均是一样的,用.*?正则代替取出

<div class="titleBar" id="whole">
  <h2>全站</h2>
  <div class="more">
    <a href="http://news.163.com/special/0001386F/rank_whole.html">更多</a>
  </div>
</div>
View Code

标签:xpath,python,list,item,scrapy,html,new
From: https://www.cnblogs.com/Aaaamber/p/16779826.html

相关文章

  • Python pdb模块的使用
    野路子出生,写Python也有段时间了,一般的调试都用的print,PyCharm的debug功能也用的比较少,主要一般也用不到,第二是自己也不怎么会用. 服务器开发,本地根本没有运行的环境,......
  • python第十二课---
    昨日内容回顾函数参数"""短的简单的靠前长的复杂的靠后同一个形参在调用的过程中不能多次赋值"""位置参数 位置形参 函数定义阶段括号内依次填写的变量名......
  • python中items()函数作用
    参考链接:https://www.runoob.com/python3/python3-att-dictionary-items.htmlhttps://blog.csdn.net/weixin_43505418/article/details/115407835......
  • 天秀!花费 200W 设计的新版 “小米”图标,看看用Python怎么绘制?
    最终呈现效果哈哈,咋们在讲述之前,首先看看最终呈现的效果吧,整体来说还是很不错的。小米“新”图标背后的数学前段时间,小米公司发布了一条微博,引发了热议,原来小米换了新logo......
  • 对比Python,看看Excel如何3步给证件照换底色!
    Python完成证件照换底色​​注:​​该图片来源于百度图片,如果侵权,请联系我删除!图片仅用于知识交流。不久前,我写了一篇关于Python怎么给证件照换底色的文章,阅读2万+,评论102,点......
  • python自动化办公之python操作PPT
    python自动化文章一直深受广大python爱好者的青睐。基于此,我花了整整一周时间真理出来的python自动化文档手册,涉及到六个章节(如下图所示):①python使用openpyxl操作excel;......
  • 太牛逼了!用 Python 实现抖音上的“人像动漫化”特效,原来这么简单!
    关注微信公众号『数据分析与统计学之美』,后台回复"人像动漫画"获取本文完整代码和素材。前今天,女友拉着我和她玩儿抖音,就是这个​​人像动漫化​​的操作,顿时觉得很好玩儿......
  • Arrow,一个更好用的Python时间序列处理库!
    本文大纲总有人问我,应该​​怎么学习​​​某个知识点?下面的大纲就是很好的证明了。不管学习什么,总结和对比是很有必要的,这就是我们说的逻辑。当你把某个知识点的​​学习逻......
  • 刚学完python自动化系列文章,就接了一单任务
    如果觉得文章写得好,如果你想要博客文章中的数据,请关注公众号:【数据分析与统计学之美】,进群和作者交流!1、需求该文是一个群友找到我,然后让我做的,要求我下午两点之前提交给他......
  • 每天工作忙,学会python自动收发邮件,代替你问候女友
    如果觉得文章写得好,如果你想要博客文章中的数据,请关注公众号:【数据分析与统计学之美】,进群和作者交流!目录  ​​1、相关库介绍​​​    ​​​​​​1)yagmail​​​......