首页 > 其他分享 >学习爬虫入门2,count反爬虫思路

学习爬虫入门2,count反爬虫思路

时间:2023-06-15 21:11:11浏览次数:43  
标签:count 入门 title url text 爬虫 soup headers

浏览网页的过程

1.输入网址

2.浏览器向DNS服务商发起请求

3.找到对应服务器

4.服务器解析请求

5.服务器处理最终请求发回去

6.浏览器解析返回数据

7.展示给用户

爬虫策略

广度优先   深度优先   聚焦爬虫

BFS 从根节点开始 沿着树的宽度

深度优先 DFS 尽可能深的搜索树的分支 然后再返回起点

 爬取实习僧招聘不完全如

Import requests

from bs4 import BeautifulSoup
headers={'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) Applewebkit/537.36 (KHTML, like Gecko}
def detial_url(url):
html=requests.get(url ,headers=headers )

soup=BeautifulSoup(html.text,'lxml')

title=soup.title

print(title)
defcraw1():

for page in range(1,2):

html=requests.get('https://www.shixiseng.com/interns?page=()&keyword=python' .format(page),

headers=headers)

soup=Beautifulsoup(html.text,'lxml')

offers=soup.select('.intern-wrap.intern-item')

for offer in offers:

url=offer.select('.f-l.intern-detail job a')[0['href']

detial url(url)

过滤title 只需要后续加.text

获取可以直接复制标签名字 后续【0】.text

cutom_font(自定义字体)反爬虫 

首先你要先获取字体映射关系

照例先获取文本,然后.encode('utf-8')

找出破解代码,如\Xef

repalce(b'\Xef,b'2')

.decode()

Scrapy库

针对每个URL,scheduler__downloader__Spider

soup.select()筛选元素,返回的是list 标签名不加修饰,class面前加. ID前面加#

 

标签:count,入门,title,url,text,爬虫,soup,headers
From: https://www.cnblogs.com/JWmorning/p/17484122.html

相关文章

  • 【Netty】「萌新入门」(二)剖析 EventLoop
    前言本篇博文是《从0到1学习Netty》中入门系列的第二篇博文,主要内容是介绍Netty中EventLoop的使用,优化及源码解析,往期系列文章请访问博主的Netty专栏,博文中的所有代码全部收集在博主的GitHub仓库中;概述事件循环对象EventLoop在Netty中,EventLoop是用于处理I/O事件的......
  • Js基础入门
    [Js基础入门-掘金](https://juejin.cn/post/7244734132322992187)浏览器执行JS简介浏览器分成两大部分渲染引擎和JS引擎渲染引擎:用来解析HTML与CSS,俗称内核,比如chrome浏览器的blink,老版本的webkitJS引擎:也称为JS解释器。用来读取网页中的JavaScript代码,对其处理后......
  • Java 入门学习笔记
    Java特性和优势简单性面向对象可移植性高性能分布性动态性(反射)多线程安全性健壮性Java三大版本WriteOnce、RunAnywhere通过JVMJavaSE:标准版(桌面程序,控制台开发...)基础JavaME:嵌入式开发(手机,小家电...)JavaEE:E企业级开发(web端,服务器开发)JDK、JRE、JV......
  • Kong入门学习实践(4)负载均衡与正则路由
    最近在学习Kong网关,因此根据老习惯,我会将我的学习过程记录下来,一来体系化整理,二来作为笔记供将来翻看。由于我司会直接使用Kong企业版,学习过程中我会使用Kong开源版。本篇,我们学习快速配置一个最常见的基本功能:负载均衡与正则路由。关于负载均衡所谓负载均衡,就是通过负载均衡算......
  • Kafka入门学习
    kafka概述Kafka是一个分布式流媒体平台,类似于消息队列或企业消息传递系统。kafka官网:http://kafka.apache.org/名词解释producer:发布消息的对象称之为主题生产者(Kafkatopicproducer)topic:Kafka将消息分门别类,每一类的消息称之为一个主题(Topic)consumer:订阅消息并处理发布......
  • [转][Java]入门设置
    1、JDK使用1.8_3712、下载公司的settings.xml文件,覆盖到X:\maven\conf目录下3、修改settings.xml中的localRepository配置为本机资源位置4、在IDEA里设置JDK版本5、运行项目,会使用1XXX端口,公司自有应用端口范围:10000~199996、通过http://localhost:1XX......
  • ctfpwn-堆入门之uaf(新手向)
    例题:程序保护全开,ida打开int__cdeclmain(intargc,constchar**argv,constchar**envp){init(argc,argv,envp);while(1){menu();switch((unsignedint)read_int()){case1u:new_book();break;case2u:......
  • 解析 Postman Newman:从入门到精通
    PostmanNewman是什么?PostmanNewman是一个CLI(命令行界面)工具,可以使用它来运行Postman中的集合(Collection)和环境(Environment)进行自动化测试。它是Postman的命令行CollectionRunner,能够直接从命令行运行Postman集合。使用Newman可以测试API的功能、性能、可靠性和安......
  • Fix navmesh countour
    Fixnavmeshcountour(JinQing’sColumn,Jan.,2023)Afterchangingsomeparametersofwatershedregionpartitionalgorithm,mytestmeshgeneratedanoddregionshape,whichcausedawrongcontour.Wrongcontour:Wrongnavmesh:Thereare2regions,thebigre......
  • 为什么爬虫工程师都不做爬虫了?
    爬虫工程师并不是不做爬虫了,而是在做爬虫的同时,还需要处理数据、分析数据、存储数据等一系列工作。爬虫只是整个数据处理流程中的一个环节,而且爬虫的难度相对较低,所以爬虫工程师需要掌握更多的技能,如数据分析、数据库管理、编程语言等,以便更好地完成整个数据处理流程。因此,爬虫工......