首页 > 编程语言 >Python爬虫实例

Python爬虫实例

时间:2024-04-09 14:57:44浏览次数:29  
标签:re Python text 爬虫 headers 实例 print response

使用正则表达式和爬虫

爬虫实例一:

# 第好几个方法实例  
import requests #先导入爬虫的库,不然调用不了爬虫的函数 
import re
  
#下面是可以正常爬取的区别,更改了User-Agent字段   
headers = {  
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.5735.289 Safari/537.36"  
}#设置头部信息,伪装浏览器  
response = requests.get( "https://github.com/" , headers=headers )  #get方法访问,传入headers参数,  
print( response.text )  #获取网页所有的源码内容
pattern='<div class="(.*?)">(.*?)</div>'      #正则表达式
result=re.findall(pattern=pattern, string=response.text)
print(result)

  Python爬虫白名单网站:https://www.pythonanywhere.com/whitelist/

爬虫实例二:

# 第好几个方法实例  
import requests #先导入爬虫的库,不然调用不了爬虫的函数 
import re
  
#下面是可以正常爬取的区别,更改了User-Agent字段   
headers = {  
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36"  
}#设置头部信息,伪装浏览器  
response = requests.get( "https://www.pythonanywhere.com/whitelist/" , headers=headers )  #get方法访问,传入headers参数,  
#print( response.text )  #获取网页所有的源码内容
pattern1='<td style="width:20ex;">(.*?)</td>'      #正则表达式
# pattern2='<link rel="(.*?)">'
result1=re.findall(pattern=pattern1, string=response.text)
# result2=re.findall(pattern=pattern2, string=response.text)
#print(result1)
# print()
# print(result2)
for res in result1:
    print(res)

 输出结果:

标签:re,Python,text,爬虫,headers,实例,print,response
From: https://www.cnblogs.com/longlyseul/p/18123942

相关文章

  • MQTT用python写的收消息例子
    在MQTT官网给的sub_wss.py例子中修改改写自己的用户名和密码BROKER='*******.ala.cn-hangzhou.emqxsl.cn'//改成自己的连接地址USERNAME='**************'//用户名PASSWORD='*************'//密码注意这句是改使用v1回调API(与旧版本的库一起使用)。原......
  • GpuMall智算云很多用户问的:如何在实例后台运行训练或任务【限时】
    检验#GpuMall智算云#实例创建操作的时候来了,提供最简单的实例操作流程,简化运行步骤,提高训练速度,#算力租赁#立即免费体验:https://gpumall.com/login?type=register&source=cnblogs在正常情况下,使用命令pythontrain.py运行机器学习的训练或推理任务时,该进程会挂载到系统的前......
  • python应援灯牌代码
    代码如下importpygameimportsysimportrandom#初始化Pygamepygame.init()#设置窗口尺寸WINDOW_WIDTH=800WINDOW_HEIGHT=600window_surface=pygame.display.set_mode((WINDOW_WIDTH,WINDOW_HEIGHT))pygame.display.set_caption('应援语跑马灯模拟')......
  • Draggable 拖拽实例
    <!DOCTYPEhtml><html> <head> <metacharset="utf-8"> <title>课程表拖拽</title> <styletype="text/css"> h1{ text-align:center; } .container{ display:flex; } .left......
  • ludic 基于纯python 开发动态html 页面的框架
    ludic使用了htmx进行页面的处理,同时基于starlette提供asgiweb能力包含的特性基于python的无缝的htmx集成快速开发web基于python类型系统的类型组件基于starlette的异步搞性能web处理基于pythonf-strings的html构建基于主题的组件css样式添加说明目前ludic......
  • 深入学习Python (一)
    一、字面量在代码中,被写下来的固定的值,称之为字面量。二、字符串格式化语法“%占位符%”%变量f"内容{变量}"精度的控制我们可以使用辅助符号"m.n"来控制数据的宽度和精度m,控制宽度,要求是数字(很少使用),设置的宽度小于数字自身,不生效.n,控制小数点精度,要求是数字,会......
  • java计算机毕业设计基于微信小程序与python的智能办公【附源码+远程部署+程序+mysql】
    本系统(程序+源码)带文档lw万字以上  文末可领取本课题的JAVA源码参考系统程序文件列表系统的选题背景和意义选题背景:随着移动互联网技术的飞速发展,传统的办公模式正逐渐向智能化、移动化转型。微信小程序作为一种新型的应用形式,因其无需下载安装、即用即走的便捷性,已经成......
  • 数据采集技术综合项目实战(协程式网络爬虫+数据预处理+数据可视化)附带详细步骤说明,干货
    数据采集部分:目标网址:https://item.jd.com/100066896338.html#none爬虫思路分析:1.确定采集目标:爬取“苹果15”的评论包括好评、差评、中评以及不同的评论对应的用户名、设备颜色、设备内存大小、版本号、评论发布时间等字段,共3000条以上的评论数目,如下图所示:2.查看评论来......
  • Python中的异常处理 异常是什么? 异常处理的语法 基本的异常处理示例 捕获多个异常 fin
    Python中的异常处理异常是什么?异常处理的语法基本的异常处理示例捕获多个异常finally语句自定义异常异常处理的最佳实践——《跟老吕学Python编程》附录资料Python中的异常处理异常是什么?异常处理的语法基本的异常处理示例Python捕获多个异常finally语句Py......
  • python对于excel的操作
    python可以通过开源框架openpyxl来对excel进行读写操作。基本概念:对于excel,其中的主要用到的元素如下:WorkBook:工作簿WorkSheet:sheet表Cell:单元格style:样式Border:框线Font:字体Alignment:对齐...helloworld的demo:fromopenpyxlimportWorkbook#一开始新建是存储在内......