首页 > 其他分享 >爬虫常用写法和用法

爬虫常用写法和用法

时间:2023-11-08 12:45:09浏览次数:34  
标签:finditer group item 爬虫 用法 re result print 写法

1、查找所有:结果 = re.findall(正则, 字符串) => 返回列表,用法:r""专业写正则的。 没有转义的烦恼,result = re.findall(r"\d+", "我有1000万,不给你花,我有1块我给你")

2、结果 = re.finditer(正则, 字符串) => 返回迭代器(需要for循环),

result = re.finditer(r"\d+", "我有1000万,不给你花,我有1块我给你")
print(result) # iterator 循环拿结果
for it in result: # <re.Match object; span=(2, 6), match='1000'>
# print(it) # 从每一个Match里拿结果
print(it.group()) # group叫分组
# finditer =》迭代器 =》循环 => match => group()
3、# 结果 = re.search(正则,字符串), 全局搜索。 搜索到了。直接返回结果(返回第一个结果)
r = re.search(r"\d+", "我有1000万,不给你花,我有1块我给你")
print(r) # <re.Match object; span=(2, 6), match='1000'>
print(r.group())
4、
多个相同格式的结果: finditer、单个格式的结果: search
5、加载好一个正则表达式用compile:obj = re.compile(r"\d+")
6、() 分组,?P<名字> 给这一组起名字,提取的时候就可以根据分组名字来提取具体数据,
s = """hahah<div class='西游记'><span id='10010'>中国联通</span></div><div class='三国杀'><span id='10086'>中国移动</span></div>heheh"""
obj = re.compile(r"<div class='(?P<jay>.*?)'><span id='(?P<id>.*?)'>(?P<lt>.*?)</span></div>")
result = obj.finditer(s)
for item in result:
print(item.group("jay"))
print(item.group("id"))
print(item.group("lt"))
7、

标签:finditer,group,item,爬虫,用法,re,result,print,写法
From: https://www.cnblogs.com/zhang-da/p/17817118.html

相关文章

  • python中[::-1]的用法
    在Python编程中,我们经常需要处理和操作数据结构,如列表、字符串和元组等。切片操作是一种强大且常用的方法,通过指定索引范围取出部分数据,不仅提高了代码的可读性,还大大节省了编码时间本文详细介绍Python中的切片操作方法,帮助读者更好地理解和应用。一、切片操作的基本概念1.1......
  • 搜索文档树、bs4其他用法、css选择器、selenium基本使用、selenium其他用法
    搜索文档树#1find_all:找所有列表#2find找一个Tag类的对象find和find_allfrombs4importBeautifulSouphtml_doc="""<html><head><title>TheDormouse'sstory</title></head><body><pclass="title&......
  • Scipy中稀疏矩阵用法解析(sp.csr_matrix;sp.csc_matrix;sp.coo_matrix)用法
    参考:链接orig=np.array([[1,0,2],[0,0,3],[4,7,6]])aa=csr_matrix(orig)aa有如下属性:#2代表第第一行有2个不为零的元素,#3代表第第一和二行不为零的元素总共有3个#6代表第第一、二和三行不为零的元素总共有6个indptr:array([0,2,3......
  • python爬虫怎么翻页 ?
    首先,你需要安装相关的库。在你的命令行窗口中,输入以下命令来安装所需的库:pipinstallrequestsbeautifulsoup4然后,你可以使用以下代码来爬取网页内容并翻页:packagemainimport("fmt""net/http""io/ioutil""encoding/gob""log")funcmain(){......
  • playwright的用法
    Playwright是一个用于自动化测试和网页交互的工具,它支持多种编程语言(如JavaScript、TypeScript、Python和C#)。下面是一个示例,演示了如何使用Playwright进行网页自动化: 1.安装Playwright:首先,需要在计算机上安装Playwright包。可以通过以下命令在命令行界面执行安装:   ```......
  • 【python爬虫】80页md笔记0基础到scrapy项目高手,第(4)篇:requests和网络数据获取进阶
    本阶段主要学习requests这个http模块,该模块主要用于发送请求响应,该模块有很多的替代模块,比如说urllib模块,但是在工作中用的最多的还是requests模块,requests的代码简洁易懂,相对于臃肿的urllib模块,使用requests编写的爬虫代码将会更少,而且实现某一功能将会简单。因此建议大家掌握该......
  • 体验Stream API的用法
    Stream是Java8中处理集合的关键抽象概念,它可以指定你希望对集合进行的操作,可以执行非常复杂的查找、过滤和映射数据等操作。使用StreamAPI对集合数据进行操作,就类似于使用SQL执行的数据库查询。也可以使用StreamAPI来并行执行操作。简而言之,StreamAPI提供了一种高......
  • 爬虫三
    搜索文档树1、find_all:找所有 列表2、find 找一个Tag类的对象find和find_all五种过滤器(字符串、正则表达式、列表、True、方法):字符串可以按标签名,可以按属性,可以按文本内容无论按标签名,按属性,按文本内容都是按字符串形式查找: p=soup.find('p')找到类名叫story......
  • django+爬虫+钉钉机器人
    Views类urls类Html结果......
  • 【Python | 进阶】 各路日常用法技巧,确定不来看看?
    ......