首页 > 其他分享 >三行代码规范提取字符串

三行代码规范提取字符串

时间:2023-09-13 23:31:59浏览次数:38  
标签:提取 python 数据源 规范 nf 三行 字符串

      能够从一大堆字符中规范提取字符串是python语言中的基本技能之一。尤其是在使用python爬取网页数据时,规范提取字符串技术直接决定爬取数据的成败和效率。这里给大家分享一个仅用三行代码提取网址数据的方法。

      以下是数据源

"<div style='display:none'><a href='../../../n30888572/n31109385/n31125884/index.html'></a>\
<a href='../../../n30888572/n31109385/n31125884/index_31131703_2.html'></a><a href='../../../n30\
888572/n31109385/n31125884/index_31131703_3.html'></a><a href='../../../n30888572/n31109385/n3112\
5884/index_31131703_4.html'></a><a href='../../../n30888572/n31109385/n31125884/index_31131703_5.\
html'></a><a href='../../../n30888572/n31109385/n31125884/index_31131703_6.html'></a><a href='../\
../../n30888572/n31109385/n31125884/index_31131703_7.html'></a><a href='../../../n30888572/n31109\
385/n31125884/index_31131703_8.html'></a><a href='../../../n30888572/n31109385/n31125884/index_31\
131703_9.html'></a><a href='../../../n30888572/n31109385/n31125884/index_31131703_10.html'></a><a \
href='../../../n30888572/n31109385/n31125884/index_31131703_11.html'></a><a href='../../../n30888\
572/n31109385/n31125884/index_31131703_12.html'></a><a href='../../../n30888572/n31109385/n311258\
84/index_31131703_13.html'></a><a href='../../../n30888572/n31109385/n31125884/index_31131703_14.\
html'></a><a href='../../../n30888572/n31109385/n31125884/index_31131703_15.html'></a><a href='..\
/../../n30888572/n31109385/n31125884/index_31131703_16.html'></a><a href='../../../n30888572/n311\
09385/n31125884/index_31131703_17.html'></a><a href='../../../n30888572/n31109385/n31125884/index\
_31131703_18.html'></a><a href='../../../n30888572/n31109385/n31125884/index_31131703_19.html'></\
a><a href='../../../n30888572/n31109385/n31125884/index_31131703_20.html'></a><a href='../../../n\
30888572/n31109385/n31125884/index_31131703_21.html'></a><a href='../../../n30888572/n31109385/n3\
1125884/index_31131703_22.html'></a><a href='../../../n30888572/n31109385/n31125884/index_3113170\
3_23.html'></a><a href='../../../n30888572/n31109385/n31125884/index_31131703_24.html'></a><a hre\
f='../../../n30888572/n31109385/n31125884/index_31131703_25.html'></a><a href='../../../n30888572\
/n31109385/n31125884/index_31131703_26.html'></a><a href='../../../n30888572/n31109385/n31125884/\
index_31131703_27.html'></a><a href='../../../n30888572/n31109385/n31125884/index_31131703_28.htm\
l'></a><a href='../../../n30888572/n31109385/n31125884/index_31131703_29.html'></a><a href='../..\
/../n30888572/n31109385/n31125884/index_31131703_30.html'></a><a href='../../../n30888572/n311093\
85/n31125884/index_31131703_31.html'></a><a href='../../../n30888572/n31109385/n31125884/index_31\
131703_32.html'></a><a href='../../../n30888572/n31109385/n31125884/index_31131703_33.html'></a><\
a href='../../../n30888572/n31109385/n31125884/index_31131703_34.html'></a><a href='../../../n308\
88572/n31109385/n31125884/index_31131703_35.html'></a><a href='../../../n30888572/n31109385/n3112\
5884/index_31131703_36.html'></a><a href='../../../n30888572/n31109385/n31125884/index_31131703_3\
7.html'></a><a href='../../../n30888572/n31109385/n31125884/index_31131703_38.html'></a><a href='\
../../../n30888572/n31109385/n31125884/index_31131703_39.html'></a><a href='../../../n30888572/n3\
1109385/n31125884/index_31131703_40.html'></a><a href='../../../n30888572/n31109385/n31125884/ind\
ex_31131703_41.html'></a><a href='../../../n30888572/n31109385/n31125884/index_31131703_42.html'>\
</a><a href='../../../n30888572/n31109385/n31125884/index_31131703_43.html'></a><a href='../../..\
/n30888572/n31109385/n31125884/index_31131703_44.html'></a><a href='../../../n30888572/n31109385/\
n31125884/index_31131703_45.html'></a><a href='../../../n30888572/n31109385/n31125884/index_31131\
703_46.html'></a><a href='../../../n30888572/n31109385/n31125884/index_31131703_47.html'></a><a h\
ref='../../../n30888572/n31109385/n31125884/index_31131703_48.html'></a><a href='../../../n308885\
72/n31109385/n31125884/index_31131703_49.html'></a><a href='../../../n30888572/n31109385/n3112588\
4/index_31131703_50.html'></a><a href='../../../n30888572/n31109385/n31125884/index_31131703_51.h\
tml'></a><a href='../../../n30888572/n31109385/n31125884/index_31131703_52.html'></a><a href='../\
../../n30888572/n31109385/n31125884/index_31131703_53.html'></a><a href='../../../n30888572/n3110\
9385/n31125884/index_31131703_54.html'></a><a href='../../../n30888572/n31109385/n31125884/index_\
31131703_55.html'></a><a href='../../../n30888572/n31109385/n31125884/index_31131703_56.html'></a\
><a href='../../../n30888572/n31109385/n31125884/index_31131703_57.html'></a><a href='../../../n3\
0888572/n31109385/n31125884/index_31131703_58.html'></a><a href='../../../n30888572/n31109385/n31\
125884/index_31131703_59.html'></a><a href='../../../n30888572/n31109385/n31125884/index_31131703\
_60.html'></a><a href='../../../n30888572/n31109385/n31125884/index_31131703_61.html'></a><a href\
='../../../n30888572/n31109385/n31125884/index_31131703_62.html'></a><a href='../../../n30888572/\
n31109385/n31125884/index_31131703_63.html'></a><a href='../../../n30888572/n31109385/n31125884/i\
ndex_31131703_64.html'></a><a href='../../../n30888572/n31109385/n31125884/index_31131703_65.html\
'></a><a href='../../../n30888572/n31109385/n31125884/index_31131703_66.html'></a><a href='../../\
../n30888572/n31109385/n31125884/index_31131703_67.html'></a></div>"

      我们需要从数据源中提取出全部类似以下格式的数据

<a href='../../../n30888572/n31109385/n31125884/index_31131703_52.html'></a>

      规范提取字符串数据,确定分割点是关键,这里我们把<a作为分割点

ff = wd.split('<a')

      遍历输出提取的字符串

for i in ff:
	nf = '<a>'+i
	print(nf)

      运行代码,输出提取结果(为节省资源,输出结果省略了中间几十行),其中第1行和最后一行不符合提取内容,请自己动手做进一步处理,或者在评论区留言。

三行代码规范提取字符串_python基础


标签:提取,python,数据源,规范,nf,三行,字符串
From: https://blog.51cto.com/u_14629072/7465760

相关文章

  • C# JSON字符串转带头(声明)XML字符串
     privatestringConverXml(stringmemberId,intcode,stringmsg)    {      varresp=new{authenticate=new{member_id=memberId,status_code=code,message=msg}};      varjsonstr=JsonConvert.SerializeObject(re......
  • linux shell 字符串变量 有双引号和无双引号的区别
     001、[root@pc1test02]#lsa.shb.sh[root@pc1test02]#cata.sh##测试程序1#!/bin/bashstr1="ab_cd_ef"tmp1=$(echo$str1|sed's/_/\n/g')echo$tmp1[root@pc1test02]#catb.sh##测试程序2#!/bin/bashstr1="ab_......
  • Redis7 10大数据类型(Redis字符串)
    一、常用二、单值单value三、案例1、常用setkeyvalue[NX|XX][GET][EXseconds|PXmilliseconds|EXATunix-time-seconds|PXATunix-time-milliseconds|KEEPTTL]getvaluekeepttlset重置value时,ttl不重置2、同时设置/获取多个键值MSETkeyvalue[keyvalue...]MGETkey[k......
  • 去除字符串中的css标记
       有时我们拿到的资料中会有很多网页css标记符号,非常影响资料的可读性。例如:<p>\u3000\u3000第一首</p><p>\u3000\u3000晓日曈曈万象融、河清海晏庆年丰、生逢盛世\真欢乐、好把心田答化工。</p><p>\u3000\u3000晓日:黎明时的太阳</p><p>\u3000\u3000曈曈:形\容太阳刚出还不......
  • delphi截取字符串心得
    在Delphi的日常开发中,确实经常需要截取字符串来满足不同的需求。Delphi自身提供了一些字符串处理函数,但有时候这些函数可能不够用或者使用起来不够方便。下面我将分享一个自己在Delphi开发中用于截取字符串的进一步封装的函数。 ///////////////////////////////////////提取......
  • Python拼接字符串的7种方法总结
    直接运算符拼接使用"+"运算符可以拼接两个字符串,例如:s1="hello"s2="world"s=s1+s2print(s)#输出"helloworld"需要注意的是,当需要拼接多个字符串时,使用"+"运算符会创建多个新字符串,造成性能问题。使用join函数拼接使用join()函数可以拼接任意个字符串,例如:s=......
  • Python数据类型之字符串(String)
    Python中的变量不需要声明。每个变量在使用前都必须赋值,变量赋值以后该变量才会被创建。Python中常用的数据类型有6种,分别是:数字(Number)、字符串(String)、列表(List)、元组(Tuple)、字典(Dictionary)、集合(Set)。字符串(String)Python中的字符串用单引号''或者双引号""括起......
  • python中字符串内置函数find和index
     001、find>>>str1="xyabmnabkj"##测试字符串>>>foriinenumerate(str1):...print(i)##列出每个字符的索引...(0,'x')(1,'y')(2,'a')(3,'b')(4,'m'......
  • 剑指 Offer 67. 把字符串转换成整数
    题目链接:剑指Offer67.把字符串转换成整数题目描述:写一个函数StrToInt,实现把字符串转换成整数这个功能。不能使用atoi或者其他类似的库函数。解法思路:直接模拟题代码:funcstrToInt(sstring)int{s=strings.Trim(s,"")minus:=1varansint64=......
  • #yyds干货盘点# LeetCode程序员面试金典:字符串相加
    1.简述:给定两个字符串形式的非负整数 num1 和num2 ,计算它们的和并同样以字符串形式返回。你不能使用任何內建的用于处理大整数的库(比如 BigInteger), 也不能直接将输入的字符串转换为整数形式。 示例1:输入:num1="11",num2="123"输出:"134"示例2:输入:num1="456",num2=......