首页 > 其他分享 >print response.text 打印网页返回内容时遇到丢失内容的情况\r

print response.text 打印网页返回内容时遇到丢失内容的情况\r

时间:2023-07-18 16:00:15浏览次数:34  
标签:xa0 text vscode 内容 print pycharm response

在学习过程中,遇到一个小说网站:h@t@t@p@s@:@/@/@w@w@w@.@i@b@i@q@u@g@e@s@.@c@o@m@/@1@/@1@7@1@0@/@1@2@9@8@2@6@6@.@h@t@m@l@

get后,print text内容,发现中间小说内容部分没了,而这部分内容正是想要获取的,难道一个小说网站(很普通的网站)反pa也这么厉害(网页源代码中是有的)?

于是加cookie,refere等各种header,最后全部header都加入了,依旧不行。一直以为是访问问题,吃完中饭,直接在pycharm中write,居然惊奇的发现内容一点不少。下面摘抄一点print时少的内容:

“<div id="content">&nbsp;&nbsp;&nbsp;&nbsp;新书小三先开通了,方便........”,这个vscode中print显示的(当时就忘了用vscode试试)。

开始以为pycharm在print时,省略了一些内容,可一想又不对,正常省略内容也会有....这样的省略号啊,猜测应该是遇到了某种特殊字符,导致无法显示。

猜测可能是<br />这类的,但能够打印出的也有此类字符,所以到现在还不清楚到底发生了什么。但有一点是确认的,当用xpath处理text后,发现内容部分是类似以下的文本:

['\xa0\xa0\xa0\xa0新书小三先开通了,方便......谢大家的支持\r', '\r',......嘿嘿。\r', '\r', '\xa0\xa0\xa0\xa0;'] for可以把每行print出来,但join后,只有末尾的“    ;”。猜测,\r之前的都被干掉了,下面做几个实验: print('12345\r')
print('12345\r678') pycharm:

12345
678

vscode:

12345
67845

IDLE:

12345

12345 678

原因看这里:https://www.cnblogs.com/LegendsNeverDie/p/10372052.html

结论1:pycharm里\r如果之后有内容,会全部覆盖之前的内容,如果没有,之前的内容依旧保留。(这也是为什么for时单行输出没问题,而join后剩下最后一个元素的原因)

vscode里\r如果之后有内容,会按位置替换之前的内容,位置不够时,之前剩下的内容会保留,位置够时,就都是\r之后的内容了。

IDLE里不会处理\r。

由此可见,很可能是返回的网页中的某些字符产生了类似于\r的作用(但我写出的txt中并未发现,所以还是迷),导致pycharm中并未显示,vscode中也有些不全。

结论2:不要完全相信print,在遇到少内容时,可以尝试write出来看看。

标签:xa0,text,vscode,内容,print,pycharm,response
From: https://www.cnblogs.com/sbsdnyn/p/17563245.html

相关文章

  • docker buildx http: server gave HTTP response to HTTPS client
    参考:https://github.com/docker/buildx/issues/163https://github.com/thegeeklab/drone-docker-buildx/issues/153https://github.com/moby/buildkit/blob/master/docs/buildkitd.toml.md 准备用buildx构建多平台镜像,基于Dockerfilefrom私服中的jdk在执行以下命令时,......
  • Abp Blazor WebAssembly - Polymorphic DTO Deserialization using System.Text.Json
    @@abp4.0dtojobject https://stackoverflow.com/questions/70032776/abp-blazor-webassembly-polymorphic-dto-deserialization-using-system-text-json1AbpFrameworkversion:5.0.0-beta2,UI:BlazorWebAssemblyI'mattemptingtoimplementpolymo......
  • Flutter | 使用 InkResponse和 InkWell组件 实现事件操作
    可以包裹不具备事件处理的组件,实现水波纹等点击事件的效果;InkWell水波纹限制在文本组件之内;InkResponse水波纹没有限制;InkResponse和InkWell都可以指定各种响应颜色、手势等相关属性;  InkWell(radius:200.0,focusColor:Colors.red,hove......
  • 《最新出炉》系列入门篇-Python+Playwright自动化测试-8-上下文(Context)
    1.简介其实前边的文章中也提到过Context,只不过是一笔带过,但是宏哥觉得在playwright中挺重要的,所以宏哥今天单独将其拎出来讲解和分享一下,希望对您有所帮助或者参考。2.前言Playwright为每个测试创建一个浏览器上下文,即BrowserContext,浏览器上下文相当于一个全新的浏览器配置文......
  • 爬虫 | <Response [418]>原因
    在我们调用requests.get(网址)访问网页时,输出为<Response[418]>。是什么原因呢?如下运行代码:#导入访问网页要用的库importrequests#申明一个变量存储网址#网址是一个字符串变量,注意网址前后都必须有引号url='https://movie.douban.com'#用requests.get(网址)访问......
  • vue-day22--v-text指令
    <!DOCTYPEhtml><htmllang="en"><head><metacharset="UTF-8"/><metaname="viewport"content="width=device-width,initial-scale=1.0"/><title>过滤器</title><scripttype=......
  • Input text流程
    inputtext流程sendMessage前调用命令inputtext'heloworld',会进入到函数nativeInjectInputEventstaticjintnativeInjectInputEvent(JNIEnv*env,jclass/*clazz*/,jlongptr,jobjectinputEventObj,jintdisplayId,jintinjectorPid,jintinjector......
  • go context
    使用场景在协程之间传递上下文context接口typeContextinterface{//返回绑定当前context的任务取消的截止时间//如果没有设定期限,将返回ok==falseDeadline()(deadlinetime.Time,okbool)//绑定当前context的任务取消时返回一个关闭的channel......
  • 在React之下,Context 或者 React-query库该如何选择
    首先,如果是服务器的状态需要用React-query库最方便,如果是客户端的状态用localstate+Context就可以了。 TRANSLATEwithxEnglishArabicHebrewPolishBulgarianHindiPortugueseCatalanHmongDawRomanianChineseSimplifiedHungarianRuss......
  • go text模板
    packageinstallimport("bytes""fmt""strings""text/template""github.com/fanux/sealos/pkg/logger""sigs.k8s.io/yaml")varConfigTypestringfuncsetKubeadmAPI(versionstring){maj......