scrapy 响应文本乱码(不支持Brotli解压)

时间：2024-01-31 11:14:35浏览次数：25

标签：body encoding zlib Brotli 乱码 scrapy br

一.介绍

　　在scrapy中，默认不支持Brotli解压，当发现响应乱码时，如何分析确定是由Brotli压缩引起的呢？

　　　　1）是看请求头是否有'Accept-Encoding': "gzip, deflate, br" 中的br，如果去掉br 再请求网页，如果响应不成功，则表示服务端只支持br压缩格式，如果成功则看是否乱码。

　　　　2) 添加中间件调试查看，使用的是哪种压缩格式，关键代码如下

    custom_settings = {
        'DOWNLOADER_MIDDLEWARES':{
            #加上中间件，主要用于查看是什么类型的压缩
            'realtime_python_crawler.middlewares_custom.myCompression_dm.myHtmlCompression':500
            }
　　　　　}

　　　　在创建一个myCompression_dm.py文件，在return时打入断点调试进去

from scrapy.downloadermiddlewares.httpcompression import HttpCompressionMiddleware    

class myHtmlCompression(HttpCompressionMiddleware):

    def process_response(self, request, response, spider):
       return super().process_response(request, response, spider)

　　　　HttpCompressionMiddleware中间件中源码中解缩代码如下：　

    def _decode(self, body, encoding):
        if encoding == b"gzip" or encoding == b"x-gzip":
            body = gunzip(body)

        if encoding == b"deflate":
            try:
                body = zlib.decompress(body)
            except zlib.error:
                # ugly hack to work with raw deflate content that may
                # be sent by microsoft servers. For more information, see:
                # http://carsten.codimi.de/gzip.yaws/
                # http://www.port80software.com/200ok/archive/2005/10/31/868.aspx
                # http://www.gzip.org/zlib/zlib_faq.html#faq38
                body = zlib.decompress(body, -15)
        if encoding == b"br" and b"br" in ACCEPTED_ENCODINGS:
            body = brotli.decompress(body)
        if encoding == b"zstd" and b"zstd" in ACCEPTED_ENCODINGS:
            # Using its streaming API since its simple API could handle only cases
            # where there is content size data embedded in the frame
            reader = zstandard.ZstdDecompressor().stream_reader(io.BytesIO(body))
            body = reader.read()
        return body

　　解决方法，如果确定是br压缩格式引起的，就安装pip install Brotli，这样响应就不会乱码

标签：body,encoding,zlib,Brotli,乱码,scrapy,br
From： https://www.cnblogs.com/MrHSR/p/17998785

windows上使用python2.7获取svn info，中文路径乱码问题
#-*-coding:utf-8-*-from__future__importunicode_literalsimportsubprocessimportcmdimportosos.environ['LANG']='en_US.UTF-8'classSVNCommand(cmd.Cmd):defdo_svninfo(self,folder_path):#构建svninfo命令......
git客户端中文乱码，解决方案
git命令如下所示：解决方案gitconfigcore.quotepathfalse 解决后：参考：修复gitdiff正文中文乱码-简书(jianshu.com)git中文名转义带来的麻烦；git配置之core.quotepath；git中文乱码-yaowenxu-博客园(cnblogs.com)......
requests响应文本乱码解决办法
1.请求百度首页，响应文本页面标题乱码乱码原因：requests获取响应文本之前,会有一个解码的过程，解码就有编码格式，编码格式在响应头content-type里获取，未获取到或者未获取成功，会随便使用默认的编码格式，可能会造成乱码2.查看原本的编码格式图片上运行结果显示原本的编码格式未获取......
GET&POST请求和响应的中文乱码解决方案
Serlvet程序的请求和响应乱码问题get请求与post请求数据乱码publicclassRequestAPIServletextendsHttpServlet{@OverrideprotectedvoiddoGet(HttpServletRequestreq,HttpServletResponseresp)throwsServletException,IOException{//获取请求......
pytest运行结果乱码处理
pytest终端打印结果，中文乱码，解决方式：（我个人觉得第一种方式好）第一种方式：在pytest.ini文件中添加一行代码：disable_test_id_escaping_and_forfeit_all_rights_to_community_support=True第二种方式，conftest.py中添加钩子函数pytest_collection_modifyitemsdefpytest_collecti......
Scrapy爬虫框架
网络爬虫框架：ScrapyScrapy是一个非常优秀的爬虫框架，通过Scrapy框架，可以非常轻松的实现强大的爬虫系统。一、Scrapy简介Scrapy主要包括如下6个部分：ScrapyEngine：用来处理整个系统的数据流，触发各种事件。Scheduler：从URL队列中取出一个URL。Downloader：从internet上下载web资源......
Visual Studio + QT环境界面中文乱码问题及解决
情况：头文件开头加入预编译语句#pragmaexecution_character_set("utf-8") 效果：参考：VS2019+qt解决中文乱码问题 ......
【Python】解压压缩包（处理中文乱码问题）
支持中文编码fromzipfileimportZipFiledefsupport_gbk(zip_file):name_to_info=zip_file.NameToInfo#copymapfirstforname,infoinname_to_info.copy().items():real_name=name.encode('cp437').decode('gbk')......
读取Execl数据到Datatable或DataSet时日期单元格出现乱码的解决方案
Execl某单元格数据为2012-1-10读取到DataTable变为40918不是正确的2012-1-10其实excel在转换格式的时候就自动把日期变成数字了，那这个数字是怎么来的呢？如果你把日期改成1900年1月1日，那么你可以看到他的转换结果是1，以此类推，39902是哪一天就明白了吧解决方法一：//strValu......
从python 单机版爬虫 scrapy 到分布式scrapy-redis 爬虫用最简单的步骤创建实例
scrapy是很强大的模块化爬虫框架，具有很高的灵活性，使用频率很高，使用该框架能大大提高开发效率，scrapy-redis是在scrapy框架开发了组件，替换队列部分，实现多台服务器并行运行爬虫，提高爬取速度。下面是用最简单的例子从建立普通scrapy爬虫,然后数据保存mysql，最后简单替换几行就能使用s......

scrapy 响应文本乱码(不支持Brotli解压)

一.介绍

相关文章

赞助商

阅读排行