首页 > 其他分享 >UnicodeDecodeError: 'utf-8' codec can't decode byte 0xa1 in position 0: invalid start

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xa1 in position 0: invalid start

时间:2024-04-27 21:12:40浏览次数:22  
标签:编码 UTF invalid decode start utf byte


报错:

报错信息 UnicodeDecodeError: 'utf-8' codec can't decode byte 0xa1 in position 0: invalid start byte 指出在尝试使用 UTF-8 编码解码文件时遇到了问题。这通常发生在文件的编码不是 UTF-8 时,比如它可能是 GBK、GB2312 或其他编码。

哈工大停用词表可能不是用 UTF-8 编码保存的,特别是在中文环境下,常见的编码可能是 GBK 或 GB2312。你需要确认停用词表的正确编码,并在打开文件时使用相应的编码。

直接简单处理,使用编辑器另存为:有时,简单地用文本编辑器(如 Notepad++、Sublime Text 或 VS Code)打开文件,并另存为 UTF-8 编码可以解决编码问题。成功解决!

标签:编码,UTF,invalid,decode,start,utf,byte
From: https://www.cnblogs.com/66sd/p/18162530

相关文章

  • SpringBoot+MyBatisPlus报错 Invalid value type for attribute 'factoryBeanObjectTy
    依赖版本org.springframework.boot:spring-boot-starter-web:3.2.5com.baomidou:mybatis-plus-boot-starter:3.5.5错误Invalidvaluetypeforattribute'factoryBeanObjectType'问题原因:这个问题是由于依赖传递导致,在MyBatis起步依赖中的myBatis-spring版本过低,导致程......
  • 【Qt 专栏】QByteArray详解(QByteArray 与 QString的区别)
    本文转自:《Qt编程指南》    作者:奇先生Qt编程指南,Qt新手教程,QtProgrammingGuide本节学习QByteArray的两种用法,第一种作为字符串处理类,类似QString,但QByteArray内部字符编码不确定,所以要慎用。第二种是作为纯的字节数组,里面可以包含多个'\0',经常用于网络数据的......
  • 火山引擎ByteHouse:OLAP如何支持超高QPS点查?
    更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群在当今高速发展的互联网时代,信息传播迅速,用户数量激增。在面对如此庞大的用户群体和高频的访问需求时,系统高并发访问的性能问题成为了无法回避的挑战。为了满足业务场景中对数据并发查询的即......
  • node环境axios(AxiosError: Parse Error: Invalid header value char)解决方案
    最近在做一个electron项目时,需要在node环境使用axios请求,我试图向API发出请求,但我得到了这个错误:AxiosError:ParseError:Invalidheadervaluechar问题在于API返回的响应头中的值包含不允许的字符。Node.js的HTTP解析器比Web浏览器使用的解析器更严格,这可以防止抓取服务......
  • Java switch() case中的switch可用的数据类型 byte,shor,int ,string ,char不能是long
    Javaswitch()case中的switch可用的数据类型   byte,shor,int,string,char1.swtich()里面必须是int和enum--即枚举类型。2.short、char或者byte他会自动转换为int的。。3.long不能自动转换为int,因为long比int范围大..可能会丢失精度..4.java把string也'转化'成int了,用......
  • python 二进制序列类型 bytes 和 bytearray
    bytesbytes定义bytes是一个不可变序列,用于存储字节数据。bytes对象包含范围在0到255之间的整数序列,通常用于处理二进制数据、文本数据的字节表示、以及网络通信中的原始数据传输。创建bytes对象使用b'...'表示字节字符串,各个字符以ASCII对应的单字节值表示。使用byte......
  • linux系统文字编码,通过命令设置为utf8编码
    转自:https://worktile.com/kb/ask/489959.html要将Linux系统设置为UTF-8编码,可以通过以下步骤进行:1.检查系统当前的默认字符集。在终端中输入以下命令并查看输出:“`locale“`如果输出中的LC_ALL或LANG字段不以UTF-8结尾,则系统默认字符集不是UTF-8。2.编辑本地......
  • Mysql数据库插入Emoji,字符集设置utf8mb4
    字符集和校对规则字符集(CHARACTERSET)为字母和符号的集合。例如latin1(MySQL默认),utf8和utf8mb4等等…不同字符集的默认校对规则和1个字符最大支持的字节长度可能不一样。校对规则(COLLATE)为规定字符如何比较的指令。比如当我们SQL语句后面需要根据某个字段orde......
  • Effective Python:第3条 了解bytes与str的区别
    Python有两种类型可以表示字符序列:一种是bytes,另一种是str。bytes实例包含的是原始数据,即8位的无符号值(通常按照ASCII编码标准来显示)。str实例包含的是Unicode码点(codepoint,也叫作代码点)。注意点:1,bytes和str并不兼容。在传递字符序列的时候需要注意。a=b"h\x65llo"b="wo......
  • PHP Allowed memory size of 134217728 bytes exhausted (tried to allocate 10489856
    问题返回的json数据太大导致Allowedmemorysizeof134217728bytesexhausted(triedtoallocate10489856bytes)解决方案修改php.ini的memory_limit修改php.ini中的memory_limit数值,默认128M,不够用可以改成256M或512M宝塔中修改点击“服务”>重启或重载配置......