首页 > 其他分享 >THUCNews解压/THUCNews数据集解压出问题

THUCNews解压/THUCNews数据集解压出问题

时间:2025-01-01 21:28:25浏览次数:3  
标签:解压 文件 zip THUCNews 文件夹 zip64 数据

省流:使用zip64进行解压,文件数目太多windows默认zip16装不下

我在使用THUCNews中文文本数据集时出现了问题,原数据集解压后应该包含以下两个文件夹:

其中THUCNews文件夹下有以新闻类别命名的子文件。官网下载的是一个1.56GB的zip压缩包

而我用windows11默认解压后出现了一个三字乱码文件夹,这显然是解压错误的。然后使用7.zip进行解压时弹出了一个警告,搜索后发现这是提示压缩包文件数目太大了,普通的zip16只支持65536个文件的解压,也就是2的16次方;而这玩意儿有多大呢。。。

 167万个文件数目。因此伟大滴7z自动使用了zip64,将我从无能狂怒中带了出来。

标签:解压,文件,zip,THUCNews,文件夹,zip64,数据
From: https://blog.csdn.net/2401_87092242/article/details/144872296

相关文章

  • 怎样用 Excel 做数据分析?
    与其单纯地学习怎么使用Excel,不如结合AI工具来进行数据分析。接下来就来盘一盘AI在Excel做数据分析方面会带来哪些改进和帮助。 原本不能非常复杂的公式,变成聊天的方式。Excel门槛被大大降低,以前技术大佬才能干的活,现在前台小姐姐、人资小姐姐、财务小姐姐们可以轻松拿捏......
  • 运维系列&Vmware系列&虚拟机系列【仅供参考】:vmware集群 vSAN HCL 数据库更新问题
    vmware集群vSANHCL数据库更新问题vmware集群vSANHCL数据库更新问题HCL数据库升级VSAN版本目录升级......
  • 数据结构复习 (顺序查找,对半查找,斐波那契查找,插值查找,分块查找)
    查找(检索):定义:从给定的数据中找到对应的K1,顺序查找:O(n)的从前向后的遍历2,对半查找,要求有序从中间开始查找,每次检查中间的是否正确,不正确就根据性质去左边or右边找2.1对半插入排序在找位置的时候是logn去找,但是最后需要换位置排序之后仍然是O()N^2)对同一序列分别......
  • 数据结构复习 (二叉查找树,高度平衡树AVL)
    1.二叉查找树:为了更好的实现动态的查找(可以插入/删除),并且不超过logn的时间下达成目的定义:二叉查找树(亦称二叉搜索树、二叉排序树)是一棵二叉树,其各结点关键词互异,且中根序列按其关键词递增排列。等价描述:二叉查找树中任一结点P,其左子树中结点的关键词都小于P的关键词......
  • JavaScript 中处理 100 万数据时确保性能和流畅度的几种方法
    以下是在JavaScript中处理100万数据时确保性能和流畅度的几种方法:1.使用WebWorkers思路:将数据处理任务转移到WebWorkers,它可以在后台线程中执行代码,避免阻塞主线程,从而保证页面的流畅性。代码示例:<!DOCTYPEhtml><htmllang="en"><head><metacharset="UTF-......
  • 如何通过设置失效时间清除本地存储的数据?
    使用localStorage和时间戳结合的方式(JavaScript)原理:localStorage是一种在浏览器中存储数据的方式,数据不会过期,除非手动清除。为了实现数据的自动过期,可以将数据存储的同时,也存储一个时间戳。在读取数据时,通过比较当前时间和存储的时间戳来判断数据是否过期。存储数据时添加时......
  • 3.数据类型
    3.1字符串1.正常字符串使用'' 或""包裹起来2.注意转义字符\   \'显示’  \n换行\ttab \u4e2d \u###Unicode字符3.多行字符串编写  4.模板字符串5.字符串长度str(变量名).length6.字符串的可变性,不可变Strin......
  • 数据结构与算法Python版 拓扑排序与强连通分支
    文章目录一、图的应用-拓扑排序二、图的应用-强连通分支一、图的应用-拓扑排序拓扑排序TopologicalSort从工作流程图得到工作次序排列的算法,称为“拓扑排序”拓扑排序处理一个有向无环图DAG,输出顶点的线性序列。使得两个顶点v,w,如果图中有(v,w)边,在线性序列中v就......
  • 深度学习基础理论————分布式训练(模型并行/数据并行/流水线并行/张量并行)
    主要介绍Pytorch分布式训练代码以及原理以及一些简易的Demo代码模型并行是指将一个模型的不同部分(如层或子模块)分配到不同的设备上运行。它通常用于非常大的模型,这些模型无法完整地放入单个设备的内存中。在模型并行中,数据会顺序通过各个层,即一层处理完所有数据之后再传递给下一......
  • 【Java教程】Day11-07 时间与日期:日期与时间API的转换与数据库存储
    Java提供了两个日期与时间处理API:旧的 java.util.Date 和 java.util.Calendar,以及新的 java.time 包。新的API以 Instant、LocalDateTime 等为核心,具有更清晰的设计和更强大的功能。除非你需要与遗留代码进行交互,否则建议使用新的API。在需要将新旧API进行转换时,......