首页 > 其他分享 >《简明英汉必应版》震撼发布-全网收词量最多的离线词典,词频考纲标注(432万词条)

《简明英汉必应版》震撼发布-全网收词量最多的离线词典,词频考纲标注(432万词条)

时间:2023-12-26 21:33:07浏览次数:35  
标签:收词量 词条 离线 欧陆 词频 GoldenDict 考纲 词典

原文:https://zhuanlan.zhihu.com/p/31493883?from_voters_page=true

  主要是为了解决离线词典的词条数目不够,常常需要在线去查的问题。离线有300多万的词条,只能输入英文,输出中文意思。对我来说,足够了。

下面,是原文摘录:这年头难道就没有办法让你随心所欲简单快捷的查个单词?于是我找到一个解决方案:现在网上公开免费资源那么多,既然找不到现成的,自己做一个收词量超大的词典放到 GoldenDict / 手机欧陆 里不就完了?

然后我制作了 340万收词量的开源词典《简明英汉增强版》(支持 GoldenDict, 欧陆词典,BlueDict,mdict,edwin,Kindle 等),受到很多网友们的欢迎,半年不到,积累了五万多的下载量。其后再接再厉,补充更多短语、谚语、新词、俚语和专业术语,并对前20万基础词汇使用必应释义进行了校对,最终发布这个收录 432万词条的《简明英汉必应版》。

网上有的它有,网上没有的它也有!!收词量 432万是什么概念,参考下面:

  • OALD8:7.2万词条
  • 朗文5:6.2万词条
  • Merriam-Webster's Collegiate Dictionary:11.9万
  • 柯林斯 Cobuild 5:3.4万
  • 21世纪:37.7万
  • 有道本地增强版离线词库:40万
  • 欧陆离线词库:40万

整合了市面上各类免费和开源资料,利用 BNC/COCA 语料库进行词频矫正,并使用 NodeBox, WordNet 等自然语言处理工具包对各类时态语态,派生词等进行补充和标注。再根据考试大纲和柯林斯星级还有牛津 3000核心词进行标注,让你一眼就能看出这个单词的重要性。

其他的优势,自己看原文吧,记录下:

词典下载

http://pan.baidu.com/s/1hsopeRy

内容包含:

  • MDX 版本(及去音标版):支持 GoldenDict / mdict / BlueDict
  • 欧陆 Eudic 版(及去音标版):欧陆词典(桌面,手机)
  • Kindle 版本
  • MDX CSS 美化版本:支持 GoldenDict / mdict / BlueDict
  • StarDict 版本:支持 StarDict,多看系统

 谢谢作者的分享。

标签:收词量,词条,离线,欧陆,词频,GoldenDict,考纲,词典
From: https://www.cnblogs.com/guochaoxxl/p/17929410.html

相关文章

  • [2024深圳市考][计算机素质测试考纲](二)算法和数据结构
    前言因篇幅有限,本文仅对考纲中的考点做基本介绍。更详细的内容请自行学习:【双语字幕】CS61B数据结构|整合版|UCBDataStructureSpring2021【中英双字】普林斯顿大学-算法分析AlgorithmAnalysis2015COS423一、基本概念二、数组三、链表四、栈和队列五、递......
  • [2024深圳市考][计算机素质测试考纲](二)操作系统
    前言因篇幅有限,本文仅对考纲中的考点做基本介绍。更详细的内容请自行学习:【加州大学伯克利分校】CS162操作系统和程序设计-OperatingSystemandSystemsProgramming双语字幕操作系统的基本概念进程管理作业管理存储管理文件管理设备管理常用操作系统目前比较主流的......
  • MapReduce入门案例——wordcount词频统计分析
        说实话,wordcount这个案例挺土的,但是作为入门案例,还是值得学习的,本篇就通过MapReduce来对词频进行一个统计分析,并写出核心代码。一:案例介绍:     Input:读取文本文件;Splitting:将文件按照文件块(block)或者行进行拆分,此时得到的K1为偏移量,V1表示对应行......
  • 武汉星起航:解密成功选品的秘籍,词频分析揭示市场脉搏
    在电商时代,选品成为创业者们摆在首要位置的一项任务。然而,要想在激烈的市场竞争中脱颖而出,仅仅依赖传统的市场分析可能不够。本文武汉星起航将介绍一种基于统计学原理的独特分析方法——词频分析,它不仅简单易懂,而且能够迅速洞悉消费者的需求,助您在选品过程中事半功倍。词频分析的核......
  • 中职对口升学考纲专业课
    试卷内容1.计算机基础知识10%2.win7操作系统4%3.word20104%4.excel20104%5.powerpoint20103%6.visualfoxpro程序设计29%7.visualbasic程序设计29%9.计算......
  • Python中文分词、词频统计并制作词云图
    中文分词、词频统计并制作词云图是统计数据常用的功能,这里用到了三个模块快速实现这个功能。中文分词、词频统计importjiebafromcollectionsimportCounter#1.读取文本内容并进行分词withopen('demo.txt',mode='r',encoding='gbk')asf:report=f.read()words......
  • 什么是词频-逆文档频率(TF-IDF)?
    我们玩AI会听说一个词叫做向量化,那么什么是向量化呢?文本向量化:将文本信息表示成能够表达文本语义的向量,是用数值向量来表示文本的语义。词嵌入(WordEmbedding):一种将文本中的词转换成数字向量的方法,属于文本向量化处理的范畴。常见的文本向量和词嵌入方法包括独热模型(OneHot......
  • pytorch(8-2) 文本语言处理 拆分成字符统计词频并从高到底分配ID
    https://zh.d2l.ai/chapter_recurrent-neural-networks/language-models-and-dataset.html  importcollectionsimportrefromd2limporttorchasd2l#@saved2l.DATA_HUB['time_machine']=(d2l.DATA_URL+'timemachine.txt',......
  • [笔记]操作系统_2024年考纲
    一、操作系统基础(一)操作系统的基本概念(二)操作系统发展历程(三)程序运行环境1.CPU运行模式内核模式,用户模式。2.中断和异常的处理3.系统调用4.程序的链接与装入5.程序运行时的内存映像与地址空间(四)操作系统结构分层,模块化,宏内核,微内核,外核。(五)操作系统引导(六)虚拟......
  • [笔记]组成原理_2024年考纲
    一、计算机系统概述(一)计算机系统层次结构1.计算机系统的基本组成2.计算机硬件的基本结构3.计算机软件和硬件的关系4.计算机系统的工作原理“存储程序”工作方式,高级语言程序与机器语言程序之间的转换,程序和指令的执行过程。(二)计算机性能指标吞吐量、响应时间;CPU时钟周期、......