搜狗细胞词库处理代码（可用于scel转txt）

时间：2023-04-25 14:01:00浏览次数：37

标签：搜狗 QByteArray int scel pos unsigned fData 词库 startPos

今天先贴个简单代码，稍后再详细叙述……

基于QT实现，主要是考虑Unicode字符处理的方便，

可以稍加处理用于C或C++语言。

// 取连续两字节，转换为short类型的值，字节顺序是低字节-高字节
inline unsigned short GetUShort(QByteArray &fData, int startPos)
{
unsigned char low = fData.at(startPos);
unsigned char high = fData.at(startPos + 1);
unsigned short st = low + (high * 256);
 
return st;
}
 
//把 Unicode编码的值转换为字符串
inline QString GetStrvalue(QByteArray &fData, int startPos, int len)
{
QString temp;
 
for (int i = 0 ;i < len ; i+=2)
{
unsigned short st = GetUShort(fData,startPos + i);
QChar ch = QChar(st);
 
temp.append(ch);
if (st == 0)
{
break;
}
}
 
return temp;
}
 
//临时保存结果
class CHanzi
{
public:
void SetPy(QByteArray &py)
{
m_py = py;
}
 
void SetHz(QByteArray &hz)
{
m_hz = GetStrvalue(hz,0,hz.size());
}
 
void Debug()
{
QString py = "";
 
for (int i = 0 ; i < m_py.length() ; i += 2)
{
py += pyList.at(GetUShort(m_py,i));
}
 
qDebug() << m_hz << ":" << py;
}
 
private:
QByteArray m_py;
QString m_hz;
};
 
//1、读取拼音表
inline void ReadPyTable(QByteArray &fData,QList<QString> &pyList)
{
int startPos = 0x1540;
 
QByteArray fFlag = fData.mid(startPos,4);
if( fData.data() == "/x9D/x01/x00/x00")
{
qDebug() << "读取词库拼音表失败！";
return;
}
 
int pos = 4;
while (true)
{
//取bit的索引号，用于表示一个拼音信息
unsigned short n = GetUShort(fData,startPos + pos);
pos += 2;
 
//取bit的拼音长度，字母数的倍
unsigned short len = GetUShort(fData,startPos + pos);
pos += 2;
 
//每个字母占bit,Unicode编码
QString py = GetStrvalue(fData,startPos + pos,len);
qDebug() << n << ":" << py;
pyList.push_back(py);
pos += len;
 
//zuo是最后一个拼音，处理完成
if (py == "zuo" || pos + startPos >= fData.length())
{
break;
}
}
}
 
//2、读取汉字表
inline void ReadHzTable(QByteArray &fData,QList<CHanzi> &hzList)
{
int startPos = 0x2628;
int pos = 0;
 
while (true)
{
//偏移加权,16bit,用于计算下一记录的位置
unsigned short offset = GetUShort(fData,startPos + pos) - 1;
pos += 2;
 
//拼音长度,16bit,每个拼音用一个bit的short表示,其值是拼音表的索引号
unsigned short len1 = GetUShort(fData,startPos + pos);
pos += 2;
 
CHanzi hanzi;
//取拼音索引信息
hanzi.SetPy(fData.mid(startPos + pos,len1));
pos += len1;
 
//索引之后是词组的长度，字节数，字数乘
unsigned short len2 = GetUShort(fData,startPos + pos);
pos += 2;
 
//Unicode编码，每个汉字bit
hanzi.SetHz(fData.mid(startPos + pos,len2));
hzList.push_back(hanzi);
pos += len2;
 
//到下个字的偏移位置，没有再细分析，可能是词频或者类似信息
pos += (12 + offset * (12 + len2 + 2));
if (pos + startPos >= fData.length())
{
break;
}
}
}
 
//3、读取名称、类别、信息、示例
inline void ReadFileInfo(QByteArray &fData)
{
QByteArray fFlag = fData.mid(0,8);
if(fFlag.data() == "/x40/x15/x00/x00/x44/x43/x53/x01")
{
qDebug() << "确认你选择的是搜狗(.scel)词库?";
return ;
}
 
QString strName;
strName = GetStrvalue(fData,0x130,128);
qDebug() << "词库名：" << strName;
 
strName = GetStrvalue(fData,0x338,128);
qDebug() << "词库类型：" << strName;
strName = GetStrvalue(fData,0x540,128);
qDebug() << "描述信息：" << strName;
strName = GetStrvalue(fData,0xd40,128);
qDebug() << "词库示例：" << strName;
}

标签：搜狗,QByteArray,int,scel,pos,unsigned,fData,词库,startPos
From： https://blog.51cto.com/u_15408625/6223825

程序猿偷懒神器之搜狗输入法-保姆级教程
因为我个人用搜狗输入法比较多，所以发现了一些搜狗输入法的快捷方式也是比较偷懒的。知道的略过，不知道的可以简单看一下。首先比较程序员查询数据库的句子比如 selecttop1*from 再比如 select*from 再比如 delete from 等等这些句子每天不知道需要打多少......
Ubuntu系统搜狗输入法无法在IDEA全局搜索(Ctrl+Shift+F)中输入中文
前提需要关闭输入法的Ctrl+Shift+F的中文简体和繁体切换快捷键清除IDEA缓存并重启File-->InvalidateCaches/Restart.........
sklearn miscellenous
StandardScalerinpreprocessing Standardizefeaturesbyremovingthemeanandscalingtounitvariance. scaler=StandardScaler()canhave.tranformwith_stdbool,default=True with_meanbool,default=True copybool,default=True>>>scale......
在线客服系统源码多商户支持词库
2022最新完美运营在线客服系统源码多商户支持词库Thinkphp5.1多客服商家版源码人工客服php防黑加固源码YID:4179684461803288......
Ubuntu安装搜狗输入法
最近完成一些任务需要用到Linux系统，所以为了后续使用的方便，这里介绍一下搜狗输入和QQ的安装方式一、安装搜狗输入法1.安装fcitxubuntu默认的是ibus框架而搜狗基于的是fc......
NLP-transformer-分词库用法
NLP-transformer-分词库用法参考文档： https://blog.csdn.net/orangerfun/article/details/1240894671pipinstalltransformer2下载专有的vocab.txt词典这个......
ubuntu20.04 搜狗输入法在clion上看不到候选词的解决方法
ubuntu升级到20.04后，clion里面输入中文，由于搜狗输入法候选词定位到了左下角，完全看不到候选词，非常蛋疼。瞎折腾后，发现设置搜狗候选词显示为竖排形式即可，默认是横排至少......
推荐系统[一]：超详细知识介绍，一份完整的入门指南，解答推荐系统相关算法流程、衡量指标和
1.推荐算法的初步理解如果说互联网的目标就是连接一切，那么推荐系统的作用就是建立更加有效率的连接，推荐系统可以更有效率的连接用户与内容和服务，节约了大量的时间和成本......
终于解决lazarus在linux使用搜狗输入法词组只能输入第一个字的Bug
之前的lazarus在linux下使用搜狗输入法输入词组时只能输入第一个字，经网友yoozaa和谐^_^提醒，今天终于解决词组输入的Bug。打开/lazarus/lcl/interfaces/gtk2/gtk2widgetset.......
39-IK分词自定义扩展词库
**1、安装nginx**由于html下面的所有东西都可以直接访问，所以我们可以在html下床架一个index.html（默认为首页），然后访问nginx，如下图然后我们在html下创建es文件夹，es文件夹......

搜狗细胞词库处理代码（可用于scel转txt）

相关文章

赞助商

阅读排行