BMES => B-begin:词语开始、M-middle:词语中间、E-end:词语结束、S-single:单独成词
训练的过程,就是求三个矩阵的过程
- 初始概率矩阵
- 转移概率矩阵
- 发射矩阵
每个字有4种可能性,上图中有7个字,就是 4^7 种可能性
维特比算法,从众多路径中,挑出最优的那条,他和隐马尔可夫没有强关联
初始概率矩阵
今天 天气 真 不错。 麻辣肥牛 好吃 ! 我 喜欢 吃 好吃 的! |
=> |
BE BE S BE S (标点也是一个独立的S) BMME BE S S BE S BE S S |
统计每篇文章(每行)第一个字是什么状态(统计的数值都是频次)
B | M | S | E |
---|---|---|---|
2 | 0 | 1 | 0 |
如果 M、E 有值,那代码 100% 是写错了,因为 第一个字,不可能是中间,也不可能是结束
根据频率得到概率
B | M | S | E |
---|---|---|---|
0.667 | 0 | 0.333 | 0 |
2/3 = 0.667
1/3 = 0.333
转移概率矩阵
发射矩阵
https://www.bilibili.com/video/BV1aP4y147gA?p=4
标签:概率,词语,--,矩阵,0.333,HMM,马尔可夫,0.667,HanLP From: https://www.cnblogs.com/vipsoft/p/17899569.html