首页 > 其他分享 >中文句子标点符号预测

中文句子标点符号预测

时间:2022-10-20 19:34:32浏览次数:87  
标签:中文 ids token result input 句子 sent 标点符号

中文句子标点符号预测

https://github.com/jiangnanboy/punctuation_prediction

对一个没有标点符号的句子预测标点,主要预测逗号、句号以及问号(,。?)

给句子添加标点符号

请下载模型 [pun_model.onnx],将模型放入model/ernie_onnx目录下。

链接:https://pan.baidu.com/s/1l62YmuU3giNPkT2TonZRKA 提取码:sy12

def onnx_infer(sess, tokenizer, sent):
    tokenized_tokens = tokenizer(sent)
    input_ids = np.array([tokenized_tokens['input_ids']], dtype=np.int64)
    token_type_ids = np.array([tokenized_tokens['token_type_ids']], dtype=np.int64)
    result = sess.run(
        output_names=None,
        input_feed={"input_ids": input_ids,
                    "token_type_ids": token_type_ids}
    )[0]
    return result, input_ids

输出结果:

sent: 从小我有个梦想这个梦想是我想当一个科学家 -> result: 从小我有个梦想,这个梦想是我想当一个科学家。
------------------------------------------------
sent: 中国的首都是北京我爱我的祖国 -> result: 中国的首都是北京。我爱我的祖国。
------------------------------------------------
sent: 早上起来穿衣吃饭后我就上学了在路上碰见了许久不见的一个朋友 -> result: 早上起来,穿衣吃饭后,我就上学了,在路上碰见了许久不见的一个朋友。


标签:中文,ids,token,result,input,句子,sent,标点符号
From: https://www.cnblogs.com/little-horse/p/16810990.html

相关文章