utterance

2024-07-01开源项目相关：ChatGPT学习过程
大规模无标注数据预训练：ChatGPT首先使用大规模的无标注数据进行预训练。例如，它可能使用了8.5亿对话对来学习对话的表达与交互方式。这一步主要依赖Transformer等神经网络结构，通过预测下一个词来学习语言的统计规律和语义知识。自监督学习：在预训练过程中，ChatGPT将对话划分为utt