1.数据量级
gpt-4 1750亿参数
2、不同自然语言训练表现不同
中文较差
3、数据来源问题
(1)中文网站优质内容少,且需要付费,优质平台消亡
(2)很多现存平台内容质量差,如csdn
(3)水军、自媒体、营销号和饭圈太多,豆瓣,贴吧,微博小红书
(4)互联网大厂行业竞争与垄断,用户数据生态封闭
4、中文人工智能的未来
(1)最大的难点在于获取数据
标签:优质,语言,模型,中文,中文网站,获取数据,数据 From: https://www.cnblogs.com/wanlitongfeng/p/17277785.html