词汇
WE(Word Embedding): 词嵌入
PE(Positional Encoding): 位置编码
统计模型和大数据的本源是由"MI(移动互联网)"和"IoT(万物互联)"决定的
1 真正改驱“改革生产生活习惯”的是“国家政策”与“政府”。
新经济的产生是以“改革生产生活习惯”为前提.
生产生活的习惯改变:
行政办公、经商、工作和生活 都必须用到智能设备、智能信息系统。
- 国家教育和培训为整个行业提供充分的人力资源:
开设新课程, 并且教育和培训出大量的AI人工智能、ML机器学习、DA数据分析、SW软件与HW硬件人才; - 国家政策的产业引导朝"智能化、信息化、自动化"升级换代
即新经济的一个大方向. - 产业和民间资本的投融资促进自然经济的蓬勃发展。
2 人人都使用移动智能终端(智能手机、平板、电脑和其他设备)和智能信息系统
- 大量的真实有效数据,是统计模型的必要条件。
而大多数人的生活, 都在使用这些智能设备. - 使得每个人都产生“大量的数据”, 为整个行业提供“实际数据";
日夜产生源源不断的真实数据。
统计概率模型的本质决定PE:
- 有“预训练”和“预测应用”两个阶段;
预测应用阶段的“规律与可信可靠度”, 由“预训练阶段的大量数据”与“模型本身”决定。 - “预训练的'大量数据'”是“上确界”:
统计概率模型(包括transformer), 预测时“用到的规律”, 都是由“模型”总结“训练时大量数据”得到的统计规律。 - “模型本身”的选择设计(统计分析)与“实现”也非常重要
- 首先"模型本身"要有"够多参数与够高精度"(NN"深度神经网络"要有足够的"深度")
学习“大量数据的规律”才能保障“任何模型”的有效性。 - 模型本身选取的“统计方法”和“实现”是研究人员决定
例如, 常用的Linear Regression模型, CNN卷积模型于图像处理,LSTM/Transformer于NLP, ...
- 首先"模型本身"要有"够多参数与够高精度"(NN"深度神经网络"要有足够的"深度")
Transformer的\(\large PE\)是统计概率模型的一部分
1 预训练阶段: Transformer实际用的是复合\(\large WE\ +\ PE\)的新特征.
2 预训练阶段: 复合\(\large WE\ +\ PE\)的新特征的有效性
*
3 举例: 预训练数据上的 3个\(\large WE\) 与 3个\(\large PE\) 可组合出9个不同的复合新特征实例.