| 模型 | 参数数量 |
|-----------------------------|-----------------------------|
| AlexNet | 约 60 million |
| VGG16 | 约 138 million |
| ResNet50 | 约 25 million |
| InceptionV3 | 约 23 million |
| MobileNetV2 | 约 3.5 million |
| EfficientNetB0 | 约 5 million |
图像识别
-----------------------------------------------------------------
| BERT (Base) | 约 110 million |
| GPT-1 | 约 110 million |
| GPT-2 (1.5 billion 参数) | 约 1.5 billion |
| GPT-3 (175 billion 参数) | 约 175 billion |
| GPT-3.5 (175 billion参数) | 约 175 billion |
NLP
-----------------------------------------------------------------
1. BERT (Bidirectional Encoder Representations from Transformers):
参数数量:约 110 million(BERT Base)
简介:BERT 是一种基于 Transformer 模型的预训练模型,通过双向上下文表示学习在各种 NLP 任务中取得了显著的成功。
2. ELMo (Embeddings from Language Models):
参数数量:依赖于具体配置,通常较大
简介:ELMo 通过组合不同层次的语言模型来生成词嵌入,具有上下文感知性。
3. Transformer-XL:
参数数量:依赖于具体配置,通常较大
简介:这是 Transformer 模型的变体,专注于处理长文本序列,并引入了相对位置编码。
4. XLNet:
参数数量:依赖于具体配置,通常较大
简介:XLNet 结合了 Transformer 和自回归模型的优点,引入了“permutation language modeling”来捕捉全局关系。
5. RoBERTa (Robustly optimized BERT approach):
参数数量:约 125 million
简介:RoBERTa 是对 BERT 的一种改进,通过修改训练动态和采样策略来提高性能。
6. GPT-2 (Generative Pre-trained Transformer 2):
参数数量:约 1.5 billion(GPT-2 Small)
简介:GPT-2 是一个自回归语言模型,采用了 Transformer 架构,被设计用于生成文本。