-
原始的BERT有两个版本,其中基本模型有1.1亿个参数,大模型有3.4亿个参数。
-
在预训练BERT之后,我们可以用它来表示单个文本、文本对或其中的任何词元。
-
在实验中,同一个词元在不同的上下文中具有不同的BERT表示。这支持BERT表示是上下文敏感的。
原始的BERT有两个版本,其中基本模型有1.1亿个参数,大模型有3.4亿个参数。
在预训练BERT之后,我们可以用它来表示单个文本、文本对或其中的任何词元。
在实验中,同一个词元在不同的上下文中具有不同的BERT表示。这支持BERT表示是上下文敏感的。