首页 > 其他分享 >WeLM微信自研NLP大规模语言模型

WeLM微信自研NLP大规模语言模型

时间:2023-03-04 10:33:25浏览次数:54  
标签:NLP 自研 微信 模型 WeLM AI API

2022年9月份微信AI推出自研NLP大规模语言模型WeLM ,该模型是一个尺寸合理的中文模型,能够在零样本以及少样本的情境下完成包多语言任务在内的多种NLP任务。openai的chatgpt是在2022年10月底发布的。在国内以中文为核心的大规模语言模型领域,微信AI推出的百亿级别大规模语言模型WeLM,是大模型百家争鸣中的新选手。 大规模语言模型WeLM简介

 

什么是WeLM

WeLM 是一个非常擅长理解和生成文本的通用语言模型,是微信AI团队推出的自研NLP大规模语言模型。微信AI团队提供了WeLM的体验网页和API接口,感兴趣可前往 https://welm.weixin.qq.com/docs/ 体验和申请API接口,相关技术论文已发布于论文预印本网站arXiv,点击查看 《WeLM: A Well-Read Pre-trained Language Model for Chinese》。 

大规模语言模型WeLM论文发布

WeLM有什么用途

WeLM 是一个非常擅长理解和生成文本的通用语言模型。你可以通过调用 WeLM 的 API 解决多种多样涉及文本的任务。例如给猫咪取名字、一个简单的问答。你也可以将 WeLM API 用于其他任务(包括且不限于对话、文本风格转换、阅读理解、翻译等)

据介绍,WeLM是一个百亿级别的中文模型,能够在零样本以及少样本的情境下完成包括对话-采访、阅读理解、翻译、改写、续写、多语言阅读理解在内的多种NLP任务,并具备记忆能力、自我纠正和检查能力。并且,WeLM具有尺寸合理的优势,在14项中文NLP任务上,WeLM的整体表现超出了所有同大小的模型,甚至能够匹配比它大25倍的模型。

WeLM任务示例

WeLM改写示例

以被普遍认为是更困难的NLP任务的文本风格转换(改写)为例,尽管用户给出的5个例子和最后需要生成的例子并没有重合的风格转换类型,但WeLM拥有出色的举一反三能力,通过学习少量的文本转换例子即可达到对任意类型的文本转换。并且,WeLM在对话-采访、阅读理解、翻译、续写等多个中文文本生成任务中有着同样优异的表现。

WeLM改写示例

 

 

WeLM翻译示例

除了具备强大的中文理解和生成能力,WeLM还拥有处理跨多语言(中英日)任务的能力。以“微信 AI 推出の WeLM 是一个 language model that いろいろなtaskをperformができる”这句混合中日英三国语言的文本为例,WeLM的翻译相对更加精准。 WeLM翻译示例

 

而且,在进一步微调后,WeLM可以拥有更好的零样本学习能力,可以根据场景拥有更好的表现。目前,WeLM已经部署应用于微信视频号的部分场景中,未来在进一步优化后还将应用于更多微信应用场景。

同时,为进一步推动WeLM成为真正能落地且实用的工具,微信AI团队还发布了一个供用户体验的交互式网页PlayGround,并开放了用于访问WeLM的API接口。

WeLM体验地址

https://welm.weixin.qq.com/docs/playground/

WeLM API申请地址

https://docs.qq.com/form/page/DUW1YVVJNbHpzV2No#/fill

WeLM API文档

https://welm.weixin.qq.com/docs/api/

 

目前,用户可通过https://welm.weixin.qq.com/docs/体验WeLM的相关能力,并通过调整配置以实现更贴近的文本生成效果。对于想接入WeLM的开发者,也可通过https://welm.weixin.qq.com/docs/api/填写问卷后获得WeLM的API Token并调用相应接口,将WeLM部署在自己的应用上。

具有极强知识储备,已在14项中文NLP任务展示能力

据介绍,在纯Encoder(Bert)、纯Decoder(GPT) 以及Encoder-Decode(T5) 结构等主流NLP模型路径的选择上,WeLM和GPT3、Google PaLM一样,选择了自回归模型的路线。同时,考虑到不同的用户对于模型效果和推理延迟会有考量或者取舍(trade-off),微信AI的WeLM训练了1.3B、2.7B以及10B三个版本的模型,满足不同用户的调用需求。

同时,在训练数据上,微信AI团队希望构建一个足够丰富、足够干净、足够公平的数据集,为此研究团队从Common Crawl下载了近两年的中文网页数据,和大量的书籍、新闻。为了增强专业能力,微信AI团队还在数据集补充了知识密集的论坛数据和一些学术论文,搜集完成后的全量数据10TB,其中包含了750G的英文数据,并保留了部分日韩文。

随后,通过规则过滤和额外训练的二分类fasttext模型,以及对测评相关数据的去除,数据集最终处理完的数据量为262B tokens。为了更好的平衡各个数据源的比重,微信AI团队也对数据进行不同比重的采样,最终,整体数据集的Topic分布相比 Common Crawl更加平滑。

 WeLM数据集处理

 

在与业界同级别大模型的对比测试中,WeLM表现出极强的知识储备,在14项中文NLP任务上,WeLM 的整体表现超出了所有同大小的模型,甚至能够匹配比它大25倍的模型。同时,WeLM还有出色的多语言理解能力,用户的输入可以在中日英上丝滑切换。

大模型对比测试

相关文章

ChatGPT API

参考资料

https://welm.weixin.qq.com/docs/

https://new.qq.com/rain/a/20221013A02P8400

标签:NLP,自研,微信,模型,WeLM,AI,API
From: https://www.cnblogs.com/ytkah/p/welm.html

相关文章

  • 微信小程序组件页面方法
    //组件使用Component声明Component({//properties:用来接收父组件传递的内容,类似vue中propsproperties:{title:{type:String,value:'默认......
  • 微信又变天!
    大家好,我是良许。不知道大家有没发现,过去两周,微信又双叒改版了!这个改版,喜欢看公众号的小伙伴可能会不习惯,作为公众号的作者更为难受,用一个变天来形容都不为过。微信又搞......
  • 微信又变天
    大家好,我是良许。不知道大家有没发现,过去两周,微信又双叒改版了!这个改版,喜欢看公众号的小伙伴可能会不习惯,作为公众号的作者更为难受,用一个变天来形容都不为过。微信又搞......
  • Tapdata Cloud 基础课:新功能详解之「微信告警」,更及时的告警通知渠道
    【前言】作为中国的“Fivetran/Airbyte”,Tapdata是一个以低延迟数据移动为核心优势构建的现代数据平台,内置60+数据连接器,拥有稳定的实时采集和传输能力、秒级响应的......
  • 微信公众号跳转小程序 wx-open-launch-weapp,在vue3+vite中使用 (多个问题集锦)
    写这篇文章为了解决现在没有一个合集,所以我参考其他文档,及自己的测试最后得出完整的方案1.公众号后台关联小程序要求已认证的服务号,在服务号中关联要跳转的小程序配置......
  • 外部浏览器中H5跳转微信小程序方法
    H5网页通过URLScheme进行跳转URLScheme的获取方法有两种1.在需要跳转的小程序的小程序管理后台中通过工具直接生成,该方法生成的URLScheme不能实时指定跳转小程序的......
  • NLP-transformer-分词库用法
    NLP-transformer-分词库用法 参考文档: https://blog.csdn.net/orangerfun/article/details/1240894671pipinstalltransformer2下载专有的vocab.txt词典这个......
  • 从NLP视角看电视剧《狂飙》,会有什么发现?
    目录1、背景2、数据获取3、文本分析与可视化3.1短评数据预处理3.2词云图可视化3.3top关键词共现矩阵网络3.4《狂飙》演职员图谱构建4、短评相关数据分析与可视化5、总......
  • 微信H5开发那些事儿
    之前老是在做微信公众平台H5的开发,时间长了不做感觉会忘记,大致的记录一下步骤1、先在微信公众平后台配置IP白名单以及 域名白名单。  如果没有配置白名单我们请求......
  • 微信二维码生产的两种方式
    https://developers.weixin.qq.com/miniprogram/dev/OpenApiDoc/qrcode-link/url-link/generateUrlLink.htmlhttps://developers.weixin.qq.com/miniprogram/introduction......