首页 > 其他分享 >医学AI又一突破,微软开源生物医学NLP基准:BLURB

医学AI又一突破,微软开源生物医学NLP基准:BLURB

时间:2023-05-18 11:31:25浏览次数:54  
标签:NLP 训练 AI 基准 开源 生物医学 BLURB


By 超神经


内容概要:微软团队发布生物医学领域 NLP 基准,命名为 BLURB,已在 arxiv.org 中发布相关论文,并将其开源。


关键词:生物医学 自然语言处理 基准


微软的研究团队近日在 arxiv.org 发布了论文:《Domain-Specific Language Model Pretraining for Biomedical Natural Language Processing 生物医学特定领域的语言模型预训练,介绍并开源了一个能够用于生物医学领域 NLP 基准,并命名为 BLURB。


医学AI又一突破,微软开源生物医学NLP基准:BLURB_Domain

论文地址:https://arxiv.org/pdf/2007.15779.pdf


Biomedical Language Understanding and Reasoning Benchmark 的首字母缩写,即为 BLURB 的命名规则,翻译为生物医学语言理解和推理基准。


 医学 NLP 基准,BLURB 身负重任


BLURB 包括 13 个公开可用的数据集,涉及 6 个不同的任务。


为了避免偏重多可用数据集的任务,如命名实体识别(NER),BLURB 的报告和排名,将所有任务的宏观平均数作为主要得分。


医学AI又一突破,微软开源生物医学NLP基准:BLURB_数据集_02

图为 BLURB 中使用的数据集、以及

团队列出的训练、开发和测试中的实例数量


BLURB 排行榜是不分模型的。任何能够使用相同的训练和开发数据产生测试预测的系统都可以参与。


团队表示 BLURB 的主要目标是:降低生物医学NLP的准入门槛,帮助加快该领域的进展,能对社会和人类产生积极影响。


 生物医学 NLP :必须使用域内文本


研究已经表明生物医学 NLP 可以在医学领域提高数据集的准确性。但是在跨学科的数据集中,准确性又会大大降低。而由于不同医学领域之间(Domain)跨度较大,所以对于 NLP 的预训练会花费非常多的时间。


微软研究人员为了提升 NLP 的训练速度,通过对预训练和特定任务的微调,对生物医学 NLP 应用的影响进行了建模比较,从而评估最适合的预训练方法。


医学AI又一突破,微软开源生物医学NLP基准:BLURB_数据集_03

团队对域内文本与混合域外文本进行的对照


首先,团队创建了一个名为「生物医学语言理解与推理基准」(BLURB)的基准,该基准侧重于 PubMed 提供的出版物,涵盖了相似问题解答和文本提取之类的任务。


实验证明,这种对比的方法能够将 NLP 训练的速度提升数倍。


同时,为了鼓励对生物医学 NLP 的研究,研究人员创建了以 BLURB 基准为基准的排行榜,还开源了预训练模型。以求快速生物医学 NLP 能够早日投入使用。


访问 https://microsoft.github.io/BLURB/


—— 完 ——



医学AI又一突破,微软开源生物医学NLP基准:BLURB_Domain_04

标签:NLP,训练,AI,基准,开源,生物医学,BLURB
From: https://blog.51cto.com/u_16060192/6296179

相关文章

  • GitHub创建Github Action流水线来定时发送天气预报给email
     1、基本原理curlwttr.incurlwttr.in/Shanghaicurlwttr.in/wuhan   2、参考文章基于GITHUBACTION的定时任务,真香!https://blog.csdn.net/qq_40748336/article/details/110749375上文参考的文章GitHubActions入门教程_阮一峰http://www.ruanyifeng.com/blo......
  • BFT 最前线 | WPS AI接入四大办公软件;OpenAI准备开源新模型;OpenAI CEO首次出证国会;百
    原创|文BFT机器人AI视界TECHNOLOGYNEWS01WPSAI宣布接入文字、表格、PPT、PDF四大办公软件,AI能力大升级5月16日,金山办公旗下人工智能应用WPSAI,宣布四大办公组件全面升级:包括文字、表格、PPT和PDF,相比4月只有文字组件升级,这次升级涵盖了更广范围,并展示了WPSAI在阅读理解和人......
  • AI 绘画 - 如何 0 成本在线体验 AI 绘画的魅力
    要想体验AI绘画,比较流行的三种方式是Midjourney、OpenAI的DALL·E2以及StableDiffusion。而Midjourney已经停止免费试用,且使用价格不太便宜,DALL·E2也是一样价格不菲。只有StableDiffusion作为一款开源模型可以自建,也有各种白嫖的方式比如Google的Colab,阿里云......
  • AI 0基础学习,名词解析
    AI学习过程中,常见的名词解析损失函数(lossfunction)数据集中所有样本的损失均值,能够量化目标的实际值与预测值之间的差距,最小化损失是模型的优化目标,实现损失最小化的方法称为优化算法,也称为寻解算法多项分布(multinomialdistribution)贝叶斯定理(Bayes’theorem)方差标准差的......
  • 非AI文生图,献丑了
    多图预警!大家好,我是DOM哥也许你会好奇上面的这几张图片是怎么生成的,接下来我就开始隆重介绍这款文生图工具当然,并非AI的那个文生图啦预览地址:https://dombro.site/tools#/text-image非常简洁的界面啊!左边是预览区,右边是配置区图片模式呢,是能把一张图片变成由文字组......
  • 15、BIO、NIO、AIO 有什么区别?
    (1)同步阻塞BIO一个连接一个线程。JDK1.4之前,建立网络连接的时候采用BIO模式,先在启动服务端socket,然后启动客户端socket,对服务端通信,客户端发送请求后,先判断服务端是否有线程响应,如果没有则会一直等待或者遭到拒绝请求,如果有的话会等待请求结束后才继续执行。(2)同步非阻塞NIONIO......
  • 终于通过啦! 我拿到了阿里云【通义千问】大模型AI测试体验资格啦! 中国也有自己的Cha
    ......
  • 动手学深度学习(十二) NLP循环神经网络进阶
    GRURNN存在的问题:梯度较容易出现衰减或爆炸(BPTT)⻔控循环神经⽹络:捕捉时间序列中时间步距离较⼤的依赖关系RNN:ImageNameGRU:ImageName•重置⻔有助于捕捉时间序列⾥短期的依赖关系;•更新⻔有助于捕捉时间序列⾥⻓期的依赖关系。载入数据集importos......
  • Linux多进程07-wait和waitpid
    进程回收在每个进程退出的时候,内核释放该进程所有的资源、包括打开的文件、占用的内存等。但是仍然为其保留一定的信息,这些信息主要主要指进程控制块PCB的信息(包括进程号、退出状态、运行时间等)。父进程可以通过调用wait或waitpid得到它的退出状态同时彻底清除掉这个进程。......
  • Linux多进程13-kill,raise,abort函数
    #include<sys/types.h>#include<signal.h>intkill(pid_tpid,intsig);-功能:给某个进程pid,发送某个信号sig-参数:-pid:>0:将信号发送给指定的进程=0:将信号发送给当前的进程组=-1:将信号发送给每一个......