首页 > 其他分享 >A COMPREHENSIVE SURVEY ON EVALUATING LARGE LANGUAGE MODEL APPLICATIONS IN THE MEDICAL INDUSTRY

A COMPREHENSIVE SURVEY ON EVALUATING LARGE LANGUAGE MODEL APPLICATIONS IN THE MEDICAL INDUSTRY

时间:2024-09-08 11:24:13浏览次数:16  
标签:医疗 LANGUAGE COMPREHENSIVE MEDICAL 医疗保健 医学 LLM 模型 评估

本文是LLM系列文章,针对《A COMPREHENSIVE SURVEY ON EVALUATING LARGE LANGUAGE MODEL APPLICATIONS IN THE MEDICAL INDUSTRY》的翻译。

关于评估医疗行业中大型语言模型应用程序的综合调查

摘要

自 2017 年 Transformer 架构问世以来,GPT 和 BERT 等大型语言模型 (LLM) 已经取得了长足的发展,凭借其在语言理解和生成方面的高级能力影响了各个行业。这些模型已显示出改变医疗领域的潜力,凸显了专门的评估框架以确保其有效和合乎道德的部署的必要性。这项全面的调查描述了 LLM 在医疗保健领域的广泛应用和必要评估,强调了实证验证的迫切需求,以充分利用它们在增强医疗保健结果方面的能力。
我们的调查旨在提供对 LLM 在临床环境、医学文本数据处理、研究、教育和公共卫生意识中的应用的深入分析。我们首先探讨了 LLM 在各种医疗应用中的作用,详细介绍了它们根据临床诊断、医学文本数据处理、信息检索、数据分析和教育内容生成等任务中的表现进行评估。后续部分对所采用的评估方法和指标进行了全面讨论,包括模型、评估器和比较实验。我们进一步检查了这些评估中使用的基准和数据集,为问答、总结、信息提取、生物信息学、信息检索和一般综合基准等任务提供了基准的分类描述。这种结构确保了对 LLM 在医学领域的有效性、准确性、可用性和道德一致性的评估方式的透彻理解。
通过这项调查,我们的目标是让医疗保健专业人员、研究人员和政策制定者全面了解 LLM 在医疗应用中

标签:医疗,LANGUAGE,COMPREHENSIVE,MEDICAL,医疗保健,医学,LLM,模型,评估
From: https://blog.csdn.net/c_cpp_csharp/article/details/142023943

相关文章

  • 6、关于Medical-Transformer
    6、关于Medical-TransformerAxial-Attention原文链接:Axial-attentionMedical-Transformer原文链接:Medical-TransformerMedical-Transformer实际上是Axial-Attention在医学领域的运行,只是在这基础上增加了门机制,实际上也就是在原来Axial-attention基础之上增加权重机制,虚......
  • (多模态)MedM2G: Unifying Medical Multi-Modal Generation via CrossGuided Diffusion
    1.摘要医学生成模型以其高质量的样本生成能力而闻名,加速了医学应用的快速增长。然而,目前的研究主要集中在针对不同医疗任务的单独医学生成模型上,受限于医学多模态知识的不足,制约了医学的综合诊断。在本文中,我们提出MedM2G,即医学多模态生成框架,其关键创新是在统一模型内对齐......
  • PoLLMgraph: Unraveling Hallucinations in Large Language Models via State Transit
    本文是LLM系列文章,针对《PoLLMgraph:UnravelingHallucinationsinLargeLanguageModelsviaStateTransitionDynamics》的翻译。PoLLMgraph:通过状态转换动力学揭示大型语言模型中的幻觉摘要1引言2相关工作3PoLLMgraph4实验5结论局限性摘要尽管近......
  • Social Skill Training with Large Language Models
    本文是LLM系列文章,针对《SocialSkillTrainingwithLargeLanguageModels》的翻译。大型语言模型的社交技能训练摘要1引言2角色和模拟的LLM3APAM框架4安全部署愿景5技术挑战6评估7讨论8总结与展望摘要人们依靠解决冲突等社交技能进行有效沟通,......
  • BAdam A Memory Efficient Full Parameter Optimization Method for Large Language M
    目录概BAdam代码LuoQ.,YuH.andLiX.BAdam:Amemoryefficientfullparameteroptimizationmethodforlargelanguagemodels.arXivpreprint,2024.概本文介绍了一种Blockcorrdinatedescent(BCD)的训练方式.BAdam当模型本身很大的时候,训练它会成为一......
  • SwapPrompt(论文解读): Test-Time Prompt Adaptation for Vision-Language Models
    2023(NeuralIPS)摘要测试自适应(TTA)是无监督域自适应(UDA)中一种特殊且实用的设置,它允许源域中的预训练模型去适应另一个目标域中的未标记测试数据。为了避免计算密集型的骨干网络微调过程,因此利用预训练视觉语言模型(例CLIP、CoOp)zero-shot的泛化潜力,仅对未见测试域的运行时......
  • SAM 2最新应用落地!牛津大学团队发布Medical SAM 2,刷新医学图像分割SOTA榜
    2023年4月,Meta公司发布了SegmentAnythingModel(SAM),号称能够「分割一切」,犹如一颗重磅炸弹震荡了整个计算机视觉领域,甚至被很多人看作是颠覆传统CV任务的研究。时隔1年多,Meta再度发布里程碑式更新——SAM2能够为静态图像和动态视频内容提供实时、可提示的对......
  • MIXLORA: Enhancing Large Language Models Fine-Tuning with LoRA-based Mixture of
    本文是LLM系列文章,针对《MIXLORA:EnhancingLargeLanguageModelsFine-TuningwithLoRA-basedMixtureofExperts》的翻译。MIXLORA:通过基于LoRA的专家混合来增强大型语言模型的微调摘要1引言2相关工作3MIXLORA4实验5结论摘要微调大型语言模型(LLM)......
  • LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large
    本文是LLM系列文章,针对《LogicBench:TowardsSystematicEvaluationofLogicalReasoningAbilityofLargeLanguageModels》的翻译。LogicBench:大型语言模型逻辑推理能力的系统评价摘要1引言2相关工作3LogicBench4结果和分析5结论局限性摘要最近......