DISCOVERYBENCH: Towards Data-Driven Discovery with Large Language Models

时间：2024-11-20 15:18:04浏览次数：3

标签：发现 Towards Language DISCOVERYBENCH Large 任务 LLM 数据评估

本文是LLM系列文章，针对《DISCOVERYBENCH: Towards Data-Driven Discovery with Large Language Models》的翻译。

DISCOVERYBENCH：使用大型语言模型实现数据驱动的发现

摘要
1 引言
2 相关工作
3 公式化
4 DISCOVERYBENCH
5 实验
6 结论

摘要

使用大型语言模型（LLM）的代码生成、函数调用和数据分析的快速发展是否有助于仅从一组提供的数据集中自动搜索和验证假设？为了评估这个问题，我们提出了 DISCOVERYBENCH，这是第一个将数据驱动发现的多步骤过程正式化的综合基准。该基准测试旨在系统地评估当前模型在发现任务中的功能，并为改进这些任务提供有用的资源。我们的基准测试包含跨 6 个不同领域（例如社会学和工程学）收集的 264 个任务，通过从已发表的论文中手动导出发现工作流程来估计研究人员面临的实际挑战，其中每个任务都由数据集、其元数据和自然语言的发现目标定义。我们还提供 903 个综合任务，以对任务复杂性进行生成评估。此外，我们数据驱动发现的结构化形式支持基于 facet 的评估，从而为不同的故障模式提供有用的见解。我们在 DISCOVERYBENCH 上使用开放和封闭 LLM 作为基线评估了几种流行的基于 LLM 的推理框架，发现即使是最好的系统也只有 25% 的分数。因此，我们的基准测试说明了自主数据驱动发现的挑战，并成为社区取得进步的宝贵资源。

1 引言

2 相关工作

标签：发现,Towards,Language,DISCOVERYBENCH,Large,任务,LLM,数据,评估
From： https://blog.csdn.net/c_cpp_csharp/article/details/143773278

RT-Surv: Improving Mortality Prediction After Radiotherapy with Large Language M
本文是LLM系列文章，针对《RT-Surv:ImprovingMortalityPredictionAfterRadiotherapywithLargeLanguageModelStructuringofLarge-ScaleUnstructuredElectronicHealthRecords》的翻译。RT-Surv：通过大规模非结构化电子健康记录的大型语言模型结构改进放疗后死......
Impact of Non-Standard Unicode Characters on Security and Comprehension in Large
本文是LLM系列文章，针对《ImpactofNon-StandardUnicodeCharactersonSecurityandComprehensioninLargeLanguageModels》的翻译。非标准Unicode字符对大型语言模型中安全性和理解性的影响摘要1引言2背景和相关工作3方法4对大语言模型的影响5跨语......
NetCore 3.1 大文件上传报错--413 Payload Too Large
十年河东，十年河西，莫欺少年穷学无止境。，精益求精1、报错信息如下：RequestURL:https://xx.com/webapi/api/ad_video/UploadRequestMethod:POSTStatusCode:413PayloadTooLargeRemoteAddress:106.15.105.219:443ReferrerPolicy:strict-origin-when-cross-origin......
大型语言模型综述 A Survey of Large Language Models
文章源自2303.18223(arxiv.org)如有侵权，请通知下线这是一篇关于大语言模型（LLMs）的综述论文，主要介绍了LLMs的发展历程、技术架构、训练方法、应用领域以及面临的挑战等方面，具体内容如下：摘要——自从图灵测试在20世纪50年代被提出以来，人类已经探索了机器对语言智能的......
基于大语言模型的自治代理综述《A Survey on Large Language Model based Autonomous
图2基于LLM的自治代理架构设计的统一框架基于大语言模型的自治代理综述《ASurveyonLargeLanguageModelbasedAutonomousAgents》自治代理长期以来一直是学术界和工业界的研究热点。以前的研究往往侧重于在孤立的环境中训练知识有限的代理，这与人类的学习过程存......
Uncertainty of Thoughts: Uncertainty-Aware Planning Enhances Information Seeking
目录概UoT代码HuZ.,LiuC.,FengX.,ZhaoY.,NgS.,LuuA.T.,HeJ.,KohP.W.andHooiB.Uncertaintyofthoughts:Uncertainty-awareplanningenhancesinformationseekinginlargelanguagemodels.NeurIPS,2024.概通过判断问题所导致的不确定性降低程度来......
运维开发之脚本语言（Script Language for Operations and Development）
......
E. Klee's SUPER DUPER LARGE Array!!!
E.Klee'sSUPERDUPERLARGEArray!!!#Klee'sSUPERDUPERLARGEArray!!!题面翻译题目大意你将得到一个长度为的序列，请求出的值，其中输入格式本题存在多组测试数据。第一行为一个正整数（），表示数据组数。对于每组数据分别给出用空格隔开的两个整数与（）。输出格式对......
二分——E. Klee's SUPER DUPER LARGE Array!!!
题目Klee有一个数组a长度n包含整数[K,K+1,...K+n]按此顺序。Klee想要选择一个索引i（1<=i<=n）,使得x=|a1+a2+...+ai-ai+1-...-an|最小化。请注意，对于任意整数z，|z|表示x.输出x.输入第一行包含t(1≤t≤1e4）—测试用例的数量。每个测试用例包含两个整数n和k(2≤n,k≤109）—数......
【C Language Program】预处理指令
学习目标：掌握C语言的预处理指令以及使用学习步骤：预处理指令的概括预处理指令的使用总结主要内容：预处理指令的概括含义指令导入模块#include宏定义#define#undef条件编译#if#else#elif#endif条件定义#ifdef#ifndef预处理指令的使用#include#include用于在......

DISCOVERYBENCH: Towards Data-Driven Discovery with Large Language Models

DISCOVERYBENCH：使用大型语言模型实现数据驱动的发现

摘要

1 引言

2 相关工作

相关文章

赞助商

阅读排行