COIG-CQIA 由中科院深圳先进技术研究院、北京大学等联合发布高质量多样化中文指令微调数据集

时间：2024-09-06 16:55:29浏览次数：16

标签：中文中科院 CQIA 微调搜索引擎 COIG 指令数据

在这里插入图片描述

2024-03-26 , 由中国科学院深圳先进技术研究院、北京大学、中国科学技术大学等联合发布数据集COIG-CQIA，这是一个高质量的中文指令微调数据集，包括问答和文章，以提供与人类互动一致的指令微调数据。

一、目前遇到困难和挑战

1、语言和文化差异：

中文具有独特的语言特征和文化深度，与英文存在显著差异，为指令微调任务带来了挑战。

2、数据集局限性：

现有的中文指令微调数据集要么规模有限，要么质量不高。

目前中文指令调优数据集被分类为三种：

来源于英文数据集的转换：通过将英文数据集翻译成中文得到的。
由LLM生成的数据集：通过大型语言模型（LLM）自动生成，包括但不限于基于模版的生成、通过给定的上下文提示生产文本等，为各种自然语言处理（NLP）任务提供训练数据。
自生成的指令调优数据集：通过大型语言模型（LLM）自动生成，模型被用来生成指令，然后模型再次被用来生成这些指令的答案，专门用于指令调优。
3、数据质量：

自动生成的数据集可能包含噪声数据，导致模型产生幻觉（hallucination）。

4、多样性和覆盖范围：

需要构建一个覆盖多种领域、具有多样性的高质量数据集，以确保模型能够理解和执行各种类型的中文指令。

5、对齐人类意图：

如何确保模型的训练目标与人类的意图一致，从而让模型能够准确理解和执行人类指令。

COIG-CQIA：
高质量的中文指令微调数据集有助于提升LLMs在中文自然语言处理（NLP）任务中的表现。

数据集地址：高质量中文指令微调数据集

二、数据集介绍

COIG-CQIA一个高质量、多样化的中文指令微调数据集。数据集由多个子集组成，每个子集针对不同的指令类型和应用场景。

数据集来源涵盖了中国互联网上社交媒体、百科全书、内容创作平台、考试等多个领域。包括问答社区、维基百科、考试题目和现有的NLP数据集。收集到的数据，通过人工审核和自动化工具相结合的方式，对数据进行清洗和重组，以确保数据集的质量。

三、数据集应用

提升搜索结果的相关性：搜索引擎用这个数据集训练后，能更好地理解用户的搜索意图，提供更准确、更相关的搜索结果。
比如想要了解最新的科技动态，就是特别火的“量子计算”是啥玩意儿。

以往：打开搜索引擎，输入“量子计算”。结果，搜索引擎给他列出了一大堆结果，有学术论文、购物网站卖量子计算相关书籍的、甚至还有量子计算游戏的。我们需要慢慢翻，找了半天才找到几个靠谱的科普文章，费时又费力。

后来，搜索引擎用上了COIG-CQIA数据集进行了升级。输入了“量子计算”，但这次，搜索引擎马上就明白了我想要的是科普知识，不是购物链接或者游戏。搜索引擎直接给我展示了几个最新的、通俗易懂的科普文章，还有视频讲解。点进去一看，嘿，这不正是我想要的嘛！文章讲得深入浅出，视频也生动有趣。

而且，因为搜索引擎更懂我了，它还推荐了几篇关于量子计算在实际应用中的文章，比如在加密、药物研发等领域的应用。

标签：中文,中科院,CQIA,微调,搜索引擎,COIG,指令,数据
From： https://blog.csdn.net/u011559552/article/details/141963743

【计算机方向】IF:10.7，发展势头迅猛，中科院二区TOP神刊！
期刊解析 ......
Diffusion反馈强势助力CLIP秒变火眼金睛：北京智源研究院、中科院自动化所联合推出DIVA
前言本文分享论文DiffusionFeedbackHelpsCLIPSeeBetter，专注于通过自监督学习范式解决CLIP无法区分细粒度视觉细节的问题。欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。本文转载自我爱计算机视觉仅用于学术分享，若侵权......
【计算机方向】期刊快报！五本中科院二区期刊对比，国人发文友好，好评不断！
本期将为您带来五本计算机SCI妥妥毕业神刊！ARTIFICIALINTELLIGENCE INTERNATIONALJOURNALOFINTELLIGENTSYSTEMS ACMTRANSACTIONSONINFORMATIONSYSTEMSJournalofKingSaudUniversity-ComputerandInformationSciences EgyptianInformaticsJ......
【计算机方向】五本中科院四区王刊，“又快又水”，一投即中！
本期将为您带来五本计算机SCI妥妥毕业神刊！JOURNALOFEXPERIMENTAL&THEORETICALARTIFICIALINTELLIGENCE JOURNALOFINTELLIGENT&FUZZYSYSTEMS CYBERNETICSANDSYSTEMS KYBERNETIKA MODELINGIDENTIFICATIONANDCONTROL 期......
卫生部中科院领导共赴广东御天正康生物科技有限公司考察指导
7月6日，我国健康产业迎来重要时刻，卫生部原副部长张凤楼先生与中国科学院原副院长杨柏龄教授，携手莅临位于广东御天正康生物科技有限公司进行实地考察与指导，为公司的未来发展注入了强劲动力。此次访问不仅彰显了国家对健康产业的高度重视，也标志着御天正康在推动“健康中国”战略实......
【Nature子刊】最争气国人友好“灌水刊”，中科院3区升2区，录用仅1个月，2天见刊！
本周投稿推荐SSCI• 中科院2区，6.0-7.0（录用友好）EI•各领域沾边均可（2天录用）CNKI•7天录用-检索（急录友好）SCI&EI•4区生物医学类，0.5-1.0（录用率99%）•1区工程类，6.0-7.0（进展超顺）•IEEE(TOP)，7.5-8.0（实力强刊）期刊亮点中科院3区升2区，期刊质量持续攀升；收稿量庞大，接受......
无线通信SCI期刊，中科院一区TOP，IF=12.9，专业性强，文章质量高
一、期刊名称IEEEWirelessCommunications二、期刊简介概况期刊类型：SCI学科领域：无线通信影响因子：12.9中科院分区：1区TOP三、期刊征稿范围IEEE无线通信是为在通信和网络社区工作的个人设计的。它涵盖了与所有媒体（以及媒体组合）和所有协议层的个性化、位置独立通信相......
计算机SCI期刊，中科院3区，IF=3.4，难度不大，无预警风险
一、期刊名称AutomatedSoftwareEngineering二、期刊简介概况期刊类型：SCI学科领域：计算机科学影响因子：3.4中科院分区：3区三、期刊征稿范围自动化软件工程是一份档案，同行评审的期刊，发表研究，教程论文，调查和自动化软件工程技术的基础，技术，工具和应用方面的重要行业经验......
能源SCI期刊，中科院1区TOP，IF=8.7，审稿速度快，对国人非常友好
一、期刊名称RenewableEnergy二、期刊简介概况期刊类型：SCI学科领域：能源影响因子：8.7中科院分区：1区TOP三、期刊征稿范围《可再生能源》杂志旨在促进和传播有关可再生能源系统和组件的各种主题和技术的知识。该杂志旨在为研究人员，工程师，经济学家，制造商，非政府组织，协会......
计算机SCI期刊，中科院2区，IF=6.9，收稿范围非常广泛
一、期刊名称JournalofKingSaudUniversity—ComputerandInformationSciences二、期刊简介概况期刊类型：SCI学科领域：计算机科学影响因子：6.9中科院分区：2区三、期刊征稿范围《沙特国王大学计算机与信息科学杂志》是一本国际性的参考期刊，涵盖了计算机基础及其实......

COIG-CQIA 由中科院深圳先进技术研究院、北京大学等联合发布高质量多样化中文指令微调数据集

一、目前遇到困难和挑战

二、数据集介绍

三、数据集应用

相关文章

赞助商

阅读排行