首页 > 其他分享 >中文大模型(持续更新中)

中文大模型(持续更新中)

时间:2025-01-06 17:29:41浏览次数:3  
标签:中文 语言 模型 更新 开源 https com

​ChatGPT爆火之后,国内也出现了很多的大模型。总结常见的中文大模型,排名不分先后。

阿里巴巴 - 通义系列AI

通义系列

通义千问

开放时间:2023年9月13日面向公众开放。

阿里旗下通义系列AI产品包括:

1、通义千问:

最早推出的产品之一,它是一款基于深度学习技术的超大规模语言模型。通过理解并生成人类语言,实现智能交互。相较于其他AI模型,通义千问在中文理解方面表现优秀,为用户提供了更加智能、准确的问答服务。

主要有两块内容:常用对话、百宝箱

  • 常用对话

点击新建对话功能,按照格式化的公式进行提问:赋予角色+ 背景或现状+需求或目标+ 补充要求,可以获得相应的回答,如:

你是一个培训专家,帮我制定一个学习计划,我想从1年一个成一个程序员成长为一个架构师,计划能精确到每周

  • 百宝箱

有“趣味生活、创意文案、办公助理、学习助手”等各种己经预设好的问答场景。如推荐旅游景点、穿搭、起名等。

2、通义万相

绘画模型产品,用户只需输入相应的提示词,该模型就能创作出符合描述的图像。除了以文生图外,通义万相还支持上传图片作为创建图片的参考,为用户提供了更多创作可能性。

3、通义听悟

针对语音方面的AI技术,可以实现语音识别、语音转化以及语音理解等多种功能。通过听悟,用户可以将音频转换为文字资源,并且实时监听对话内容,进行转文字和区分发言人操作。这项技术不仅提升了语音转文字的准确性,还拓宽了语音技术的应用场景。

4、通义灵码

金融分析产品,采用大模型驱动的智能金融助手。用户可以直接在对话框中查询上市公司的收入情况、分析公司的营销策略等。通义灵码通过整理归纳各大公司的行业研报,为用户提供了丰富的金融数据资料。

5、通义法睿

法律智能产品,可以帮助用户解读法律文件、分析案件情况等。通过整合大量法律数据和案例信息,通义法睿为用户提供了高效、准确的法律咨询服务,极大地提升了法律领域的工作效率。


百度 - 文心一言

文心一言yiyan.baidu.com/welcome

开放时间:2023年08月31日,面向公众开放。

功能:各种类型的问答、各种文本创作、推理与数学计算、写代码、聊天交流、图片生成等

华为 - 盘古大模型

盘古首页-华为云pangu.huaweicloud.com/

仅限华为云企业用户参与体验。

盘古大模型致力于深耕行业,打造金融、政务、制造、矿山、气象、铁路等领域行业大模型和能力集,将行业知识know-how与大模型能力相结合,重塑千行百业,成为各组织、企业、个人的专家助手。

字节跳动 - 云雀

豆包www.doubao.com/chat/

可以使用抖音账号授权登录使用。

字节跳动基于云雀大模型开发了一款生成式AI助手“豆包”。它可以实现智能问答、文本生成、自动写作、语音合成等多种功能,为用户提供便捷的智能服务。

腾讯 - 混元

腾讯混元hunyuan.tencent.com/

混元是腾讯推出的一款通用大语言模型,其模型参数达到了千亿级别,具备强大的中文创作能力,复杂语境下的逻辑推理能力,以及可靠的任务执行能力。

你可以在腾讯云上使用混元大模型,客户不仅可以直接通过API调用混元,也可以将混元作为基底模型,为不同产业场景构建专属应用。

科大讯飞 - 星火认知大模型

讯飞星火认知大模型-AI大语言模型-星火大模型-科大讯飞xinghuo.xfyun.cn/

开放时间:2023年9月5日,科大讯飞宣布讯飞星火大模型面向全民开放,用户可以在各大应用商店下载,直接注册使用。

讯飞星火认知大模型,是科大讯飞研发的以中文为核心的新一代认知智能大模型,能够在与人自然的对话互动的过程中,同时提供以下多种能力:

  • 内容生成能力:我可以进行多风格多任务长文本生成,例如邮件、文案、公文、作文、对话等;

  • 语言理解能力:我可以进行多层次跨语种语言理解,实现语法检查、要素抽取、语篇归整、文本摘要、情感分析、多语言翻译等;

  • 知识问答能力:我可以回答各种各样的问题,包括生活知识、工作技能、医学知识等;

  • 推理能力:我拥有基于思维链的推理能力,能够进行科学推理、常识推理等;

  • 多题型步骤级数学能力:我具备数学思维,能理解数学问题,覆盖多种题型,并能给出解题步骤。

  • 代码理解与生成能力:我可以进行代码理解、代码修改以及代码生成等工作;

360 - 智脑

·360智脑ai.360.com/

·360智脑是360推出的AI大模型,用户可以在其中通过设置条件制作专属自己个人特点的数字人,并与其他用户分享新的信息。

该模型是基于千亿参数大语言模型,具有生成式语言模型和联网搜索等功能。

商汤 - 商量SenseChat

商汤商量语言大模型chat.sensetime.com/wb/login

商量(SenseChat)是商汤科技自研的类ChatGPT产品之一,是国内最早的基于千亿参数大语言模型之一,并不断迭代更新。

目前,基模型为商汤联合多家国内顶级科研机构发布的书生·浦语InternLM-123B,拥有1230亿参数,在语言、知识、理解、推理和学科五大能力上均处于行业领先水平,并在全球51个知名评测集(包括MMLU, AGIEVAL, ARC, CEval, Race,

GSM8K等)共计30万道问题集合上测试成绩整体排名全球第二,在主要评测中12项成绩中排名第一!

度小满 - 轩辕

https://github.com/Duxiaoman-DI/XuanYuangithub.com/Duxiaoman-DI/XuanYuan

轩辕是国内首个开源的千亿级中文对话大模型,同时也是首个针对中文金融领域优化的千亿级开源对话大模型。

轩辕在BLOOM-176B的基础上针对中文通用领域和金融领域进行了针对性的预训练与微调,它不仅可以应对通用领域的问题,也可以解答与金融相关的各类问题,为用户提供准确、全面的金融信息和建议。

清华大学 -ChatGLM-6B

https://github.com/THUDM/ChatGLM-6Bgithub.com/THUDM/ChatGLM-6B

ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于General Language Model (GLM)架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。ChatGLM-6B 使用了和 ChatGPT 相似的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答,更多信息请参考我们的博客。欢迎通过chatglm.cn体验更大规模的 ChatGLM 模型。

北京大学 - ChatLaw

chatlawchatlaw.cloud/lawchat/#/

https://github.com/PKU-YuanGroup/ChatLawgithub.com/PKU-YuanGroup/ChatLaw

ChatLaw是一种开源法律大型语言模型,它可以通过对话的方式为用户提供专业的法律建议和法律文书。

数据主要由论坛、新闻、法条、司法解释、法律咨询、法考题、判决文书组成,随后经过清洗、数据增强等来构造对话数据。

复旦大学 - MOSS

MOSSmoss.fastnlp.top/

需要内测申请。

MOSS是复旦大学自然语言处理实验室推出的对话式大型语言模型,支持中英双语和多种插件的开源对话语言模型。

上海交通大学 - K2

https://github.com/davendw49/k2github.com/davendw49/k2

K2 是上海交通大学推出的一个70亿参数的地球科学大语言模型,基于初代LLaMA-7B模型,并使用了100万余篇地球科学文献以及和地球科学相关的数据集进行训练。该模型可以用于多个领域,如自然语言处理、计算机视觉等。

哈尔滨工业大学 - 本草

https://github.com/SCIR-HI/Huatuo-Llama-Med-Chinesegithub.com/SCIR-HI/Huatuo-Llama-Med-Chinese

本项目开源了经过中文医学指令精调/指令微调(Instruction-tuning) 的大语言模型集,包括LLaMA、Alpaca-Chinese、Bloom、活字模型等。

基于医学知识图谱以及医学文献,结合ChatGPT API构建了中文医学指令微调数据集,并以此对各种基模型进行了指令微调,提高了基模型在医疗领域的问答效果。

中科院自动化所 - 紫东太初大模型

太初/紫东太初多模态大模型gitee.com/zidongtaichu/multi-modal-models

“紫东太初”跨模态通用人工智能平台是由中国科学院自动化研究所研发的以多模态大模型为核心、基于全栈国产化基础软硬件平台,可支撑全场景AI应用。

特色:

  • 全球首个多模态图文音预训练模型

  • 多层次多任务自监督学习

  • 弱关联多模态数据语义统一表达

  • 兼顾任务感知和推理增强的中文预训练模型

  • 多粒度学习与注意力指导的视觉预训练模型

  • 基于自监督预训练的多任务语音建模技术

东北大学 - TechGPT

https://github.com/neukg/TechGPTgithub.com/neukg/TechGPT

TechGPT是“东北大学知识图谱研究组”发布的垂直领域大语言模型。目前在HuggingFace : neukg/TechGPT-7B开源了全量微调的7B版本。

TechGPT主要强化了如下三类任务:

  • 以“知识图谱构建”为核心的关系三元组抽取等各类信息抽取任务

  • 以“阅读理解”为核心的各类智能问答任务。

  • 以“文本理解”为核心的关键词生成等各类序列生成任务。

上海人工智能实验室 - 书生通用大模型

书生intern-ai.org.cn/home

功能:

  • 书生·多模态-大模型:80 亿多模态样本训练,参数量 200 亿。突破了光标指令交互、利用语言定义任意任务和轻量级自适应融合等多项关键技术,实现了开放世界理解、多模态交互和跨模态生成三大能力,支持 350 万种语义标签。

  • 书生·浦语 - 语言大模型:千亿参数基座模型,通过多阶段的渐进式训练,具有较高的知识水平和较强的推理能力,在综合性考试和全方面能力评测中表现突出。

  • 书生·天际 - 实景三维大模型:基于 NeRF 的城市级实景三维大模型,拥有极高的训练和渲染效率。

  • 全链条开源开放体系:开放覆盖数据、预训练、微调、部署、评测的全链条能力,打通大模型应用的最后一公里,支持大模型全面客观的能力评测。

智媒开源研究院 - MediaGPT

https://github.com/IMOSR/MediaGPTgithub.com/IMOSR/MediaGPT

MediaGPT,一个针对自媒体领域进行特殊训练的模型。

MediaGPT(曾用名Media LLaMA)首先在大规模自媒体语料上进行连续预训练,系统地学习自媒体的知识体系。然后,我们借助ChatGPT收集了一批关于抖音运营、短视频创作、巨量千川投放、直播运营和直播话术技巧等领域知识问题的分析和回答,并利用这些数据对模型进行指令微调,使模型习得如何将自媒体知识应用到实际场景中。

模型具有以下能力:

  • 掌握自媒体知识:能够理解抖音运营、短视频创作、巨量千川投放、直播运营等领域的核心概念和策略。

  • 适用于实际操作:能够以通俗易懂的语言解释自媒体概念,并进行基础的自媒体运营咨询,涵盖内容创作、平台运营、广告投放等领域。

智源人工智能研究院 - 悟道·天鹰

https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquilagithub.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila

悟道·天鹰(Aquila) 语言大模型是首个具备中英双语知识、支持商用许可协议、国内数据合规需求的开源语言大模型。

  • 支持开源商用许可。Aquila系列模型的源代码基于Apache 2.0 协议,模型权重基于《智源Aquila系列模型许可协议》,使用者在满足许可限制的情况下,可用于商业目的。

  • 具备中英文知识。Aquila系列模型在中英文高质量语料基础上从 0 开始训练,中文语料约占 40%,保证模型在预训练阶段就开始积累原生的中文世界知识,而非翻译而来的知识。

  • ‍符合国内数据合规需求。Aquila系列模型的中文语料来自智源多年积累的中文数据集,包括来自1万多个站源的中文互联网数据(其中99%以上为国内站源),以及获得国内权威机构支持的高质量中文文献数据、中文书籍数据等。我们仍在持续积累高质量、多样化的数据集,并源源不断加入Aquila基础模型后续训练中。

  • 持续迭代,持续开源开放。我们将不断完善训练数据、优化训练方法、提升模型性能,在更优秀的基础模型基座上,培育枝繁叶茂的“模型树”,持续开源开放更新的版本。

百川智能 - 百川大模型

百川大模型-汇聚世界知识 创作妙笔生花-百川智能www.baichuan-ai.com/home

https://github.com/baichuan-inc/baichuan-7Bgithub.com/baichuan-inc/baichuan-7B

Baichuan2-53B大模型,融合了意图理解、信息检索以及强化学习技术,结合有监督微调与人类意图对齐,在知识问答、文本创作领域表现突出。

智谱华章 - 智谱清言

智谱清言chatglm.cn/

智谱清言是北京智谱华章科技有限公司推出的生成式AI助手,可在工作、学习和日常生活中为用户解答各类问题,完成各种任务。该助手基于智谱AI自主研发的中英双语对话模型ChatGLM2,经过万亿字符的文本与代码预训练,并采用有监督微调技术,以通用对话的形式为用户提供智能化服务。

MiniMax - ABAB大模型

MiniMax

开放平台api.minimax.chat/

MiniMax是一家通用大模型初创公司,其ABAB大模型于2022年3月获得上海人工智能实验室(书生通用大模型)的批复,成为国内首个正式落地的通用大模型之一。MiniMax的ABAB大模型是一种基于深度学习的通用对话模型,可以用于自然语言处理、语音识别等多个领域。

达观数据 - "曹植"垂直大语言模型

达观数据官网www.datagrand.com/products/aigc/

达观数据发布了国产自研“曹植“大模型,这是一种垂直大语言模型,可以用于自然语言处理、文本生成等领域。

功能:

  • AIGC 文本生成能力

  • 通用文本写作解决方案

  • 金融报告 AIGC 智能写作

  • 申报材料自动生成

云知声 - 山海

https://shanhai.unisound.com/shanhai.unisound.com/

山海大模型是最新一代认知智能大模型,拥有丰富的知识储备,涵盖科学、技术、文化、艺术、医疗、通识等领域。

OpenBMB——CPM-Bee

https://github.com/OpenBMB/CPM-Beegithub.com/OpenBMB/CPM-Bee

CPM-Bee是一个完全开源、允许商用的百亿参数中英文基座模型,也是CPM-Live训练的第二个里程碑。它采用Transformer自回归架构(auto-regressive),在超万亿(trillion)高质量语料上进行预训练,拥有强大的基础能力。开发者和研究者可以在CPM-Bee基座模型的基础上在各类场景进行适配来以创建特定领域的应用模型。

虎博科技 - TigerBot

https://github.com/TigerResearch/TigerBotgithub.com/TigerResearch/TigerBot

TigerBot 是一个多语言多任务的大规模语言模型(LLM)。

根据 OpenAI InstructGPT 论文在公开 NLP 数据集上的自动评测,TigerBot-7B 达到 OpenAI 同样大小模型的综合表现的 96%。

月之暗面科技 - KIMI chat

Moonshot

AIwww.moonshot.cn/

10月9日,Moonshot 推出了首款大模型产品:智能助手Kimi Chat。这是Moonshot在大模型领域做To C超级应用的第一次尝试。

Kimi Chat支持输入20万汉字,是目前全球大模型产品中所能支持的最长上下文输入长度。

标签:中文,语言,模型,更新,开源,https,com
From: https://blog.csdn.net/weixin_42058609/article/details/144968267

相关文章

  • 10. C++对象模型和this指针
    1. 成员变量和成员函数分开存储在C++中,类内的成员变量和成员函数分开存储只有非静态成员变量才属于类的对象.classPerson{public:Person(){mA=0;}//非静态成员变量占对象空间intmA;//静态成员变量不占对象空间staticintmB;//函数也不占对象空间,所有函数共......
  • “双碳”目标下资源环境中的可计算一般均衡(CGE)模型实践技术应用
    为了实现这一目标就必须应用各种二氧化碳排放量很高技术的替代技术,不仅需要考虑技术上的可靠性,也需要考虑经济上的可行性。可计算一般均衡模型(CGE模型)由于其能够模拟宏观经济系统运行和价格调节机制,分析政策工具的影响和效应而备受“双碳”目标研究者的青睐。由于CGE模型基于严......
  • 7大团队效能模型和团队协作工具:如何通过协作工具提升团队协作力
    团队效能模型是帮助组织提升团队绩效、解决团队合作中出现的问题的有力工具。以下是七大常见的团队效能模型,这些模型在不同领域被广泛应用,以优化团队的协作与绩效。1.TuckmanModel(塔克曼模型)Tuckman于1965年提出了Tuckman模型,广泛用于团队发展和团队建设领域。模型内容:Tu......
  • 2025-01-06 大模型统计
    国外大模型模型技术架构优势劣势GPT系列(OpenAI) 性能卓越,具备强大的文本生成、对话理解、知识问答等能力,能够进行复杂的逻辑推理和代码生成。 Claude系列(Anthropic) 整体性能强劲,尤其在语义理解和作为智能体的能力评测中表现突出 Gemini系列(谷歌) 原生......
  • 两年数据分析 已跑路转NLP大模型了
    其实数据分析这个岗位吧,刚开始确实还行,像我们当时就天天跑报表、做数据可视化、分析业务问题,自我感觉还挺高大上的。但是慢慢就琢磨出不对味儿了,感觉自己就是从‘业务工具人’变成‘高级工具人’。而且说白了,数据分析师的工作很多时候就是把数据整理好,讲成业务听得懂的故......
  • FinDKG: 用于检测金融市场全球趋势的动态知识图谱与大型语言模型
    “FinDKG:DynamicKnowledgeGraphswithLargeLanguageModelsforDetectingGlobalTrendsinFinancialMarkets”论文地址:https://arxiv.org/pdf/2407.10909摘要动态知识图(DKG)能够表示对象间随时间变化的关系,适用于从复杂且非结构化的数据中抽取信息。在金融领......
  • 内存模型以及分区,需要详细到每个区放什么
    JVM(Java虚拟机)内存模型是Java程序运行时的内存管理机制。JVM将内存划分为多个区域,每个区域用于存储不同类型的数据。下面详细解释JVM内存模型及其分区。JVM内存模型JVM内存模型主要包括以下几个部分:堆内存(HeapMemory)用于存储对象实例和数组。是垃圾收集器管理的主要区域。......
  • C# AIModelRouter:使用不同的AI模型完成不同的任务
    https://www.cnblogs.com/mingupupu/p/18654982AIModelRouterAI模型路由,模型的能力有大小之分,有些简单任务,能力小一点的模型也能很好地完成,而有些比较难的或者希望模型做得更好的,则可以选择能力强的模型。为什么要这样做呢?可以降低AI模型的使用成本,毕竟能力强的模型会更贵一点,省......
  • CSS伸缩盒模型Flex
    <style>.outer{width:1000px;height:600px;background-color:#888;display:flex;//outer为伸缩容器。}.inner{width:200px;height:200px;background-color:skyblue;border:1pxsolidblack;box-sizin......
  • 【继电保护】小电流接地系统故障仿真-中性点不接地与经消弧线圈接地仿真模型(Simulink
     ......