首页 > 其他分享 >不常见或难以被LLM捕捉的数据

不常见或难以被LLM捕捉的数据

时间:2024-01-18 20:14:42浏览次数:32  
标签:专业 常见 独一无二 信息 个人隐私 捕捉 LLM 数据

LLM(Large Language Models)稀缺的数据主要包括以下几类,这些也是微调(Fine-tuning)专业领域模型或RAG(Retrieval-Augmented Generation 检索增强生成)的机遇:

公司内部流程和政策

这些资料通常作为内部文档存在,涉及特定组织的运作机制。


图:公司内部流程和政策,独一无二、专用、私有

主观感受和个人体验:

包括个人的经历、记忆,以及情感和感觉,这些都是高度个性化的信息,这类信息通常是主观的且独一无二的。


图:每个人的经历都是独一无二的

实时动态信息

如股市动态、新闻事件的最新发展、天气预报等。这些实时动态信息变化迅速,LLM来不及捕捉。


图:一些人正在看实时大屏幕

专业或非公开领域信息

涉及专业领域的深度知识,例如某些高级科学研究、专业医疗知识、法律案例分析等,这些领域的信息可能不公开或仅在专业圈内流通,通常是独家的。


图:曼哈顿工程原子弹的研究这些肯定是专业和非公开的

个人隐私或保密信息

涉及个人隐私、商业秘密或国家安全等敏感信息,这些信息通常受到法律保护,在LLM的训练数据中是被严格禁止的。


图:同样的长袍和面具,保护个人隐私

极端情况或罕见事件

极端罕见的事件或特殊情况,由于其发生频率低,可能在训练数据中的代表性不足。

图:探索深海生物,少见,相关数据很少

总结

上面尽可能全面地涵盖了LLM在数据获取方面可能遇到的限制。然而,技术的不断进步和数据获取方法的改进可能会逐步解决其中的一些限制。

标签:专业,常见,独一无二,信息,个人隐私,捕捉,LLM,数据
From: https://www.cnblogs.com/ghj1976/p/17973274/bu-chang-jian-huo-nan-yi-beillm-bu-zhuo-de-shu-

相关文章

  • 不常见或难以被LLM捕捉的数据
    LLM(LargeLanguageModels)稀缺的数据主要包括以下几类,这些也是微调(Fine-tuning)专业领域模型或RAG(Retrieval-AugmentedGeneration检索增强生成)的机遇:公司内部流程和政策这些资料通常作为内部文档存在,涉及特定组织的运作机制。图:公司内部流程和政策,独一无二、专用、私有主观......
  • 不常见或难以被LLM捕捉的数据
    LLM(LargeLanguageModels)稀缺的数据主要包括以下几类,这些也是微调(Fine-tuning)专业领域模型或RAG(Retrieval-AugmentedGeneration检索增强生成)的机遇:公司内部流程和政策这些资料通常作为内部文档存在,涉及特定组织的运作机制。图:公司内部流程和政策,独一无二、专用、私有主观......
  • java 基础常见(上)
    titlecategorytagheadJava基础常见面试题总结(上)JavaJava基础metanamecontentkeywordsJVM,JDK,JRE,字节码详解,Java基本数据类型,装箱和拆箱metanamecontentdescription全网质量最高的Java基础常见知识点和面试题......
  • 常见需要CPC认证的产品及标准
    床旁婴儿床ASTMF2906-13和CPSIA总铅+邻苯wux1643幼儿床ASTMF1821-16;以及CPSIA(铅、邻苯二甲酸盐全尺寸婴儿床ASTMF1169-19和CPSIA总铅+邻苯非全尺寸婴儿床ASTMF406-19和CPSIA总铅+邻苯摇篮式婴儿床和摇篮ASTMF2194-16e1和CPSIA总铅+邻苯安全门和围栏ASTM......
  • Rust 常见集合
    目录使用Vector储存列表新建vectorVec::new函数(无初值)vec!宏(有初值)更新vector读取vector的元素注意可变和不可变引用遍历vector中的元素使用枚举来储存多种类型丢弃vector时也会丢弃其所有元素使用字符串储存UTF-8编码的文本什么是字符串?新建字符串更新字符串使......
  • Microsoft edge@常见问题@由组织管理@策略组@版本问题
    文章目录本地edge浏览器由组织管理@功能受限检查例:侧边栏功能被禁用解出限制(删除相关注册表条目)解除限制检查refs页面加载问题thispagehavingaproblem禁止edge更新refs版本回滚本地edge浏览器由组织管理@功能受限检查浏览器输入edge://management/检查通过修改注册表(删除......
  • Python最常见的5种函数类型!
    函数是一段可重用的代码块,有自己的名称,调用它可以执行其中的代码并返回一个值或一些值。而且函数在Python中是非常重要的组成部分,那么Python函数类型有哪些?我们一起来看看详细内容介绍。1、内置函数类型Python内置了许多函数,这些函数称为内置函数。内置函数是Python语......
  • 使用SPIN技术对LLM进行自我博弈微调训练
    2024年是大型语言模型(llm)的快速发展的一年,对于大语言模型的训练一个重要的方法是对齐方法,它包括使用人类样本的监督微调(SFT)和依赖人类偏好的人类反馈强化学习(RLHF)。这些方法在llm中发挥了至关重要的作用,但是对齐方法对人工注释数据有的大量需求。这一挑战使得微调成为一个充......
  • 常见sql注入绕过方法
    常见sql注入绕过方法目录常见sql注入绕过方法1、空格过滤绕过漏洞代码示例/**/绕过制表符绕过换行符绕过括号绕过`反引号绕过2、内联注释绕过【常见waf!!!】3、大小写绕过4、双写关键字绕过5、编码绕过漏洞示例代码双重URL编码绕过十六进制编码绕过Unicode编码绕过ASCII编码绕过6......
  • 常见错误记录之连接MySQL8.0(Navicate Premium 12,出现BigInteger错误)
    一、NavicatePremium12连接MySQL8.0包如下错误: 出错原因:mysql8之前的版本中加密规则为mysql_native_passwordmysql8以后的加密规则为caching_sha2_password解决方法:(1)更新navicat驱动来解决此问题(2)将mysql用户登录的加密规则常用第二种方法:1.用管理员权限打开cmd,输入mysql......