看到很多同学对RAG比较感兴趣,但是在面试中被问麻了,不知道如何突出自己的能力。就跟之前做GBDT、BERT和LLM微调一样,我们做的不仅仅是算法本身,而是解决问题的项目方案。
让大家恨不得在简历上删除的RAG项目,大致有以下几个特点:
1、demo简单:RAG易学难精,搭建一个demo非常简单,但是问到如何优化对很多人来说非常困难。大部分RAG项目的流程高度相似,检索(混搜+重排)+生成(LLM、基座微调)。教程类的demo+效果不佳,这种简历会被直接pass。
2、not focus on检索:对于RAG来说检索的重要性远高于大模型本身的能力。没有做过混合检索和重排的项目,过初筛都很困难。如果不对输入query进行意图识别,无差别扔给大模型,就会显得简单粗暴。
3、依赖知识库:很多RAG项目都是在做问答系统,就跟搜索一样,非常依赖底层数据。如果数据量不够丰富,是检索不到任何东西的,巧妇难为无米之炊。
如何突出自己的RAG亮点,下面给大家整理了几个高频知识点
1、数据源:FQAs问答、客服咨询、产品说明书、行业政策、内部文档、行业报告、相关手册等
2、文档解析:文本、图片、表格、标题、公式等识别方法,PDF、Word、Excel、PPT、Html等文件解析
3、知识库构建:chunk_size切块方法优化、对比学习embedding模型微调、信息抽取的索引方式优化
4、文档检索:向量、ES、联网等检索方法,融合检索(TSF和query回退)和递归检索(chunk链接方式)两种策略
5、模型微调:基于文档的数据集生成、知识库数据集构建方法、基座模型微调
6、效果评估:groud-turth的测试集,关键词、bert语义、ragas的评估方法,问答、多轮对话等业务评估策略~
如何学习AI大模型?
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
标签:检索,知识点,RAG,AI,模型,微调,学习,高频 From: https://blog.csdn.net/2401_85375151/article/details/143994365