首页 > 其他分享 >【AI产品经理附学习资料】让你从入门到精通,这一篇文章通通搞定!

【AI产品经理附学习资料】让你从入门到精通,这一篇文章通通搞定!

时间:2024-10-26 11:19:50浏览次数:7  
标签:搞定 AI 模型 用户 特征 算法 通通 拟合 数据

一、AI产品经理工作全流程概览

AI产品经理工作全流程中与普通产品经理的区别主要是多了算法模型部分,包括模型预研、数据准备、模型构建、模型宣讲、模型验收,协作的对象相对普通产品经理也多了算法工程师。

二、需求定义

需求定义主要要定义清楚以下几点:

1、做什么? 2、为什么要做,有什么收益和价值?3、业务预期目标、上线期限?

为了方便理解,我们以开发一套筛选薅羊毛用户的产品进行举例说明。

1、项目背景

团队发现负责的项目数据统计有些异常,细查之后,发现存在夜间偷数据的情况,大致行为路径如下:

  1. 淘宝上买一批手机号,注册新账号。

  2. 通过自动薅羊毛的方式(新手礼包、每日签到、周任务等),获取免费券等资源。

  3. 夜深人静的时候,使用免费券或积分批量下载数据。

亡羊补牢,犹未晚矣。我们决定开发一套筛选薅羊毛用户的产品,彻底堵住这个缺口。

2、做什么?

开发一套筛选薅羊毛用户的产品。具体设计大概思路如下:

  1. 在领取新手礼包或周任务奖励时,需要用户绑定手机号(薅羊毛时简单卡一下,以免影响正常的用户体验)。

  2. 在使用券进行下载操作时,判断是薅羊毛用户的概率,并根据概率高低分成 正常、疑似、高危 三类。

  3. 针对“疑似”用户,就触发 极验 或 验证码校验 等逻辑。针对高危用户,就锁定账号,并在激活时要求绑定微信,避免再出现大量偷数据的情况。

①人工智能/大模型学习路线

②AI产品经理入门指南

③大模型方向必读书籍PDF版

④超详细海量大模型实战项目

⑤LLM大模型系统学习教程

⑥640套-AI大模型报告合集

⑦从0-1入门大模型教程视频

⑧AGI大模型技术公开课名额

3、为什么要做,有什么收益和价值?

减少公司做活动发放福利时被薅羊毛,让福利触达给有效的用户。

4、业务预期目标、上线期限?
  1. 离线/实时模式:支持实时判断,所以应该定义为实时模型。

  2. 覆盖率:期望该模型的覆盖率为100%,面向所有用户。

  3. 倾向:尽可能找出所有羊毛党,追求高“召回率”,可以接受一定程度的误报。宁可错杀一千,不可放过一个。

  4. 上线期限:双十一前得上线,离现在还有半年时间。

三、模型预研

AI产品经理把需求同步给算法工程师,算法工程师需判断目前积累的数据和沉淀的算法是否可以达到业务需求。

如果现有数据不满足需求,要么增加埋点补齐数据,要么想办法获取目标数据,要么替换成其他类似数据。

如果算法支持度不够,可能需要调整需求内容,以便达到更适配的效果。以该项目为例,实时模式的话,可能会对原业务的响应速度有一定影响,所以最后调整为离线模型,每天定时处理前一天的用户数据。

四、数据准备

对于算法同学而言,他只能根据现有的数据分析哪些特征对于模型有用,但是,AI产品经理对业务理解更深,通过判断哪些数据、哪些特征对模型提升有帮助,把自己想到的要点和技术沟通,得到更完善的数据集,再动手去获取数据。

比如该用户是否主要在夜间活动?操作频率是否过高?短时间内同一台终端是否登录过多个用户?用户是否触发过新手引导?

尽可能准确的找到羊毛党用户的特征,对模型质量的提升会有极大的帮助。

获取数据时,主要分为以下三类(有时也可与其他公司联合建模):

1、内部业务数据

如果以前业务有相关数据,那么我们可以从以前业务保留的数据中选取使用;如果当前没有相关数据,而我们有相关业务可以获得数据,我们通过增加埋点的方式将数据留存。

2、跨部门数据

其他部门数据或统一的中台数据,这些数据需要我们根据公司的数据管理规范流程提取,在数据提取的时候注意筛选有效数据。

3、外采数据

根据我们的需求向外部公司购买数据。我们需要了解市场上不同公司都可以提供什么数据,比如:极光、友盟提供的是开发者服务,所以他们可以提供一些和App相关的用户画像,比如运营商可以提供上网流量、话费等相关数据。

进行外采数据需要注意两点:外采公司的资质审核、采集数据的合法性(需要考虑数据安全和消费者隐私保护)。

五、模型构建

模型构建的具体流程如下:

1、模型设计

模型设计阶段,我们需要考虑该选择什么样的算法,目标变量应该怎么设置、数据源应该有哪些、数据样本如何获取,是随机抽取还是分层抽样。

a.算法选择

于其需求定义,模型需要计算出用户是薅羊毛用户的概率,并根据概率高低分为正常、疑似、高危三类,最终技术同学决定采用逻辑回归算法来实现该需求。

逻辑回归算法具有计算速度快、可解释性强的优点,适用于解决需求中的多分类问题,而且还可以对用户“为什么封号”的质疑,有较强的解释性。

b.定义目标变量及抽取数据样本

在模型设计阶段最重要的就是定义模型目标变量,以及抽取数据样本

不同的目标变量,决定了这个模型应用的场景,以及能达到的业务预期。

样本是用来做模型的基础。在选取样本的时候,你需要根据模型的目标、业务的实际场景来选择合适的样本。必须要考虑季节性和周期性的影响。另外,还要考虑时间跨度的问题。建议你选择近期的数据,并结合跨时间样本的抽取,来降低抽样的样本不能描述总体的这种风险。

2、特征工程

所有模型的输入都是数量化的信息(用向量、矩阵或者张量的形式表示的信息),所以我们需要通过某种方式,把各种类型的数据转化成数量化的信息,这个过程就是特征工程。

特征工程是模型构建过程中最重要的部分,如果我们可以挑选到足够优质的特征,不仅可以提升模型性能,还能降低模型的复杂度,(当选择了优质的特征之后,即使你的模型参数不是最优的,也能得到不错的模型性能,你也就不需要花费大量时间去寻找最优参数了,从而降低了模型实现的复杂度。)大幅简化构建过程。

数据和特征决定了模型的上限,而模型和算法只是逼近这个上限而已。

以薅羊毛项目为例,我们可以通过用户是否在夜间活动、操作频率、历史订单、完成活动速度、同一台终端是否登录多个账号等一系列特征,来表达是薅羊毛用户的可能性,这就是建立了薅羊毛用户的特征工程。我们可以通过这些特征来判断用户的可疑程度。

特征过程包括以下四个流程:

1. 数据清洗

数据清洗主要是算法工程师要做的工作,数据预处理的重要环节,主要是对数据进行重新审查和校验,检查数据一致性、处理无效值和缺失值等。

来解决这些数据可能存在的数据缺失、有异常值或无效值、数据不均衡(比如前面部分数据表现好,后面部分数据表现不好)、单位不一致等问题。

对数据缺失,算法工程师可以通过删除缺失值或者补充缺失值的手段来解决它。

对于数据不均衡的问题,因为数据偏差可能导致后面训练的模型过拟合或者欠拟合,所以算法工程师取数据时需要考虑均衡问题。

2. 特征提取

从原始数据中提取有用的特征,将其转化为一组更具代表性和可解释性的特征。特征提取的目的是减少原始数据的维度,提高数据的表达能力,帮助算法进行更好的完成任务。

一般提取出的特征会有 4 类常见的形式,分别是数值型特征数据、标签或者描述类数据、非结构化数据、关系型数据。

**数值型特征:**如消费金额、好友人数、浏览页面次数等(相关的业务操作数据、运营数据)。一般来说,会首先提取主体特征,再提取其他维度特征。

**标签或描述类特征:**如有房、有车、高付费,用来打标签。

**非结构化特征:**如内容评论,需要判断是否有负面情绪。非结构化数据一般存在于 UGC(User Generated Content,用户生成内容)内容数据中。提取非结构化特征的一般做法就是,对文本数据做清洗和挖掘,挖掘出在一定程度上反映用户属性的特征。

**关系型数据特征:**如通讯录、收获地址、商品分享(一般分享给亲朋)、LBS位置信息 等维度数据。比如说,在京东购物时,你和一个人在同一收货地址上,如果这个收货地址是家庭地址,那你们很可能就是家人。

3. 特征选择

特征在选择时主要有覆盖度、IV 值(信息价值)、稳定性等指标。

LV值指的是表示特征对目标预测的贡献程度,LV值有限定条件,一是面向的任务必须是有监督的任务;二是预测的模型必须是二分类模型。

4. 生成训练集和测试集

算法同学为了给模型训练做最后的准备,需要把数据分成训练集和测试集,他们会使用训练集来进行模型训练,会使用测试集验证模型效果,

3、模型训练

模型训练是通过不断训练、验证和调优,让模型达到最优的过程。就是要找到一个划分条件(决策边界),使得准确率(拟合)最高的同时兼顾稳定性(泛化性能)。这里涉及几个名词需要理解:

a、决策边界

那么怎么达到最优呢?就是要绘制一条比较好的决策边界。

决策边界:就是在符合某种条件做出某种选择的条件,根据这个条件可以将结果进行划分。比如说:下午6:00不写完这篇博客我不吃饭,那么写完了就去吃,没写完就不吃。这个条件就是我们说的决策边界。

决策边界分为:线性决策边界和非线性决策边界。下图中,图1为线性决策边界,图2、图3为非线性决策边界。

决策边界曲线的平滑程度和算法训练出来的模型能力息息相关。曲线越陡峭模型的测试精度越准确(可以理解为不是一刀切),但是越陡峭的曲线模型越不稳定。

b、拟合与泛化

模型的“最优”,指的是模型拟合能力和泛化能力的平衡点。

  • 拟合能力:模型在已知数据上(训练集)表现的好坏

  • 泛化能力:模型在未知数据上(测试集)表现的好

如果想让模型有足够好的拟合能力,就需要构建一个复杂的模型对训练集进行训练,但是模型越复杂就会越依赖训练集的数据,就越可能出现训练集的表现很好,但在测试集上表现差的情况,泛化能力比较差,这种情况叫做“过拟合”。

如果想让提高模型的泛化能力,就要降低模型复杂度,减少对训练集的依赖,但如果过度降低复杂度,又可能导致“欠拟合”的情况。

  • 过拟合:模型把数据学习的太彻底,甚至把噪声数据的特征也学习到了,就导致不能很好的识别未知数据,模型泛化能力下降。训练集表现很好,但是测试集很差。读的是“死书”,并没有真正掌握书里的精髓,自然就无法很好的应用了。产生过拟合的原因一般有:特征过多,模型复杂度过高,样本数据无法代表预定的分类,样本噪音干扰过大等。

  • 欠拟合:模型不能很好的捕捉数据特征,不能很好的拟合数据。在训练集的表现就很差,需要继续努力“学习”。产生欠拟合的原因一般有:模型复杂度过低、特征量过少等。

c、交叉验证

算法工程师就这样不断的调整模型参数、训练,再用交叉验证的方式,逐渐找到拟合能力和泛化能力的平衡点,这个平衡点就是我们训练模型的目标。

  • 交叉验证:一种评估机器学习模型性能的有效方法,可以用于选择最佳模型参数、模型选择以及避免过拟合等问题。包括简单交叉验证、留出交叉验证、自助交叉验证等方法。如把测试数据进行进行封箱处理,后随机对一些分箱测试结果取平均值。
4、模型验证

经过复杂的模型训练,我们终于得到了一个所谓的“最优解”,但是怎么证明这个最优解就是真正的最优解呢?我们需要模型验证阶段来确认这个“最优解”的真假。

模型验证一般通过模型的性能指标稳定性指标来评估。

模型性能,就是模型预测的准确性。

  • 分类模型性能评估:分类模型的预测结果是具体的分类,一般使用召回率、F1、KS、AUC等评估指标,来判断分类模型的性能。

  • 回归模型性能评估:回归模型的预测结果是连续值,一般使用方差和MSE等评估指标,来判断回归模型的性能。

模型稳定性,指的是模型性能可以持续多久,一般使用PSI指标来评估模型的稳定性。

PSI指标,指模型稳定性指标(或称为客情稳定性指标),PSI越小越好,如果PSI>0.25说明稳定性很差。

综上:模型验收环节,AI产品经理需要知道常用的性能指标与稳定性指标,并且知道其合理的范围。AI产品经理对模型验证环节格外关注,需要深入理解评估指标、计算逻辑,并能根据指标的数据判断模型效果是否达标。

5、模型融合

为了提升模型的准确率和稳定性,有时会同时构建多个模型,再把这些模型集成在一起,确保模型有更优的整体表现。

比如薅羊毛项目这种分类模型,可以用最简单的投票方法来融合,票数最多的类别就是最终的结果。

回归模型的融合主要用算术平均或加权平均。

分类模型的融合,主要是取数据值最大的,如Blending和stacking,bagging和bossting。

模型融合的一些基本方法如下,感兴趣可进一步查资料了解。

在模型融合的过程中,产品经理需要考虑好成本问题。

五、模型宣讲与验收

模型构建完成后,产品经理需要组织技术宣讲训练好的模型,介绍内容如下:

  • 使用的什么算法?为什么选这个算法?

  • 选用了哪些特征。

  • 训练集、测试集的大致情况。

  • 模型的测试结果。

  • 是否达到了预期?哪些指标未达预期?未达预期的原因是什么。

宣讲之后,产品经理需要对模型进行评估和验收,该环节也非常重要,至于如何选择合适的评估指标,后续章节会详细介绍。

六、业务开发并上线

验收通过之后,技术会把模型部署到线上,并按之前和业务开发同事约定的接口提供能力。

业务开发完成相应功能后,和模型接口联调通过,就可以进入常规的走查、测试、上线流程了。

需要注意的是,模型上线后,还需要持续监控模型的效果,若运行一段时间后,发现模型效果有明显衰减,就需要分析原因,并针对性的升级模型。

在这里插入图片描述

大模型&AI产品经理如何学习

求大家的点赞和收藏,我花2万买的大模型学习资料免费共享给你们,来看看有哪些东西。

1.学习路线图

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

2.视频教程

网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。

在这里插入图片描述

在这里插入图片描述

(都打包成一块的了,不能一一展开,总共300多集)

因篇幅有限,仅展示部分资料,需要点击下方图片前往获取

3.技术文档和电子书

这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。
在这里插入图片描述

4.LLM面试题和面经合集

这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
在这里插入图片描述

标签:搞定,AI,模型,用户,特征,算法,通通,拟合,数据
From: https://blog.csdn.net/m0_63171455/article/details/143250820

相关文章

  • AI智能识别未穿工作服识别
    AI智能识别未穿工作服识别系统采用了AI神经网络和深度学习算法,AI智能识别未穿工作服识别系统通过现场监控摄像头对特定区域内工人的穿戴情况进行实时监测和分析。系统经过大量的数据训练和算法优化,能够准确识别工人是否穿戴合规的工作服、反光衣、安全帽等装备。AI智能识别未穿工......
  • 工地升降机AI人数识别系统
    工地升降机人数识别系统采用了AI神经网络和深度学习算法,工地升降机AI人数识别系统通过升降机内置的摄像头实时监测轿厢内的人员数量。通过图像处理和人脸识别算法,系统能够精确地识别升降机内的人数。一旦系统识别到人数达到或者超过设定的阈值,工地升降机AI人数识别系统会立即通过......
  • 计算机毕业设计Python+大模型微博情感分析 微博舆情预测 微博爬虫 微博大数据 舆情分
    温馨提示:文末有CSDN平台官方提供的学长联系方式的名片!温馨提示:文末有CSDN平台官方提供的学长联系方式的名片!温馨提示:文末有CSDN平台官方提供的学长联系方式的名片!《Python+大模型微博情感分析》开题报告一、研究背景与意义随着互联网技术的飞速发展,社交媒体平台......
  • SciTech-BigDataAIML-KLD(KL散度):测度比较"两Distribution(概率分布)"的Similarity(接
    KLD(Kullback-LeiblerDivergence,KL散度):测度比较两Distribution的SimilarityAI领域最重要的MeasureMethodofDistributions(分布度量方法)简写和全称:KLD(Kullback-LeiblerDivergence,KL散度)用途:测度比较两Distribution的Similarity(统计应用上,我们经常需要:......
  • python 访问openai接口
    目录一、openai接口文档1.访问OpenAIAPI文档2.注册和获取API密钥3.快速开始:示例代码4.请求结构和响应格式二、步骤1、安装openai库2、示例代码实现一个命令行循环对话机器人加入gradio界面demo一、openai接口文档使用OpenAIAPI文档可以帮助你更好地......
  • python 访问openai assistant api(一)
    目录一、简介二、案例三、消息循环总结 一、简介使用Python访问OpenAIAssistantAPI(如GPT模型),你需要使用OpenAI提供的官方PythonSDK。官网介绍https://platform.openai.com/docs/api-reference/assistants目前只有简短的使用介绍,但是已经涵盖了所有需要注......
  • 轻松原创!短剧,带货视频AI自动批量混剪工具!
    今天再分享这个批量剪辑神器,非常适合短剧和带货短视频的制作,轻松过原创,提供了从视频分割、合成、混剪到格式转换的多项功能。以下是它的主要功能:视频分割与提取按时长或段数分割按镜头转场变化分割按语音内容自动分割提取无声视频或音频视频合成自动合成文......
  • 一键AI去除视频水印和字幕!关键还免费!
    我们做网创的,多多少少会去下载很多视频素材,但很多素材自己觉得非常好,但有那该死的水印和字幕就让人非常不爽,要么在剪辑的时候放大把字幕拉出屏幕外,又或者是用黑框该掉字幕,这着实影响美观!有什么办法可以直接去掉字幕和水印吗?答案是有的!今天就给大家分享这个神器:VideoSub......
  • 轻松原创!短剧,带货视频AI自动批量混剪工具!
    今天再分享这个批量剪辑神器,非常适合短剧和带货短视频的制作,轻松过原创,提供了从视频分割、合成、混剪到格式转换的多项功能。以下是它的主要功能:视频分割与提取按时长或段数分割按镜头转场变化分割按语音内容自动分割提取无声视频或音频视频合成自动合成文......
  • 轻松原创!短剧,带货视频AI自动批量混剪工具!
    今天再分享这个批量剪辑神器,非常适合短剧和带货短视频的制作,轻松过原创,提供了从视频分割、合成、混剪到格式转换的多项功能。以下是它的主要功能:视频分割与提取按时长或段数分割按镜头转场变化分割按语音内容自动分割提取无声视频或音频视频合成自动合成文......