七月在线公开课笔记(十五)
Lookalike相似人群拓展项目实战 - P1 - 七月在线-julyedu - BV1bA411p79R
OK我们现在课程开始啊,可以听到我说话吗?你今天讲的话是looklike相似人群扩展啊,这个也是在推荐广告里面是非常经典的一个业务啊。它呢是源于2018年的腾讯广告算法大赛啊,大家可其实可以看到。嗯。
其实从腾讯网算网算网大赛,从17年到2020年都是他们的赛题都是非常贴合真实业务的,也是非常经典的一个赛题。所以说我们把每个赛题进行一个复盘,进行一个拆解,就非常值得我们去深思和学习的。
同也同时也可以挖掘一些呃挖掘一些top选手,他们的一个解决方案的一个思路,和他们如何比如说提取特征工程,如何去挖掘一些强的一些信息,一些check,或者说他们使有哪些模型。
来去解决这个真实场景下的一个问题的。那么今天呢从5个部分进行呃就分享的一个赛题背景背背景,探索性数据分析特征工程CTR模型建模。扣件。以最后的模型融合。
那我们先去了解一下looklike它是具体是什么一个业务啊,场景,它是相似人群扩展。就比如说。客户的吧,客户他们会上传一部分指定的高质量的一些人群。那这个高质量人群呢就是我们的种子人群。
那么主要是去依托于种子人群,我们从里面去找到一些较为显显著的一些画像特征。然后像腾讯里面的话,他会嗯他们会在他们的大盘当中寻找一些嗯与其高度相似的人群,就扩展人群。就根据这些特征特征。
画像特征来去找到相似人群。那我们不可能说人呃依据人为的。所以说我们需要去去用建模的方式,对建模方式如何去对他进行一个扩展。那我们有了种子人群,有对他投放的一些广告。那这些种子人群。
他对应的种子包就是对应的这个广告。对,如果他点击这个广告的话,其来说我们依托这些点击和不点击,就是正向和呃负向的一些样本我们进行建模来去提取出来他一些正向的一些含义,就是说这群种子人群,对吧?
他们有哪种偏好,哪种兴趣,那我们依托依托于建模的方式来去提取。然后呢,我们再从我们的一个人群库里面,对吧?对,也给这些人群给他们推这类广告,那我们看他是否发生转化,那如果发生转化或发生点击的话。
那其他和我们种子人群就有一些相似的一些兴趣。那我们可以把它归为相似人群了。嗯嗯分为三点,他的一个业务一些作用,更好触达意向的用户。就是我们原有的人群是非常少的,所以我们需要扩展人群。
把那些具有相同意义向的用户进行扩展。第二个话就是说更高的互动转化可能性。啊,最后呢就是找到潜在的目标人群帮助拉新。那最后一个是非常关键的。因为现在来说的话,很多他们的公司都会在用户增长,就是说嗯拉新呀。
或者说就是一些对一些用户一些那种那种那种成成熟的用户吧,我们进行一唤醒。对,都会做一些用户增长相关的一些算法的啊。当然这也是其中一部分。当然我们这些就是推荐这些的,他也是也可以算为里面的一部分的。
呃,三部分种子人群,然后基于用户画像提取用户特征,然后我们再去扩大受众展示相关的一些广告。那第一个呢是先去上传,就是它这个业务背景嘛,就是说最开始他会就是在这个比如广告平台。
或者说我们这个类似一些系统平台里面提供一些上传一些种子用户啊,然后呢去筛选种子用户特征。那其实就是挖掘一些呃就有相关一些意向,相关一些兴趣,具有一些共性的一些特征。然后进行匹配。那根据上面的特征。
从全量活跃用户中筛选出另一批与种子人群最为相似用户。那就这就是整个流程了。嗯,这个赛题呢他其实是做了一个简化。对,不需要我们不需要我们从全量活跃用户里面来进行一个嗯。不需要我们去找到全量用户,对吧?
他其实已经给我们那啥了,已经给到我们这些全量用户了,对吧?给到我们这些用户不一定是全量,他给到这一部分用户了,同时也给到这个用户他对应所点击的广告了。其实就是说。嗯。就说他其实已经说给到了一个用户了。
优的ID对吧?U的 IDD然后又给到另外一个广告ID了。对,这起来说是他们本身是提供到的对,那我们需要做,就是说看这两个配合的下面,对吧?它是否发生转化,对吧?就是点击啊,或者说CVR这种的形式,对吧?
啊,有点击或者说有转化,还有正就是标为一,那反之的话就是零这样的一个一个一个形式了啊。
那赛题任务呢?赛题任务我刚才已经描述了5个月还是比较比较清楚啊。大家讲一下,本赛题呢是将为参赛选手提供几百个种子人群啊。嗯其实每个种子人群它对应的是一类广告特征。那比如说这种子人群。种子人群里面对吧?
它有很多的很多的用户ID那它对应的一个广告广告特征或者广告IDAID。啊,第二个也是一样的,很多种子人群对吧?它对应的AIDAE刚才是比如说按按按零算法账来,就这种形式嗯。然后出于业务数据安全保证考虑。
所有数据均为脱敏处理后的数据,整个数据集分为训练集和测试集。那测试集就需要我们最后要提交这个部分了,就它给到了user ID和对应的AID对吧?然后我们对它作为一个准确的一个呃预测。
那预测的话是最后给出是概率结果的啊,比如说0。760。76,就说它发生发生点击或发生转换的一个就发生点击的概率是0。0。76对就行了。不需要把它转换为一或者是零这种形式啊。呃,用户是否属于种子包用户。
那其实是否属于种子包用户,其实就是否去点击这个广告了,两个含义是一样的。所以说我们把这种是否属于可以转换成1个CTR问题。那我们知道。在广告排序里面对吧?就是说我们在做推荐的时候,对吧?一个排序环节。
那其实就是看它的1个CTICVR1个一个概率的对,然后做个排序。那其实它和经典这个问题其实说有很大的一个相似性的。所以说我们可以把它转换成CTR这个问题去解决。包括我们在高特征,还有一些用的模型。
也可以用CTR排序模型来去解决的,这是没有任何问题的。测试集将检测选手算马能否准确的。检测出用户是否属于现在种子包,训练数据有完全一致。训练数据测据总部完全一致。OK啊,这个是我们那个任务啊。
那我们来看一下评价指标啊,一般来说的话,常用的史其实这种二分类的话,包括在涉及到一些广告推荐这块的话,都是用AOC这种方式啊。对它具有那种那种。嗯,像正样本和副样本区分开来一个白一种排序能力啊。
对他不会受他前说不会受你的。他其实关注的不是咱们的一个准确率。对,不是关注准确率,而是关注的话就是一个区分性和排序性。对,我们来看一下嗯,对于扩展后的相似用户,如果在广告投放上有相关的效果行为。
就是点击或者是转换啊,则认为是正例。对,那其实点击的话就是我们对应的CTR问题,转换的话是CVR问题,其实就非常相似的啊。如果不产生效果行为,则认为是复利。呃,每个带苹果种子包会提供一个信息。
种子包对应的广告ID及其特征,以及对应的候选用户及就是用户呃用户ID及其特征。选手需要说就是针对于每个种子包,我们去计算它的AOC的啊。因为每个种子包每个广种子包里面对吧。
它起来说广告特性也是不一样的对,所以说我们为何为了更好来去有这种就是针对性,对吧?包括比较经典,就是说嗯我们现在前说很多的评估的话,其实说嗯不是来用AOC这种方式来进行评估,而是那种JAOC的方式。
对吧?啊,我们来我们具体在做精准这种推荐,精准的一些营销的时候,我们看到的不是说因为每个用户他这个行为习惯不一样。对,所以他最后得到概率结果的分布也是不一样的。所以说我们为了更好针对于某个用户。
来去看它AOC的一个效果。所以说才会有了JOC这种形式。那其实来说JOC和我们这次这个评价主要是蛮类似的。就说我们依托于按种子包,我们去分成多个,就是我们有M个种子包,对吧?
对我们看每个种子包下面它的一个嗯它这个AOC的一个效果如何,最后进行一个加权啊。这个AOC这个思想是非常类似的啊。也是现在就是说用的比较多的,而不是说不考虑种子包,它本身的一些一些数据的分布,一些效果。
一些它的一个概率情况,对吧?而是一股脑的只用1个AOC来进行评估,那肯定是不一样的。这是我们的评价指标。再往下是特征工程部分,哎,是探索性数据分析。探索性数据分析呢,这是我觉得是非常重要的环节。
因为我们最开始候对这数据完全不理解,对吧?他提供哪些数据啊,一个提供哪些数据,对吧?他给到数据对吧?有哪些数据。第二个,每个数据它大小。它大小它类型。它的分布。我们都是不不了解的。
所以说我们需要第一步就是说我们先去了解数据,读懂数据,才为了就是帮助我们更好的去开展接下来工作。不管是我们在做比赛也好,还是说在。接触到一个新项目,就工作中项目也好,都是按照流程来的。
本次竞赛呢他给到是脱敏后续,对吧?时间范围是30天,但是他没有给到每个样本的一个时间的。所以说他确实到时间这个部分了啊,所以我们不需要考虑时间相关的一些因素,因为本身没有给到这个因素的,给给到这个变量。
数据可以分为我们的训练集、测试集、用户特征以及种子包对应的广告特征四个部分啊。训练级的话就是已经给到label了,就是说AIDUIDAID的话就是用户ID。UID的话。
AID对应的是广告IDUID的话给到的是用户IDlabel的话就是嗯它是否发生是否属于这个种子包,或者它是否点击或者说是否转换啊,测级话需要我们去预测的一个一个一个pe尔队这种的嗯。
然后用户特征这块的话,他给到还是蛮多的。就是说一个用户案例的话,他给到一些filturegroup一group2group3,那这group什么意思呢?就是一个一个特征组。比如说他的一个有个兴趣啊。呃。
EREST啊兴趣一它里面对吧?也许有个125就逗号间隔这种类,然后八这种的形式,对吧?它其实是一种多值特征,就是他把这个兴趣这一类兴趣。比如说星期一的话,也许代表他嗯。嗯。
我们可以把它假设假设成一种运动的一个兴趣吧。对我们的运动兴趣其实说不止是一个的,是有很多的啊,所以我们可以假设为他运动兴趣啊那。interest二的话对。哦。
二的话对二的话我们可以把它展设成一个色彩分布,色彩兴趣对它也是分为各种的已经透明后的一个一个种数值的一个一个一个一个类别的一个多质特征了。比如说5100啊,里面也许可以代表一个颜色。
但其实他这个起来说兴趣还是蛮多的,也不确定是什么,但大致可以这样方式来进行理解。对。每个特征组里面是一个多的特征啊,我们要注意这点啊。对,就后面我们是来说关注怎么来去解决这个问题啊。
怎么来处理这个问题啊。对多的特征,我们该怎么进行一个拆开展开啊这种方式。也是在很多的一些很多业务城人中,其实见到的并不多的啊。广告特征文件对,就是对应的广告ID对吧?嗯,他的广告主ID。
他的一个什么ID啊,创建素材ID。嗯,他的一个素材大小。广告类别ID嗯。厂商生产这种ID啊,或者说生产那个类型的ID一种呢。对,大概就这样的啊,一共分为4个部分。
那么主要是围绕着围绕着呃围绕着AID和UID我们去展开来去构造我们的特征的。这基本的这个文件啊,我们一个了解啊。接下来我们来看一下,我们将这一些打开啊,就是数据打开,就说比有就是一个这是广告ID对吧?
广告ID对吧?它的一个我们直接就hard对吧?HED hardd来看它前5个对吧?前5个。前五个他的一个前五行,对他一个基本的一个数据的样子,什么样子的,我们先做初步了解啊。他其实全部做了脱明了。对。
而且已经帮我们做好了一个转换了。他不会说就是给我们那个字符串这种了,或者说object这种类型的,直接是按这种数字型的,已经给出来的啊,我们不需要再做label in的这种操作了嗯。那其实这样看的话。
其实只能看到大概的信息,我们也不了解它有个分布的啊。那我们继续往下看吧。用户的信息啊,这可能就是说给到了感觉更复杂一些哈。用户ID他的年龄。性别。嗯,婚姻状态。婚姻状态看蛮多的呀,111啊。
这也不清楚什么意思啊。我今天晚上看教育嗯他的一个。消费能力吧是消费能力吗?对,或者说这是它的一个呃LBS这个那该是个位置嘛,LBS位置什么兴趣2兴趣5,然后是KW,这也是个多日特征啊。
对我们他其实来说都是多日特征。我们端时处理方法都是一样的。直接上我们都按相同方式来进行处理就可以了啊嗯。哎,刚才几个可能说意思不太了解的,我们可以去去看一下他是什么意思啊。对。
那现在我听到就是说腾讯赛的一个官网,对已经举办了举办了四届了。对我们可以看网届赛题啊,网年赛题里面还有一些介绍的。
嗯。
18年的。
哎,直接可以看到了,它里面是可能对数据有更详细的一个描述啊嗯。婚姻消费能力,然后是地理位置兴趣。兴趣呃,它分别以12345有5个这种这种特征组,还有关键词。较兴趣类目更细力度的表示用户喜好啊。
那也是一种用户戏取兴趣,但可能说更细一些啊。还有topic就是主题。这用的是LADLDA挖掘的。LED这种这种方式,对吧?这是一种那种文本的挖掘这种方式。文本挖掘方式。对,来挖掘用户的喜好。
然后分为topic123,这应该也是都是特征了。还有APPAPP近期安装的行为。APP活跃。上网连接类型。那有不同上网方式。其实不同上网方式来说话,其说我们可能就是说我们在获取这种这种。嗯。
会理服务的时候也会有一些不一样的一些广告,或者说不一样的一些反馈啊,这可能也算差异性的。包括不同操作系统,其他系统其在也反映出。反映出人的一个。差异性对,不管你是安卓和IOS这个学说,你整体来看哈。
从宏观角度来看的话,它是存在差异性的。人的一个整体的一个兴趣呀,或者说其他的一些呃状态啊。移动运营商。移动联通电信。是否有房?
啊,这是我们的用户的信息啊。
那现在看呃,这块的话,我做了个基本统计啊。对,就是对于UID还有我们的广告ID对吧?AID我们来看这个un unique的话,就是说他在训练题里面,对吧?是里面有多少类用户有多少个用户。
多少个不同用户对吧?对啊。就是一个班有45人,他就是每个人都是不一样的。所以他按他俺有那个就45了,但在系统里面不一样,他可能有45个,但是可能。嗯,小红出现了10次,对。
那可能只是最后他Iunic只有30多。这个I的话就它唯一的一个属性有多少个,就是说唯一的这个用户,他有多少个。那就是780多万。对。那我们来看测试集,测试级的,un uniqueic的话。
它是有200多万的。嗯,总共的话是。90900多万900多万。对。啊,后面我统计一下就是说训练集和测试集对它的一个重复,就说我们的用户ID有多少重复的。我们可以发现重复的ID是非常少的啊。对,所以说你。
将AID的话,哎UID。本身不能作为特征的。怎么说呢?因为我们重复的并不多的,重复的并不多。所以说你用它的话会存在就是说你后面不存在UID的话。
对可能会出现那种呃一些一些新的一些UID就类似于感觉这种冷起的一个对用这的话是完全不起到这种泛化作用的。所以说我们在高特征的时候,我们是可以。围绕着UID去构造,而不能用UID本身的对。这一点需要注意。
先看一下我们的AIDAID的话就是我们的种子包。那每个种子包它有对应的一个广告ID那173虽然你173,测立173所以173。173百分百。啊,学习测试都是一样的啊,然后我们嗯。百分百重复啊。
这个就是说都是一样的,没有说它存在一种一定差异性的这是我们的AID的一个分布啊。是。嗯。这是其家说对我们数据基本的一个了解。Oh。那接下来我们看一下,就是我们该怎么去构造一些特征的啊。对。
这块我这块我是我当时参这个比赛,对吧?我是大概就是列举了一下。对,就是我们这块构造一个方式,对吧?第一个是。Space to, Sp, space。这种话主要就是说对那种那种那种那种那种那种多折疼。
对吧?那种多的特征对吧?我们可以用那啥用那种词频统计方式,对吧?con vectorctor那种那种方式来进行一个展开啊,还有一种的话是基础的特征,就是说原本的一些用户信息,对吧?原本的一些特征。
我们不做任何处理啊,直接把它当做一个类别特征,或者说当成一个数字特征来用。就用原本用特征,它的一个年龄呀、性别呀。对广告特征的话,它对应它一个广告位的一个广告展示的一个呃sizeize。对。
然后它的一个广告主ID这样的嗯。统计特征的话就是are unique collect的话就是说它点击,那我们可以把它看作一个就是一个count。countter类特征。theun对count就这样的。
还有一种话就是。艾ic克的话其实就说他的意思就是说。意思就是说呃比如说一个用户对吧,一个用户一个用户,他呃他那个兴趣,他的兴趣的一个一个一个范围,或者他所看到的一些。嗯。
标签:这个,这样,一个,笔记,公开课,十五,就是,我们,其实 From: https://www.cnblogs.com/apachecn/p/18498035