这是对一个PPT的内容的整理,PPT的主要内容是刘铁岩的《Online Advertising》。主要介绍了一些付费搜索相关的一些技术。这篇文章主要是对这方面的知识做一个整理。在搜索广告中,有很多的知识点是值得借鉴的。
一、广告
1.1、定义:
- Advertising is a form of communication intended to persuade an audience (viewers, readers, or listeners) to purchase or take action upon products, ideals, or services.
- 解释:广告是一种传播形式,目的是为了使得受众能够对广告产生购买或者其他的一些行为,其他的行为主要包括查看广告,关注广告,最主要的还是能够直接产生消费行为。
1.2、广告的媒介
广告可以通过如下的一些媒介得到传播:
- 杂志
- 户外广告牌
- 报纸
- 传单
- 电视等
二、在线广告
2.1、在线广告的参与者
在线广告是线下广告的一种推广,在线广告的参与者主要包括三类:
- 受众:即网络的使用者
- 媒介:拥有平台的互联网公司
- 广告主:购买广告服务的人
2.2、在线广告的形式
在线广告的形式是多种多样的,主要根据平台的不同,可以分为如下的一些在线广告:
- 付费搜索(Paid Search)
- 展示广告(Display Ads)
- 上下文广告(Contextual Ads)
- 移动广告(Mobile Ads)
- 游戏广告(Gaming Ads)
2.3、涉及的领域
计算广告是一个融合多个学科的方向:
- 信息检索
- 机器学习
- 博弈论
- 经济学
- 。。。
三、深入浅出付费搜索
3.1、付费搜索中的生态系统
在付费搜索中,主要的参与者包括:
- 搜索的用户
- 广告商
- 搜索平台
广告商对搜索页面上的位置竞价,付费的方式是按照CPC,即按点击付费(Cost per Click)。当用户搜索相关的条目时,最终按照竞价结果在搜索页面上的固定位置返回相应的广告。
对于以上三类不同的群体,其关注的目标是不一样的,如广告商,其更关注的是曝光的次数,点击的次数,点击率等等,对于搜索引擎来说,更关注的是收入,而对于用户来说,则更关注的是返回的结果与查询是否相关,返回的结果是由有用等等。
2、广告平台机制
对于类似搜索这样的竞价广告平台来说,当用户查询时,会在广告库中进行广告的选择,然后根据竞价选择出待曝光的广告,最终返回给用户,如下图所示:
3、架构
在上述的广告平台机制中,广告的选择涉及的技术是匹配,排序涉及的技术是点击率预测。。。
3.1、广告的选择
广告选择的目的是找到与用户的查询相关的一些候选广告。匹配的方式主要有如下几种:
- 精确匹配(Exact),即不对用户提供的关键词做任何形式的扩展,保证忠实按照用户意图精准执行。
- 短语匹配(Phrase),当用户的查询完全包含广告主关键词及关键词的插入或颠倒形态时,就人为匹配成功。
- 广泛匹配(Broad),当用户的查询词与广告主的关键词高度相关时,即使广告主并未提交这些查询词,也可能被匹配。
除了上述的三种匹配策略外,还需要用到否定匹配,即通常所谓的黑名单,即明确指出哪些词是不能被匹配的。
召回是广告选择的重要的度量标准。broad match可以保证一定的召回。但是broad match对于长尾的搜索表现的并不是很好,因为broad match依赖于大量的日志数据,长尾搜索的日志较少。对于长尾搜索,较好的方法是情感分析(semantic analysis)和句法分析(syntactic analysis)。
3.2、相关性
相关性要在用户,广告主和搜索引擎之间进行平衡,对于用户来说,更关注的是体验,对于广告主来说,更注重的得到优质的流量,而不是大量的无效曝光,对于平台来说,则更关注的是收入,收入的直接表现就是在同样的流量曝光过程中,获得更多的点击。
用于计算相关性的方法主要有:
- 机器学习算法
- 信息检索
3.3、点击率预估
广告主是按照每次的点击付费的,因此准确的点击对于广告的排序和竞价都显得尤为重要。广告的点击率预估是广告中研究比较多的技术,通常使用机器学习的方法对广告点击率进行预测,如Logistic回归,GBDT算法等等。在前面的文章中,有介绍。
点击率预估通常存在以下的问题:二阶效应(Second-order Effect)。二阶效应只要是指利用训练数据得到训练模型,将离线的训练模型放到实际的环境中反过来影响线上的实际环境。通常,可以有两套学习算法,一是离线训练,一是在线训练,在线训练的目的就是实时调整线上的模型。
3.4、RAP问题
RAP问题指的是:Ranking,Allocation和Pricing问题。Ranking指的是对候选集进行排序。Allocation指的是在网页的特定位置上展示广告。Pricing指的是按照CPC竞价。
Ranking按照如下的公式进行排序:
RS=Bid×pClick
其中,pClick指的是点击率。
竞价机制采用的是Generalized Second Price(GSP):
CPCi=Bidi+1×pClicki+1pClicki
关于二阶拍卖(Second price auction),指的是广告主首先独立的竞价,根据各自的竞价对广告主进行排序,最终选择出竞价最高的广告主,该广告主需要付出比第二高的竞价稍高的价格。GSP指的是按照CPC的方式付费并按照CTR*bid的方式进行排序。