专访算法天才盖坤:阿里妈妈利用AI算法在广告业务的应用
本篇文章4077字,读完约10分钟
由中国计算机联合会(ccf)主办、雷锋主持的ccf-GAIR全球人工智能与机器人峰会。和香港中文大学(深圳)终于结束了。
阿里妈妈精密展示广告技术总监盖坤
在会议第三天的机器人特别会议上,阿里妈妈精密展示广告技术总监盖坤作为嘉宾在家里发表了题为“互联网大数据下的模型结构挑战”的演讲。盖坤在演讲中介绍了经典模型如核方法和基于树的方法在互联网大数据下存在的问题,并简单解释了mlr模型和深层用户兴趣网络。
阿里妈妈:阿里巴巴实现的主要来源
盖坤所属的阿里妈妈是阿里巴巴集团的大数据营销平台。
2007年,阿里的母亲正式上线。据数据显示,该平台每天有超过50亿的推广流量,可以完成3亿多种商品的推广和展示。在过去的十年里,阿里的母亲已经成为阿里集团实现的主要来源之一。除了借助阿里的优酷、土豆、淘宝、天猫、支付宝、uc browser、高德地图等公司聚合的全球大数据,当然,ai算法在广告系统中的应用也是不可或缺的。
说到人工智能算法,盖坤负责精确定向检索和基本算法团队的贡献是不可避免的。这个团队的目的是帮助企业更准确地预测用户的行为,从而实现更准确的广告。
2011年,刚进入阿里的盖坤提出了分段线性模型mlr,这对于当时主要使用简单线性模型预测ctr的行业来说意义重大,因为它大大提高了ctr预测的准确性。近年来,mlr模式已广泛应用于直通车定位、钻探和展览业务。
最近,盖坤带领团队在点击率估计中引入了一种新的模型结构——深度用户网络兴趣分布,即使用深度学习在用户的历史行为和广告点击率估计之间建立部分匹配。匹配度越高,历史数据对估计结果的影响越大。具体介绍见雷锋的前一份报告和盖昆在这次大会上的讲话。
盖坤主旨演讲后,雷锋。com还就一些关键问题采访了他。以下是采访记录:
阿里的母亲在广告业务中使用人工智能算法
雷锋。阿里的母亲在将人工智能算法应用于广告业务时做了什么?取得了什么成就?
盖坤:一个与机器学习相关的是典型的ctr预测模型。评估模型需要对流量进行分割和评估,这也是广告价值销售的基础。例如,点击费用、转换费用和显示位置费用是不同的。这是阿里母亲最基本的一层。
除此之外,还有一些自动化方法。我们制作了一些客户端工具,让广告商能够自由表达他们的需求。例如,ctr、aoc、质量或数量等。,从而实现事前预测和事后洞察。这种自动化方法与传统的机器学习不完全一样,它更偏向于优化和整体差异化。这种方法有两个关键点:
首先,提前估计。例如,我们将使用自动化方法提前估计流量和广告商的价值和匹配程度,以便与客户目标达成一致,并实现定价和数量保证。然后用作业计划和优化的方法在做事之前进行分配。
第二,在过程中采取实时控制策略。因为交通总是随时间而变化,所以不可能事先达到完美的预测。其中,我们使用了很多黑盒测试,也使用了一些机智的方法,比如白盒测试来解决它们。对于黑盒测试,我们主要关注强化学习——也就是说,如何对整个序列建模以实现最终的预期目标或最大化长期利益。
雷锋。现阶段预测ctr准确性的主要障碍或限制是什么?
盖坤:携程网预测,行业内会有aoc等指标,这些指标的上限相当高。例如,根据aoc的理论上限“1”,每个公司的实际上限约为0.7或0.8,无论如何,与上限总有差距。然而,实际程度不仅与技术能力有关,还与数据特征有关——有些技术难以区分,容易区分的数据所能达到的指标也相应较高。
如果我们能预测ctr 100%的准确率,淘宝不会向用户展示任何他们不想要的东西,百度也不会向你展示不必要的信息。
然而,就目前阶段而言,从理论上讲,空离这一目标还有很长的路要走,尽管每年都有技术进步。在实际应用中,通常使用模型的一套方法,以及支持特征工程、上游和下游处理以及前后迭代优化,使得该方法能够达到上限。然而,一种方法在一定时期内会达到一个上限。
正如我在ccf-gair演讲中提到的,线性模型有其自身的局限性。虽然它有支持工程的能力和特征处理的能力来弥补这一缺陷,但它仍然会限制它,所以很难突破它的现状。如果我们想取得突破,就应该从模型设计的变化中取得突破。例如,从线性模型到非线性模型,或者到更复杂的非线性模型。
雷锋。有两个因素与ctr预测的准确性相关,即图像材料的识别和交付的准确性。阿里在影像材料的传递效果的技术判断上采取了什么步骤?之后会有更深入的计划吗?
盖坤:在这方面,我们已经做了一个深感兴趣的神经网络。对于深感兴趣的神经网络,其传统方法可能是直接重定位,如嵌入、全连接、cnn、lcm,这些都不是在互联网大数据下提出的。尽管它可能部分适用,但它不是最适合这种状态的网络结构。
在刚才的主题演讲中,我已经谈到了使用这个模型所做的一些工作,即我们将根据数据定制网络。(雷锋网注:盖坤在他的讲话中说,深度兴趣网利用深度学习在用户的历史行为数据和要估计的广告之间建立联系。它利用权重调制成为一个子序列,然后对子序列进行汇集建模,将历史行为的兴趣向量与目标广告的兴趣向量联系起来,通过简单的多层全连接实现两者之间的部分匹配。匹配度越高,历史数据对ctr估计结果的影响越大。(
在未来,阿里还希望用技术来推动商业本质形式的改变,而不仅仅是效率的提高。目前,我们正在做的统一营销全球营销是希望用户可以不断地与阿里的数据互动,无论是从淘宝、淘宝相关的场景还是与阿里相关的公司。通过一致的关系序列,用户体验得到了本质上的改善。当然,我们希望在全球营销的基础上做建模,提高用户体验和营销能力,全面提升用户。
雷锋。你之前提出的传销模式已经在广告业务领域得到了应用?
盖坤:近年来,在直通车定位、钻探和展示中,mlr被用作迭代的主要模型,该模型还包括特征工程和优化。Mlr也是这些业务盈利的主要驱动因素之一。
与谷歌、脸书和亚马逊的算法相比
雷锋。就谷歌、脸书和亚马逊而言,他们在衡量点击率的准确性方面做了很多努力。在你看来,阿里妈妈的测量算法和他们有什么不同?优点和缺点是什么?
盖坤:让我给你举个例子:目前,中国的移动支付比很多国家都要好。但在几年前的信用卡时代,中国远远落后于外国。
通过与ctr算法的类比,我个人认为这是阿里的一个机会。几年前,特别是在逻辑回归时代,许多公司积累了很高的算法技能。然而,在新的浪潮中,深度学习在中国的转型在行业中是相对较新的。因此,我们希望能找到像移动支付一样迎头赶上的机会。阿里的优势是他的负担更小,所以他前进得更快。
目前,阿里已率先在非线性模型方面改进ctr预测技术。
雷锋。(公开号码:雷锋。从智虎的讨论来看,一般认为亚马逊的推荐算法更好。作为一名专业人士,你认为这样的观点如何?阿里和亚马逊相比如何?
盖坤:事实上,推荐算法应该由另一个部门负责。我主要关注精准广告技术。就阿里的整个商业形式而言,实现广告并不那么迫切。因此,预期的商业趋势将更加积极,更重要的是做好商业用地的技术算法和流动性。另外,目前推荐场景中推荐算法的商业化程度不够。
当谈到与亚马逊的比较时,核心是关注指标的定义。我们最初的索引维度会有点单一。目前,我们正在慢慢拆除指标。这种分解包括对业务的认知,也就是说,到底什么是用户体验,在认知背后还需要技术能力。事实上,用户体验并不直接反映在数据中,它需要从数据中学习和提取。
就推荐算法而言,每个人都没有太大的不同,但有些人会更注重索引优化,这也直接导致了用户体验的偏差。
阿里和亚马逊的相似之处在于。它不仅在未来高举人工智能或云计算的目标,而且还将在当前使用的商业领域中结合一些新技术。
那些问题
雷锋。根据一些用户的经验,在淘宝和天猫的“猜你喜欢什么”和推荐系统中,用户购买的产品仍然会出现在推荐栏中,或者用户偶然点击的产品会被多次推荐。是否有相应的解决方案来优化该功能?
盖坤:这个问题涉及两点。
第一个是面向索引的问题。用户已消费的产品仍会被推至列表中,这可能会导致用户体验不佳。但是从数据的角度来看,实际上这个区块的用户点击率非常高,高于其他类型宝藏的平均点击率。许多消费者可能心里在咒骂,但他们还是忍不住点了。因此,仅从数据来看,如果用用户满意度来衡量指标,很容易陷入满意度的误区。
其次,需要积累技术能力。当一个新的指标发生变化时,很难定义标签,需要学习一个模型。因此,这件事对模型和整个技术都有很高的要求。虽然在整个行业中有一些启发性的方法,但是没有系统的方法来解决它们。
雷锋。在淘宝网上,仍然有很多不法商家利用图片嵌入非法信息进行伪装宣传。你如何解决这些问题,效果如何?
盖坤:这个问题主要集中在自然语言处理和图像技术上。我们希望利用两者的力量来理解广告商像人类一样的不顺从。事实上,淘宝上有很多生态市场,很难控制。因为我们不仅要为数以百万计的企业提供一个平台,还要知道他们做了什么,哪些是错误的行为,这就需要更高的技术。
因此,我们也期望开发人工智能技术来解决这个问题。目前,我们主要用两种方法来解决这个问题:
业务方向:受规则约束;引导商人。
技术基础:运用自然语言处理技术,然后推动它向前发展。
雷锋。现在,由于cookie或跟踪工具,许多用户头像被平台或企业使用,用户隐私受到侵犯。作为一个普通的消费者和技术开发者,你对这个问题有什么看法?有什么方法可以改善它吗?
盖坤:在我看来,数据交换可能会带来未来更好的生活方式。在这方面,它具有非常积极的意义。当然,也应该考虑用户的隐私。
从个人经验来看,公司或平台从不关注单个用户的行为,而是试图在模型中进行隔离。如果我们对用户行为有更广泛的兴趣,我们实际上可以保护用户隐私。交换数据时,数据也是加密的。
如果用户隐私可能涉及风险,它很可能与公司有关。因为公司之间的策略完全相反,每个公司都将数据视为自己最大的资产,所以没有必要担心数据会在这些链接中泄露。但在内部,例如,加州大学、优酷等。我们将采取一些措施来保护用户在这些平台之间交换数据时的隐私。
雷锋原创文章。严禁擅自转载。详情请参考转载说明。
标题:专访算法天才盖坤:阿里妈妈利用AI算法在广告业务的应用
地址:http://www.6st8.com/zbxw/6566.html
免责声明:联合早报中文网从世界各个维度报道世界经济新闻,时政新闻,突发新闻等,本篇的部分内容来自于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2018@163.com,联合早报中文网的小编将予以删除。