阿里文娱永叔：利器or成本损耗？算法不是黑匣子 - 好文

2018年9月16日，由AICUG人工智能技术社区、Datafun社区、博学联合主办的2018
AI先行者大会于杭州召开，来自阿里文娱、科大讯飞、京东、华为、微软、腾讯、平安壹钱包、宜信、地平线、格灵深瞳等企业的数十名技术专家向参会者分享了国内不同行业公司的AI实践经验。集百家之长，将AI研究与应用领域最新的成果进行分享呈现。

作为实现人工智能的一大途径，机器学习与业务的深度结合一直是技术爱好者们关注的方向，会间，我们邀请到阿里商业机器智能算法团队及优酷算法技术团队负责人王晓博（永叔），围绕机器学习的落地应用实践展开问答，以下为正文：

CSDN：首先，请您做一下自我介绍，包括您所关注的技术领域，以及您所在的团队等。

永叔：
我10年博士毕业，主要从事数据挖掘方向，先后在百度搜狗负责广告策略算法团队，工作内容涉及展示广告和搜索广告。15年3月加入阿里，主要负责淘宝主站的推荐，即淘宝商品的信息流推荐，例如首页的猜你喜欢。从今年开始同时负责两个事业群的算法团队，其一是淘宝技术部商业机器智能的算法团队，主要涉及2B的商家端智能，同时也有2C的业务，包括内容及商品的推荐。在文娱方面主要负责整个优酷的算法技术平台，包括优酷的搜索、推荐、内容理解、会员的智能营销，以及后端的云端引擎平台等。技术领域方面，我主要关注两个方向，一是计算广告学，二是这几年一直从事的推荐算法。

CSDN：请谈谈您及团队在现阶段的研究侧重点或下一步研究和实践（例如应用到哪些领域）计划？

永叔：目前我们（优酷）的研究重点包括：

① 内容理解：从过去的整体内容理解到元素级的内容理解，我们的目标是尽量缩小机器和人在看完一段视频后所能获取信息的差距；
② 多模态的视频搜索和推荐；
③ 小样本和领域知识相结合。

CSDN：是什么契机让您选择了大规模分布式机器学习这一研究分支？

永叔：我的博士课题是复杂网络（Complex
Network），也就是图挖掘方向，但是在我加入百度广告策略算法团队时，团队里PhD比较少，那会大家去高校、研究所的比较多。而当时（09、10年）也正是机器学习被大批量引入互联网公司的时期，我就被“丢到”一个我完全陌生的领域——点击率预估，参与网盟广告的点击率预测。点击率预估就是一个典型的0-1二分类问题，但由于其面临的数据体量非常庞大，为了尽可能提升预估的准确率，我们用了半年的数据来做预估，因此可以说我是由于业务原因，而进入了大规模机器学习领域。

CSDN：在您看来，机器学习在人工智能的发展中扮演着怎样的角色？深度学习对机器学习的意义？

永叔：
人工智能领域其实很宽，从最早大家提及的人工智能，到后来逐渐代之以机器智能，机器学习为人工智能提供了一条可以实际应用落地的道路。因为过去谈到人工智能就是下棋、语音识别等，而从80年代末90年代初，统计机器学习逐渐占据垄断地位之后，该技术可以与任何行业进行深度结合。无论数据量多少，机器学习技术都能帮助提效，且具备一定的预判性。

深度学习本身并不是一个很新的概念，也就是六七十年代就曾提出的人工神经网络（ANN），其本质相当于把所有事情变成一个学习非常复杂的非线性函数，模型的参数数量代表了模型本身的建模表达能力，比如学习一个简单的线性函数，还是一个超越函数，甚至一个非常复杂的逻辑函数，深度学习相当于提供了一个可以规模化的方法，每个学习单元就像是仿生学里的神经元，都是一个非常简单的sigmoid逻辑斯蒂回归的二分类分类器。它和Boosting比较像，由许多弱分类器组成强分类器，只不过用各种各样不同的网络结构将其堆叠起来，能够形成一个比较复杂的具备较强表达能力的学习模型。

深度学习起初在图像和语音这两个领域应用得比较好，而最近三年，其在自然语言处理中逐渐形成了一个各方面开花的趋势。深度学习为机器学习提供了一个子集，但是这个子集利用现在强大的硬件资源能够把问题本身的建模模型表达能力推到一个新高度，一些过去无法学到的东西现在都可以通过这种技术完成学习。

CSDN：推荐系统的冷启动问题算是产品推荐中的一大痛点，也是一个比较大的话题，对此，可否结合一些相对简明的例子和大家聊一聊您及团队在这方面的经验总结？

永叔：
自推荐系统诞生起的三十余年间，冷启动就是一个伴随其始终的问题，即当你对于你的用户所知甚少，或是一无所知的时候，应该如何进行推荐。无非两种手段，第一个手段是尽可能获取更多相关信息，例如在初期通过问卷方式采集用户的兴趣信息。阿里旗下有诸多APP，而我们的用户也拥有统一的账号，以前段时间推出的88会员为例，我们在完全不了解新用户在文娱领域兴趣的情况下，依然可以将淘宝、饿了么等平台的偏好相关的信息和数据作为一个隐空间去学，这些信息也可以用于迁移学习，可以和文娱的视频推荐共享特征。此外，location也是一大信息来源，当坐标很接近时，例如同小区的住户，至少身份地位或收入差不多，这些信息可以用于做人群推荐。因此，处理冷启动问题的第一个大思路就是尽可能多地扩展用户信息的获取维度，用迁移学习的方式解决当下的推荐子领域中数据信息缺失地问题。

第二个手段则是建立在对用户一无所知的状态下，即什么信息都拿不到的情况。这种情况下，我们可以采用探索和发现（E&E，Explore and
Explored）策略，也可以用强化学习。先以随机试探的方法切入，比如一共有一千个标签，我们可以选择一些热门标签开始试探，测试用户对哪些东西有反馈，即产生了点击或观看，再在此基础上延展开。此处的探索与随机探索之间的区别就在于它可以设定一个奖励函数，在加了约束的条件下，对冷用户产生的有效观看次数或点击次数做在线学习，进而降低探索过程的损失。

CSDN：较之电商平台，视频网站类平台在个性化推荐的落地问题上，是否存在需要特别注意的方面？

永叔：
电商和视频在推荐方面的差异还是比较大的，因为电商商品维度的数据标准化做得相对比较好，像是衣服的材质、品类等，可以算作结构化的数据特征。虽然在电商里情境下，服饰属于非标类，但我们可以获取的属性信息其实非常多，但在视频业务中，我们没有多少标准化属性特征，用户也不像电商中那样，有“潜客”、“回头客”、“老客”或是“新客”这样非常清晰的分类和兴趣标签。影剧综漫对其用户认知和“货”的认知分类是没有统一标准的，基本上每个公司乃至团队之间都有所不同，因此数据上有很多异构性。此外，电商情境下推荐的特色是货品数量远大于用户数量，而长视频恰恰相反，这也是视频推荐挑战的一个来源。

而视频之所以为非标，是因为我们未将其分解到元素级——理解都还停留在业务层面，类似于侦探剧、爱情剧这样的分类，我们可以分出各种各样的业务目标，但在原子标下，其本质都会变成其中的人物、时间、地点和活动，而这些东西是可以标准化的，换言之，表达方式和表达语言可以标准化，这些东西标准化之后，技术上就比较好处理了，也可以通过类似于OWL这样的语言，来组织上层应用的标签体系。

接下来是将少量视频内容推给大量用户的问题。这种情况下，精品长视频推荐由于数量限制常常陷入困境，为了让用户形成长时间的观看，就需要获取其闲暇时段的信息。过去的推荐往往按照点击率排序，而目前则常会用到以短代长的方法，这就需要进行用户时间的预测和区分，例如手机端可以通过复杂场景分析、传感器识别等手段，判断其所处情境：如果用户正在相对放松休闲的环境中，即采取长视频推荐；如果是正在移动中的碎片化时间，就可以先推一些花絮，达到引导订阅稍后再看的目的，这时，我们就从单纯的点击率排序转为预估未来的“预约单”形式，从即时回报变为即时+延时回报。

CSDN：您如何看待谷歌的AutoML？

永叔：我们之前谈到的小样本学习就与此相关，我们团队花了约一年的时间打造了阿里支持千亿特征的海量机器学习平台XPS (eXtreme Parameter
Sever)
。事实上，在这类机器学习平台上，大家都一窝蜂地去用Tensorflow，但Tensorflow在企业中的性能却很有限，对外开源的版本在runtime优化上有不小的问题，很难解决万亿样本、千亿特征的实际问题，因此各大公司都会有这种自己定制的面向海量数据场景特定优化的训练系统。这里涉及两大法宝，一是调网络结构，二是调参数。每一层有多少个激活神经元，学习的各维度（dimension），feature
dimension的size是多少，网络结构长什么样子，是用卷积还是残差层……大家会变换各种不同的组合，如果是RNN这样的反馈式网络的话，什么时候引入反馈边，什么时候在网络局部引入多维的反馈层——网络结构设计会越来越复杂，但好处是百花齐放，大家在一个巨大的空间内展开探索，所以现在深度学习的文章是最容易灌水的，但这些在未来肯定会被终结，这就是AutoML在做的事情。

例如很多人说学特征，是学1024位，还是512位，还是2048位？到底学多少维度？所有输入层特征都是一个纬，这个空间非常大。假设有一千万个特征，每个都是1024位，不同的特征在样本中的覆盖率不同，其本身的表征不一样，以男女性别特征和图像特征为例，两个人表达的信息量完全不一样，因为图像的空间非常大，一个512×512的图像，把RGBA中的Alpha通道去掉，RGB这三个通道中，每个通道都是256的三次方，再乘上512的平方，这是一个巨大的空间。但是男女只有两个值，如果也用一个1024位的特征去学，看上去是对齐了，但实际它的覆盖率又很高，因此特征学习很容易出现问题，所以现在的AutoML这要解决的几类问题包括：

① 网络结构的动态设计；

② Feature embedding size的动态学习；

③
网络模型中需要根据数据做动态调参，包括每一层需要多少个神经元，需要多少维度的参数表达。对于过去需要耗费很多人力的负责人肉调参、调结构，AutoML这个框架为未来提供了一个解决思路；

④
网络压缩，因为现在越来越多的模型会放在手机端上运行，像是最新推出的A12处理器里就有专门的神经网络处理单元（NPU），它就是为了在手机上做加速。网络压缩也要去调大量的参数，而网络压缩的核心任务就是将现有的学习精度比较高的大模型，压缩到一个小的尺寸，像是将一个几个G的模型压缩到几十兆。例如淘宝的图像和美实验室正在做的OCR光学字符识别模型，我们可以把通用的几十兆的模型压到几兆，精度只有很小的损失。

这些都是AutoML未来的发展方向。人类由懒惰促进技术进步，但凡是觉得很复杂琐碎的问题，最终都会诞生一些相应的技术予以解决。

CSDN：下面，请您聊聊搜索领域应对大促场景的多模态和在线学习技术。

永叔：
这些年来的大促对于搜索而言确乎挑战颇多，现在的大促已经分成了三段，分别是造势期、预热期和正式期。这与长视频推荐所面临的情况很像，因为以前的双十一大促就是10号开始，11月11日结束，后来开始从10月底起分三段进行，前后持续近一个月的时间，这带来的问题九四每个阶段的优化目标都不同，例如在造势期更多倾向于产生点击量和曝光，主要用以营造影响力，因为这个时候很多商家的报名还没有结束；第二个阶段（预热期）中，我们引导的其实是加购，一般会有上百万的尖货池，类似于优衣库这样的超级尖货，往往不需要我们做刻意推广，有些用户都会直接把店铺里所有参加活动的衣服全部浏览一遍，但面对上百万的尖货池，我们还是希望能够通过搜索和推荐的技术将更多商品呈现给用户，产生更多的加购，所以加购率是这个阶段的一个重点；最后在大促当天则是以成交优先，主要以GMV为第一排序指标。所以这个时候你会发现，在这几个阶段中，最开始是以延时回报为最大目标，后来则以即时回报为最大目标，这是在整个排序和召回中极为复杂的一项挑战。大促当天的流量高峰基本上就是围绕在0点前后，过去大约是十分钟的时长，现在的战线则拉长了很多，去年双十一的最高峰就持续了将近50分钟，现在0点集中的大多是付预售尾款的用户，而很多大家去抢的时段会呈现出分散的状态。此外，当天的搜索排序就需要考虑到用户可能抢不到且关注度较高尖货的可替代货品，甚至是可替代性品牌，当用户所关注的那些品牌都已经售謦时，要能够及时安排替换。再到晚上八九点的时候，马爸爸还会为大家发返场红包，这时搜索与推荐的策略就是选择货单价并不是太高，且能够把红包用上的商品。而且对于不同的东西，每个人的价格弹性也不同，因此此时推荐的商品品类在与用户兴趣相关之余，要注意并非强兴趣相关，核心是价格弹性和红包能够带得动的GMV。因此在大促当日的最后时段，整个GMV全靠搜索在冲，这是典型的业务算法策略与实际技术算法进行更深度结合的案例。

CSDN：如何利用迁移学习解决了手淘详情页“看了又看”的技术局限？

永叔：
详情页的“看了又看”可以说是淘宝推荐中最古老的场景了，目前的确面临诸多瓶颈，其中的一大困境在于，此前我们将详情页归入商家私域，交由商家自己控制，其中有两个约束，一是同店，二是类似商品，但对于部分商家而言，其侯选集会非常小，从而面临无货可推的问题。为此，我们推出了一个模块叫做“邻家好店”，也就是说可以形成一个商家联盟，比如某个商家是卖数码3C的，其与服饰商家没有竞争，就可以按照自主意愿形成的联盟，从而我们的推荐商品的候选空间就会扩大，这一模块的核心是提升每一个UserView的价值。此外，迁移学习在这方面也有其发挥的余地，我们可以将用户在服饰领域的行为迁移应用到数码3C中去，包括用户的分享、购物冲动等特征和偏好都可以进行迁移。

CSDN：请您谈谈机器学习在优酷短视频搜索场景下的技术探索。

永叔：
短视频搜索场景下的一大挑战就是能够获取的Meta结构化信息非常少，所以对于短视频本身的理解，我们直接将其转化成一个打标的任务，也就是短视频的标签化。而标签化的难点包括：

①
标签维度和标注数据的量级巨大。短视频推荐的存量很多，且每天都有很多新增视频，因此可能会有上百万个标签，其中，一些头部标签（如“搞笑”）因为覆盖的视频很多可以学得很准，但很多长尾标签因为关联视频极少，往往面临缺少数据的问题。对于这类小样本标签，就需要用到机器学习的Feature
Learning来解决小样本和领域知识相结合的问题，

② 排序学习。Learning To Rank（排序学习）在短视频的信息流推荐中是一个非常新的问题。大约10年前，MSRA的刘铁岩博士开创了Learning
To
Rank这个研究方向。过去我们基于的一个假设前提是我们信息流（feeds）展示出来的时候，用户一眼就全都看到了，但是这对目前的手机端而言并不适用，因为一个手机屏幕通常只显示五个到六个视频，甚至整个短视频的信息流却是无限的（几百到上千）。在这样的情况下，排序学习就不再是假设全都看到，而是需要实时交互。我们从过去的点击率目标转变成了点击数目标，从效率指标变成了规模指标，点击数的多少取决于曝光点击率和曝光量，也就是用户持续往下滑动的长度，我们正在由单一目标优化向多目标优化转变。对于这一问题，目前一种比较常用的思路就是利用强化学习来处理，就是当用户滑动到一个视频卡片时，可以处于多种状态，包括疲劳了→不想看了→离开，也可以有兴趣→点进去→观看不同的动作，都会产生相应的action，例如下滑、点击、结束Feed流浏览，或是长按不喜欢、点赞，点踩等。结合这些action，我们可以通过强化学习的方式完成当前的reward
function设计，这是一个与用户实时交互的过程，一切新的行为都会为后续的实时推荐形成一个非常强的正信号反馈。这在推荐的信息流中被称作交互式推荐，就是能够让用户与系统交互，这也是长信息流推荐对于排序信息引入的一个新问题，短信息流已经成为过去，如今有交互的长信息流与强化学习相结合，带来了新的Topic，现在很多手机APP的首页都已经改成长信息流了。关于这类问题，学术界无法解决，因为其不具备实验环境，所以该问题归根到底必须依靠企业实践来完成。

CSDN：对于机器学习算法相关就业饱和问题，您怎么看？人工智能的发展前景？

永叔：
近年来，计算机行业中的各个工种都在面临这样的问题。事实上，Top级的人才永远不会饱和，而现在趋于饱和的往往是工业化生产的AI人才。现在一些高校从本科起就在做人工智能学院，例如由周志华老师担任院长的南京大学AI人工智能学院，他们的培养模式是每周都有一天让学生到南京当地的研发中心实践，采用纯粹面向应用的培养体系。目前AI领域饱和的就是只会调包调参的工程师，未来趋势也只会愈加饱和。那么什么样的人竞争力会越来越强？主要有两类：

第一类是专业化人才，他们能够应对人工智能机器学习领域中重大的基础研究问题，能够解决企业小样本数据和领域知识如何结合的问题，这类人才极为稀缺，因为这个问题它本身在学术界也极具挑战。企业面临的另外一个重点难题是规模问题，比如需要处理50万视频，如果是单张GPU卡，则需要720个小时，如何能够通过软硬件结合的方式，缩减每个视频自动审核的平均时间，那么无论是在能源节省还是本身的可处理性上，都是一个巨大的飞跃。

第二类稀缺人才是与业务相结合的资深算法工程师，这一类则与经验密切相关，比如说其具备将业务问题转变成领域技术问题的能力，这是个翻译建模的过程。这项能力不仅要对技术有深厚的理解，也要对业务有很强的把控，同时又能够通过架桥的能力将业务问题发现并定义出来，继而建模成技术问题加以解决。这一系列能力如果没有五年以上一线摸爬滚打的经验是完全不可能掌握的，而且过程中必然耗费了大量的成本，因为这些宝贵经验的获取，首先必然需要企业方面给予足够的授权和授信，无疑是“拿钱堆出来的”实践经验，有点类似于飞行员的培养。

采访最后，永叔特别指出了一个当下比较突出的问题，即企业Leader们对于算法能够做什么应用存在一些误解，他们往往认为算法是个黑盒子，或是机器猫的袋子，什么东西讲不清楚都让算法去算一下，这个问题现在是比较突出的，很多人就是，没有去打开算法的这个黑盒子。事实上，目前我们对于数据比较充分的领域，算法的发挥空间的确比较大，但对于连标注数据都很模糊的地方，即使把算法丢进去能去解决的问题也比较少，算法使用在团队中存在很大的偏差，所以算法如果用得好就会是一把利器，用不好就将耗费巨大的成本，还没有收益。因此企业Leader需要提升自己的知识结构和体系修养，了解这个与业务紧密结合的专业工种，清楚算法可以应用到什么地方、什么环境。

热门工具换一换