Michael I. Jordan带你解读百万奖金ATEC蚂蚁人工智能大赛

「经常有人问我，AI 的未来是什么?你对未来有着怎样的展望?我通常会说，那些金融科技公司所处的生态领域内的发展，将是未来AI最有意思的地方。」机器学习领域的泰斗级学者、蚂蚁金服科学智囊团主席、加州大学伯克利分校教授 Michael I. Jordan 说。

确实如此，这些公司所面临的是真正意义上的行业难题，而它们就是 AI 应用最为有效的地方。「我们开始发现，AI 不再是简单的想要模仿人类的智能，而是成为了一种新的能力。它像水一样渗透在社会经济的每一个角落，散发智能、解决问题。」蚂蚁金服 CTO 程立解释道，

「基于这样的 AI 所释放出来的能力，不仅可以帮助人们更加深刻地洞察社会，在金融领域更好地发现和控制风险，也能够为每一个普通人打造一个贴心的生活助理和财富顾问，让每一个小微企业拥有最智慧的经营助手和最优秀的 CFO。」4 月 25 日，ATEC 蚂蚁开发者大赛人工智能大赛启动，主办方蚂蚁金服发起初衷就是要把业务体系中最又价值的问题提炼出来，并提供自主可控的 AI 平台，分享给开发者用创新技术方案去解决。「事实上，AI 是一个工程学科，有时候大家觉得 AI 是神奇魔幻的工具，把它引入公司就会带来奇迹，其实这是不对的。」Michael I. Jordan 说道，「AI 是由工程师的大脑打造出来的一种解决问题的手段，是一种思考解决问题手段的方法。今天我们举行的大赛就是一个非常好的例子，大家可以去思考怎么样用工程师的头脑解决问题，而不是用魔术的手段带来奇迹。」某种程度上，对这些参赛选手而言，与其说是参与一次比赛，更像是在一家科技金融公司完成一个个真实项目。我们在现场深度了解了围绕具体金融业务场景的赛题，并从专家们的介绍中找到了一些解题方向。一、支付风险识别第一道赛题是一个有关支付风险识别的问题。基于移动互联网的新金融业务在蓬勃发展的同时，黑产攻击的能力也在不断升级。信息泄露是导致帐户安全最为严重的问题之一。国际上多起用户信息泄露的事件，过亿的敏感数据被盗用、利用，给用户和银行带来了巨大的经济损失。保护消费者和风险识别，也越来越成为金融行业和学术界关注的焦点。以这个研究点出发，蚂蚁金服以高度模拟真实业务的数据和场景，希望行业大咖一起对风险模式、无标签数据的学习这两个技术难题做出深入的研究和突破，为金融风控行业带来价值的同时推动人工智能下一步的发展。「过去四十年，这一直都是很大的问题，而且现在还没有解决。 90 年代，有一些银行开始用机器学习做检测，而且结果不错。亚马逊在线上使用之后，我们可以看到虚假支付的比例升高，他们用机器学习手段把虚假支付率降低了很多。」Michael I. Jordan说道。在活动现场，蚂蚁金服副总裁、大安全负责人芮雄文介绍了这道赛题的背景——支付宝是蚂蚁金服的起源，而移动支付之所以在中国普及的根本原因在于，相较于信用卡，基于二维码的移动支付上根本降低了消费者和商户的支付门槛，而且与 POS 机比起来，成本更低。在便捷、低成本的基础上，安全就成为了蚂蚁金服要面临的首要问题，这也是所有金融服务的基石。在安全科技方面，蚂蚁金服拥有三大核心能力，分别为确保线上线下环境中操作者即账户拥有者本人的数字身份;运用大数据、机器学习和人工智能实现精准识别和防控风险的智能风控大脑;以及免于内外遭受攻击的数据保护及隐私。

芮雄文还特别提到了蚂蚁金服在智能风控方面的最新探索——AlphaRisk 风控引擎。这套引擎拥有四个核心系统，包括风险感知(感知风险形势和情境)、风险识别(毫米级精准识别所有风险)、自动驾驶(基于风险场景和用户状态完成个性化智能推荐的管理措施)、以及自我学习能力(在黑产不停变化的同时保证整个风控系统能够自动学习、更新)。在这套风控引擎的支持下，目前蚂蚁金服的资损率已经小于百万分之一，每秒可以在峰值时处理超过 50 万笔的风险交易，还可以在 1 秒内更换整个策略体系。不过，智能风控领域仍然存在一些难以攻克的挑战。芮雄文举了两个例子，一是黑产作案手段不断变化，传统的攻防模型过几天效果就会下降;二是缺乏黑样本的情况下让模型精准识别。对此，东华大学校长、原同济大学副校长蒋昌俊也分享了他的观点：「早期使用的规则系统产品性、针对性强，但适应性、演化性弱。但骗子不可能拿着一招骗术一劳永逸下去，肯定会更新，这个时候规则系统难以适应，所以需要模型和算法来解决这个问题。」然而，模型和算法是抽取出来一个数学处理方式，其场景性已经没有那么强。在这个过程中，如何把规则的、场景性的特征针对性地融合到模型和算法中，让模型和算法适应整个场景，才会提高系统的时效性和稳定性。「这是需要赛手们发挥智慧的地方。」蒋昌俊说道，「另外就是黑样本和正常样本数量严重不对称的问题。一般来说，两个样本在差不多情况下建立的模型会比较好，而在严重不对称的情况下，怎么还能够达到这个效果?这就是这个风控问题的第二个难点，做好了也是这个问题的亮点。我觉得这是关于智能风控的问题上需要大家去创新、去创造的地方。」二、智能金融客服第二道赛题则与智能客服相关。普惠金融的重要目标就是给广大用户提供高效和个性化的客户服务体验，以人工智能技术为核心的智能客服在提升用户体验方面扮演了重要角色。而智能客服的本质，就是充分理解用户的意图，在知识库中精准地找到与之相匹配的知识点，从而回答用户问题或提供解决方案。整个智能客服都是围绕着用户问题而构建，问题相似度计算则是贯穿智能客服知识库建设、在线问题匹配，全链路数据化运营等几乎所有环节最核心的技术，这项技术的发展及其相关数据的建设，势必会促进整个客服行业的进步。「在金融领域，挑战本身是非常广泛的，来自很多方面。」蚂蚁金服副总裁、首席数据科学家漆远说道，「为了解决这些问题，我们开发了一系列人工智能算法。」

而在开发算法的核心，也就是打造人工智能引擎的过程中，蚂蚁金服也遇到了很多挑战，例如使机器学习引擎能够快速的再判断、如何面对非常小的样本实现学习和预测等。「我们在这里做的第一个工作就是在智能客服上面，希望通过多轮对话的能力使支付宝更加智能，可以理解对话背后的意义。」漆远补充道。蚂蚁金服资深算法专家张家兴进行赛题阐述时说，「这个赛题说起来它的定义非常简单，就是给你两句话，让你判断这两句话说的语义是不是一致的。比如一句话是『花呗怎么还款』，另外一句话是『花呗如何还钱』。这两个句子有很多字不一样，但是有相同的意思。」这在智能客服中的意义是非常重大，但背后并不简单。首先，客服最重要的一点就是理解用户的意图，然后在知识库中匹配相关的知识点。目前工业界最主流的匹配做法就是把用户的问题与知识库中所有的问题逐一进行相似度计算，把相似度最高的问题作为用户的意图，再把它的答案返还给用户。除此之外，相似度计算对整个客服的各个方面也都具有意义。例如，知识库其实是用是基于文本的自动挖掘而来，这个文本的自动挖掘算法也要基于计算任意两个文本之间的相似度，或者高维空间二者之间的距离。在数据化运营的各个环节，还有包括搜索推荐、对话等其他领域，相似度计算也都是非常核心、基础的问题。而眼下，NLP 相似度计算所面临最大挑战和问题恰恰是在于，智能客服里面存在大量的非常多样性的问题，包括各地的方言、口语以及各种表达方式等方面的不同，对问题的匹配提出相当高的要求。但 NLP 的进展主要集中体现在情感分析和翻译方面，在这些场景下，大多情况下是在一个比较固定的数据集，可以在比较简单干净的数据集上得到很好的结果。「这里的挑战其实也很简单，就是因为人的在他表达相同意思的时候，可能性太多了，有各种各样不同的说法。」张家兴还给出了自己的解题想法：一是关注问题的表达以及不同层次的表达。人们所看到的自然语言本身也是一种表达形式，在这个基础上可以做很多事情。例如，基于深度学习模型把句子变成一个向量，计算向量之间的距离;也可以通过依存分析，把句子建立一个语法树，在树的层次上建立模型匹配;或者可以把句子真正理解到语义层次，这样一来，把任何两个句子的语义做一个匹配可能会达到更好的效果。这都是实践中的尝试，希望大家也可以尝试出更多的道路。第二点在于，机器学习依赖大数据，这道赛题给的是客服领域的数据，希望大家可以探索更多领域的数据，用一些机器学习方法把其他领域学到的东西结合客服领域的数据上来，最终达到更好的效果。事实上，无论是黑产的变化多端导致的样本信息不对称，还是因为客服数据多样性造成的模型弱适应性，这些问题都要解决“小数据”问题。我们理论上常说如果有了大数据就能怎样怎样，但实际工程化过程中都很难达到如此理想的环境。无论是迁移学习，还是无监督学习，如何用较少的样本来达到更高的精度，更快速的识别率，提升机器学习泛化能力，都是下一阶段极具挑战性的课题。这一系列命题，部分构成了新金融领域当下最需要解决的难题。