依图联合创始人:AI 的格局,场景和未来

我是 Leo,依图科技联合创始人,UCLA 统计学博士,从事人工智能研究 15 年,曾在深度学习奠基者 Yann LeCun 教授实验室担任研究员,2010 年获得 PASCAL 图像目标检测比赛冠军,2017 年获得美国国家标准与技术研究院 NIST 和美国国家情报高级研究计划局 IARPA 人脸识别全球冠军。

最近,大量关于人工智能的研究报告,投资人、创业者、学者热议 AI 的趋势和对社会各行业的影响,不乏对 AI 技术和产业发展的误解,很容易有误导性。宏观上,议题大体分为三个方面:AI 是多大的事?谁是真正的 AI player?AI 的场景在哪里?

从科学研究者和创业者的双视角谈谈我的主要观点:AI 的边界,只有领军人物才可能准确把握和拓展;顶尖企业,因为远见造就势能;AI 的未来,无与伦比,没有历史可以借鉴,也没有权威可以预测。

「S」曲线看 AI 格局

我对 AI 发展历史和预测,用上图的「S」形曲线建模(Sigmoid 函数,恰好也是用来刻画神经网络中神经元的 activation function)。横轴表示时间,纵轴表示机器智能水平。曲线上的点表示某个时间点的全球最高智能水平。2013 年开始是新 AI 时代(深度学习),2013 年前的机器智能发展水平相较于近 5 年的发展基本可以忽略不计。红线代表悲观派(AI 退潮、AI 泡沫等),2017 年之后很快出现发展停顿;蓝线代表乐观派,2017 年之后还有快速发展。值得强调的是,蓝红两条曲线对 AI 历史有相同认识,但市场上很多论调或研究报告看到的是另一条曲线,很大概率调研看到的 AI 水平离最高水平有很大差距。分析 AI 格局的不同立场,可以通过解读 S 曲线的三个方面:

1、AI 过去的发展以及 AI 未来发展程度和速率的预测

2、AI 发展水平和商业场景的关系

3、各个 player 的所在位置和差距

具体来说,我们先从 AI 过去 5 年的发展情况谈起,以人脸识别作为例子,把人脸从 N 个人中找到的概率在 95%,纵轴就是可识别的规模(N 的大小)。

技术不是趋同,而是会放大差距、解锁场景

2017 年人脸识别最高水平可识别规模在 20 亿人,大概比 2016 年可识别千万提高两百倍,比 2015 年提高了数万倍。在 2017 年全球最权威的人脸识别测试中(NIST),我们比第二名 Vocord 团队,在千万比对测试上领先 2%(Vocord 在另一测试集比腾讯优图高 10%),这个就是大家常说的技术水平趋同,高一两个百分点没有意义(引申出难兑现成竞争价值)。这个误区需要从两个方面解读:

第一方面,算法在亿级、十亿级比对的领先会快速放大到 5%,20%。这是一般的算法性能曲线的规律。除了可识别规模上的重大差异,还体现在难(hard)的数据上的识别率差异。从算法经验来说,黑人、女性、小孩、大年龄跨度、遮挡等是较难识别的群体和类别。在这些子类上,不同算法之间的性能差异会更大。

超大规模下的评测本身就是一个不简单的学术命题,还需要大量的数据支撑,真正能观测到 20 亿数据下性能的人少之又少,例如美国很难建立 20 亿级的测试集。这不是访谈一些人脸识别研究从业者就能获得,这是误区的第一个来源。

第二方面,算法提高,扩大可识别规模,就会解锁更多商业应用场景。百万、千万识别规模对应的是身份认证场景,远程认证、手机解锁都属于此类。「技术无差异」的论调在这个场景下倒是可以成立。但安防刑侦破案对亿级和十亿比对有刚性需求,在这些场景下,不是多识别出几个罪犯的问题,而是找出来概率差别十倍以上的,几乎就是行与不行的问题。「非关键性应用」的论断误导性极强。

在最新的安防案例中,万路甚至十万路摄像头视频的人脸搜索、归档对算法有极高要求,假定每路人流为万,要在万路视频中,搜索性能相当于要求算法百亿、千亿规模上的可识别率。这比其他场景的性能要求再提高千倍。以不同算法为基础的产品端体验差异就被同比例放大。另外,全球人种的识别,是反恐、出入境业务对识别的覆盖面要求是很很高的。

总结来说,99% 识别率的算法和 99.99% 的算法,区别在于可解锁的应用场景。这些新的场景解锁,是最先锋的算法团队和垂直领域的开拓者(比如公安系统的创新团队)共同努力,也不是访谈一般的安防从业者就能感知变革的最前沿,这是误区的另一个来源。

技术水平的三个层次 VIE:Vision(远见),Insight(洞见),Execution(执行)

技术实力该如何评估比较呢?最常见的是测试比赛的冠军、实际案例、招投标 PK 成绩、论文等。这些或许能区分是不是前 10 名的 AI 团队,但很难区分最好的团队。我对技术的三层解构:Vision,远见,或战略格局、技术趋势判断;Insight,洞见,算法本质和客观世界分布规律的理解;Execution,执行,算法实现、数据获取、工程计算平台等。具体来说:

最基础的 Execution 就是算法做到什么水平,特别是大体框架已知后,能快速实现,包括基础算法、场景数据、计算实验平台、产品应用等。比如,AlphaGo 出来后,多快能复现;语音识别多快能追上全球最好的结果。顶级的 Execution,不是开源的算法平台可以弥补。特定领域的专家能帮助团队快速提高对应领域 Execution 的水平。这个层面,中国团队应该是世界一流的。Google 如果是世界第一的话,不论是下棋、人脸识别、语音识别等,中国的水平应该不会比 Facebook、Microsoft、Apple、Amazon 等差,甚至某些方面稍强些。大部人比较技术,基本就在这个层次。但更重要的、威力更大的是上面的两个层次。

再往上一层是 Insight,考察对技术的深刻认知。包括算法模型的数学解释、客观世界分布规律的独到见解。Insight 指导如何使用数据、计算力(就是指导如何使用算法甚至创新算法)。这层决定能不能比 Google 做得更好,或者能保持同一发展节奏。假定拥有深度学习算法框架、海量数据在同样水平,但是大家对算法性能调教还有巨大差距。以人脸识别为例,我们使用了 2 亿张人脸图片(几十亿张图片的子集)训练,有效模型参数达到 10 亿量级,利用对人脸这个对象的属性先验的合理假设,包括光照、年龄、种族、运动模糊、成像解析度等,模型定制、数据如何组合、计算如何加速在性能调优和模型学习效率上(就是上面提到的 Execution)都有重大差异。这就是为什么拥有算法、算力、数据条件的互联网巨头也不见得能在单项 AI 任务上能做到全球前三。

Vision:预测发展趋势、定义未来方向,想象对生活、生产的影响。这除了需要对技术的深刻理解,还需要对技术的创新能力,以及技术商业价值的想象力、创造力。技术的远见,回答 AI 的场景在哪以及多快到来。

强的 Execution,Insight 肯定不错,但可能毫无 Vision;最强的 Vision,Insight 肯定一流,但 Execution 可能很差。VIE 都很强的团队全球极其稀缺。用深度学习领域最强的两位大师 Hinton 和 LeCun 谈一下我的感受。在 2010 年前,学术界不少人已经在谈大数据对机器学习的重要性,Hinton 团队 2012 年在 LeCun 发明的算法基础上,用了百万的训练数据,在 ImageNet 上取得世界级的突破性进展;同一时期,LeCun 团队只用了不到十万的数据。但是在 Hinton 公布 ImageNet 结果的头两个月,LeCun 团队没法重现 Hinton 用自己算法的实验结果。在 Hinton 公布算法实现和技巧后,LeCun 团队的结果就轻松超过了 Hinton 团队的水平。

两位大师都拥有超一流的 Vision,在深度学习方向上坚持三十年。但是他们 Vision 的差别以及以此带来的信念差别使得 Insight 的差别(是否追求更深刻见解)在当时可能是巨大的,对深度学习算法发挥的突破条件包括训练数据规模、模型正则化实现、activation function 选取、GPU 计算等的理解还有显著差异。这些在当时,原理还不清楚时,可能完全是凭着 Hinton(包括那一期超强的博士生)的直觉。这种 Insight 的差距,使得 LeCun 团队已知所用算法框架和目标性能但未知关键实现时,也不能重现结果。但之后,LeCun 团队拥有更好的 Execution(大规模系统性调优),能在短时间内算法性能超过。这种最牛高手间信念的微妙差异,到底来源于什么,值得深思。

为什么 Vision 很重要?就像雷达,对别人来说是盲区,Vision 让你看见,看见所以相信,相信所以平静。不仅以此获得战略优势,还有定力,排除诱惑和干扰。

Vision 如何辨别呢?非常难,甚至几乎不可能,只能由同样有 Vision 的人欣赏。就像 taste 难以打分一样,只能由同样有 taste 的人欣赏。Vision 带你看到的,就是 99% 的专家同行都看不到、不相信的。所以,伟大往往和误解相伴。LeCun 在深度学习被实际测试数据验证前,也很难被美国主流学术圈认可,甚至发表顶级会议都不是简单的事,可如今,几乎所有的论文都要贴上深度学习的标签。

但是判断过滤没有 Vision 的团队,倒是有迹可循。一般来说,无论学术还是创业,伟大的突破,都需要多年前后一致的投入和深耕。隔年换领域或者什么模式都在做的(垂直、平台等),归类为没有 Vision 应该没什么问题。

有了 VIE 的拆解,我认为,AI 新时代的壁垒只有人,最顶级的人。领军人物对 AI 技术和商业边界的未来分布判断无法替代,决定 AI 发展基本要素(算法、算力、数据和场景)的所需程度和权重。拥有顶级 Execution 和 Insight 的团队,最知道对算法有效的数据在哪、如何标注使用。拥有顶级 Insight 和 Vision 的团队,最早知道技术的突破带来最具商业价值的场景在哪以及何时到来。

AI 未来:没有历史可以借鉴,也没有权威能够预测

谈了 AI 发展,技术如何解构,谈谈 AI 的未来。基于深度学习的 AI 新时代,大大不同于 30 年历史上的 AI,这是被各种应用、在实际场景、大规模数据验证过性能的技术,而不只是理论或概念。尽管过去 5 年的发展,对得起人们的期待,今天,还有不少人担心新 AI 像过去一样很快会退潮。但我认为,AI 新时代只是开始。我从新 AI 的三个特性简要阐述:

1、AI 是全新的维度。这是最重要的,决定 AI 到底是多大的事。

AI 技术如何创新发展,如何变革商业,没有历史可以借鉴,也没有权威能准确判断。AI 不仅仅是一个技术,AI 突破还能突破所有技术包括人机交互、搜索、机器人、芯片计算、医学、制药等科学领域的几乎所有学科。

2、AI 的发展速度快、跳跃性强

从 S 曲线中,可以看到过去 5 年,AI 的发展及其迅猛,单门类(人脸识别)算法有了万倍的增长。但我对未来更加憧憬,即 S 曲线中 2018 年之后的曲线有多陡。AI 发展带来的多维度技术和各场景深度结合、叠加会带来更有冲击力的体验。从多技术维度来说,从视觉,到听觉、语义理解、运动控制会在之后几年都会快速突破;和芯片结合,端智能渗透到与用户的最后 30 公分的交互体验,从 Internet Of Things 向 Internet Of Intelligence 跨越,让智能无处不在。

3、AI 领先一步,会带来巨大势能

在 S 曲线中,处在不同位置的团队,优势不只是横轴时间的差距,而是技术领先带来的累积效应(曲线积分)以及更多元(多条 AI 技术曲线)AI 技术的叠加,这使得 AI 能有跨行业的摧毁性。不仅仅决定某个行业,第一名和第二名的差距或位置关系,还能使得 AI 领先的行业的领导者撬动 AI 意识落后的行业。

AI 未来,无与伦比;因为看见,所以相信。【责任编辑/古飞燕】

创客100创投基金成立于2015年,直通硅谷,专注于TMT领域早期项目投资。LP均来自政府、互联网IT、传媒知名企业和个人。创客100创投基金对IT、通信、互联网、IP等有着自己独特眼光和丰富的资源。决策快、投资快是创客100基金最显著的特点。
相关文章
智能手机陷红利真空,人工智能才是神一样的队友
智能手机陷红利真空,人工智能才是神一样的队友
李开复:人工智能在中国更易井喷式发展
李开复:人工智能在中国更易井喷式发展
依图联合创始人:AI 的格局,场景和未来
依图联合创始人:AI 的格局,场景和未来
AI有可能了解人类感情吗?
AI有可能了解人类感情吗?
3年市值增长2500亿美元 纳德拉是如何重塑微软的
3年市值增长2500亿美元 纳德拉是如何重塑微软的
风口上的医疗AI:巨头高调竞赛 产业迷雾重重
风口上的医疗AI:巨头高调竞赛 产业迷雾重重