科技

陈建文:如何提升“大”数据的价值与共识?

为数据提供者提供一个正确激励机制的环境,创造的数据能被价值化、共识化,这样就会形成一个庞大的数据市场,使得人工智能也能够更往前进一步。

1月10日,在智慧能源平行论坛现场,电子科技大学教授陈建文进行了题目为“智能产业落地中的供需关系”的主题演讲。陈建文提到,AI目前一个很大的瓶颈是:如果AI要非常大的进步,它必然是需要很大的数据,但是现在的数据提供方都没有足够的激励机制提供极大量的数据。并且已有的那些数据往往被中心化平台垄断,因而阻碍创新。为数据提供者提供一个正确激励机制的环境,创造的数据能被价值化、共识化,这样就会形成一个庞大的数据市场,使得人工智能也能够更往前进一步。

AI大爆发助力“大数据”资源迭起

论坛现场,陈建文首先对人工智能行业发展进行了五个方面的综述:人工智能诞生、人工智能低估、人工智能高潮、人工智能低潮、人工智能浪潮。相关资料显示,1956年7月,Marvin Minsky等一批有远见的年轻科学家在Dartmouth学会上提出了人工智能这一新的学科;1970-1980年,大规模数据和复杂任务不能完成,计算能力无法突破,人工智能进入了发展瓶颈期;1982年证明神经网络具有很强的学习能力,他可以完成任务,解决很多实际问题。由此,人工智能进入到了第二次高潮期,并且进入发展黄金期。

到了九十年代初期,DARPA没有实现,新任领导认为人工智能并不是下一个浪潮,导致人们“专家系统”的狂热追捧逐步降温,政府对人工智能的研究投入缩减,人工智能进入第二次低潮期。2006年,机器学习大师、多伦多大学教授Geoffrey Hinton提出的深度学习在研究领域和应用领域的发起热潮,人工智能进入第三次的发展浪潮。2016年,AlphaGo战胜韩国围棋选手李在石再次引爆全球对人工智能的关注与研究。

基于AI的产业发展历程以及爆发现状,陈建文在会议上提出“人工智能的爆发为何是现在?”这个问题,并从以下三点给予了回答:

第一是摩尔定律所描述的计算能力的指数增长。在过去五六十年当中,按照摩尔定律在增长,所谓摩尔定律指我们的计算能力每过18个月翻一倍。计算能力增长,我们过去不能进行的计算现在都能计算了。

第二是互联网和物联网的爆发性增长所产生的海量数据。有了大量的数据,人工智能就能通过大量数据汇集得到学习,而我们每个生活的角落都将数据化。

第三是智能算法的快速发展。人一开始会模拟大脑工作的原理来做出一些人工智能、机器学习的算法,但是在今后发展过程中,我们可能会推出一些算法,是大脑根本不能实现的,但是在机器里面却能够实现,比如说量子计算。

其中,陈建文强调,数据资源与智能算法是重中之重。

人工智能产业链下的“分久必合,合久必分”

陈建文将人工智能产业链分为四个层面:投资层、认知层、技术层、平台层。投资层:资本环境的活跃对AI产业的培育有极大的推动作用,而资本与企业间的相互促进,也增强了中国AI产业的整体实力和发展;认知层:认知层定义为“机器大脑”,包括知识图谱?语义分析以及智能问答/虚拟助手两个核心领域。

技术层:是为整体产业链提供通用AI技术能力,其中感知层包括目前技术已相对成熟的计算机视觉和语言语音识别两项机器感知任务;平台层:是以通用技术应用平台的形式提供深度学习、模式识别等技术应用服务,对接应用层。

陈建文表示,人工智能产业链不仅包括我们当前所熟知的机器人、智能制造、无人驾驶等大方面,遍布在河南、山东、河北等地的四五线小城也在为人工智能做着一系列数据整理工作。

其次,对于中心化与去中心化的要点,陈建文提出了“分久必合,合久必分”的观点看法。第一,电路交换时代,AT&T变为中心化网络的垄断者;第二,分组交互时代,TCP/IP为基础的去中心网络打破了AT&T的垄断;第三,碎片化的网络内容导致了中心化的内容平台,Google和Facebook等;第四,区块链技术将引领一波新的去中心化的自组织P2P机制的浪潮。

加速人工智能产业落地,如何解决数据流通问题?

在演讲的最后,陈建文强调,深度神经网络对数据、计算等资源有极大的需求。人工智能存在诸多问题亟待解决,对于技术研发者而言,数据获取壁垒较高,一方面数据源过于集中,大量数据被少数垄断性企业所掌控,考虑到数据的高价值和商业机密的保护,企业往往不会开放数据。另一方面,由于隐私性难以保证,很多有价值的私人数据难以获取。获得数据的门槛过高阻碍了算法的进化速度。

陈建文提到,对于数据所有者而言,数据流通存在亟待解决的几个痛点:
数据权属:无法清晰界定;

数据质量:标准不一;

数据安全:隐私与滥用无法保障;

数据定价:数据价值无法准备衡量。

此外,陈建文讲解了人工智能与区块链的共生与人工智能共识促进区块链改进商业模式。陈建文指出,加密经济学创造了一个对数据提供者有正确激励机制的环境;数据被价值化、共识化;在一个公平的数据市场中,数据的价值是通过互熵来衡量;在加密数据市场中,用户提供的数据会最受重视。

因此,AI+BLOCKCHAIN:用AI改造区块链底层,解决区块链的效率和安全问题,BLOCKCHAIN+AI:区块链上的AI数据资产交换,解决用户之间交易信任问题。

陈建文:电子科技大学教授,博导。毕业于清华大学子工程系,从2007年起,其担任IBM Research的研究员。2010年陈建文加入了UC图像通信实验室,研究方向包括视频庄缩,数字图像/视频分析,计算机视觉,机器学习等。2012年10月,陈建文加入了哈佛大学视觉研究中心,研究方向是基于人眼视觉特性的视频质量评估和视频应用的相关研究。2016年,入选国家特聘青年专家,并于当年起担任电子科技大学原电子工程学院教搜、博士生导师,现任电子科技大学视觉智能研究中心(MediaLab)负责人。

亿欧