开启智慧之门--> Tomaso Poggio,现年63岁,麻省理工学院人工智能实验室脑与认知科学系的尤金•麦克德莫特讲座教授,同时也是该院生物和计算机学习中心的联席主任。Poggio于1981年开始在麻省理工学院任教,此前他曾在德国图宾根马克思普朗克研究所的生物控制论研究室工作过十年时间。1970年,他获得热那亚大学的博士学位。Poggio是意大利科学院的外籍院士,也是美国艺术与科学研究院的研究员。您怎样定义机器智能?Poggio:对此概念最准确的定义是1953年由英国数学家Alan Turing提出来的。他假设,某种情况下,你可以和另一个房间的人说话。如果那个“人”其实是一台机器,而你却没有判断出来,那你其实就是在和一个智能物进行交流。学习是通往智能的必经之路吗?Poggio:这是一种信念和合理的说法。从进化的角度来讲,灵长目动物和人类其实是地球上受限制最少的生物。昆虫也在学习,但是它们的很多行为受到进化的限制。相反,人类却可以有多年的时间去开发自己的智力。例如,成人会比十岁以下的儿童更容易认清别人的长相。在谈到通过经验来学习时,情感在其中的作用有多重要?Poggio:在解释人类行为和智力发展时,情感当然是十分重要的。从生物学角度讲,我们的情感及其和生化之间的关系,对学习可能是很重要的。在开发学习型机器时,我认为情感对它们的学习不是必须的。但是如果机器要想通过图灵测试,那它就必须能够模仿情感智慧。这就把我们带入一个灰色地带:模拟系统和人类是大不相同的,但是如果没有人可以看出二者之间的差别,那对我们有意义吗?机器要想在学习能力上接近人类的水平,的障碍是什么?Poggio:我们也不知道!但是我觉得机器要拥有和我们一样,甚至超过我们的学习能力,是不存在限制的。这会需要很长时间,但是不是不可能的。直到大约十年前,人们还以为人类的记忆比计算机要强得多。但是,现在却不能这么说了。我们的记忆容量比大脑神经键的数量多不了多少。所以,如果我们有1011个神经元,那我们就有大概1,000多倍的神经键,这加起来是1014比特。1014比特,也就是一百万亿比特,确实很多,但是你可以只花区区50美元,就可以买一个太位硬盘,相当于1012比特,也就是一万亿比特。所以,就总计算能力而言,机器很快就将接近人脑的水平。但是,我们目前所不具备的是将这种能力转化为所谓智能的算法。为什么不能呢?需要做些什么?Poggio:眼下,我们还不知道需要做些什么。如果我知道的话,也许是科学界影响最深远的挑战的智能问题,就变成一个工程问题了。我觉得,问题的关键是将智能的不同方面融合起来,包括视觉、语言、常识等。但是,要想找出这些元素彼此之间的联系,就需要开展基础研究,将神经科学、计算机科学和认知科学结合在一起。只有这样,我们才能够深入地了解问题,并找出答案。了解有关大脑皮层功能的知识是否能够帮助我们开发新的算法?Poggio:可以。如果我们将智能定义为通过可测定人类智慧的图灵测试的能力,那么认识人类大脑肯定会有所帮助。在帮助我们认识人类大脑方面,神经科学功不可没。过去20年来,它取得了惊人的发展。从这个意义上讲,我认为,对于人类大脑如何工作的了解,迟早必将直接帮助我们在计算机视觉和机器学习等工程领域取得突破。在这些方面,您是否也有一些研究?Poggio:的确。我们使用电极去记录猕猴的大脑信号,其中大部分工作是和生物学家一起进行的。这样得出的信息非常,因为我们可以记录每个神经元的数据。由于开展了这项工作,我们能够建立猕猴视觉皮层的数学模型,而猕猴的视觉皮层可以刺激100万个神经元来学习。我们将此模型作为计算机程序来运行,并使用数千张照片对其进行训练,去识别老鼠的八种行为——徘徊、跑动、睡觉、进食等。这些老鼠的遗传基因被修改后患上了孤独症、忧郁症或精神分裂症。该程序很容易地就能够将视频中的行为标为“徘徊”、“跑动”等,并将特定行为的持续时间输入统计数据库,它还能检测出两种行为之间的过渡期。这些共同构成了老鼠的行为特征。此过程实现自动化后,我们就能了解行为和基因组之间的客观联系。该系统的准确度如何?Poggio:我们将系统和人类标注的结果进行对比,发现系统的表现和人类一样准确,甚至更棒。它可以全天候连续工作,而不会感到厌倦!采用这项技术有没有可能开发出一种可描述人类活动的监视系统?Poggio:原则上讲,是可以的。但是这种系统需要接受大量的训练。人类的行为要比老鼠的行为复杂得多。给人工智能系统看一张照片,它就能描述究竟发生了什么,这是否也是您现在研究的内容呢?Poggio:对。但是我们还没有实现这一点。不过很快我们就可以设计出这样的系统,它们能够自动地描述照片的内容,判断是行人、车辆、小鸟还是其他东西。但是还有更为复杂的问题,比如让它们理解照片上的人在做什么。如今还没有这样的计算机。所以,这将是下一个挑战。为什么难度如此之大?Poggio:人类受益于大量的知识和经验。比如,我们知道怎样找到相关线索,以判断某个人是否正参与某个谈话。试想一下,看到一张照片后解释其中发生的事情,需要的就不仅仅是视觉了,它还需要智能。未来十年内,机器可以拥有这样的智能吗?Poggio:描述图片内容的能力,将会是机器面对的的智能挑战之一。要解决这类问题,也就是讲述图片中的故事,我们还需要开展新一轮基础研究。我认为,至少需要20年我们才能拥有这样的技术。