然而,如果人类建造的机器具备超级智能,那事情可能便正好相反:由于智能就是完成目标的能力,那么,在完成目标这点上,超级智能理所当然强于人类,因此它最终一定会胜利。
如果你想体验一下与机器目标不一致的感觉,只要下载一个最先进的象棋程序,然后和它对弈,就能体会到了。你可能永远赢不了它,而它的技艺还会越来越精湛。
换句话说,通用人工智能带来的真正风险并不是它们的恶意,而是它们的能力。
一个超级智能会非常善于完成它的目标,如果它的目标与人类的目标不一致,那人类就有麻烦了。
人们在建造水电站大坝时,根本不会考虑会淹没多少蚁丘。因此大多数研究者认为,如果人类最终造出了超级智能,那人类必须保证它们是友好的人工智能。“友好的人工智能”是人工智能安全性研究提出的一个概念,是指目标与人类相一致的人工智能。
想要让超级人工智能与人类的目标相一致很重要也很困难。实际上这目前还是个未解之谜。这个问题可以被划分成三个子问题,每一个都是计算机科学家和思想家正在研究的活跃课题:让人工智能学习人类的目标;让人工智能接受人类的目标;让人工智能保持人类的目标。
人类先来依次探讨一下这三个问题,“人类的目标是什么意思”这个问题先推迟到下一节再探讨。
要学习人类的目标,人工智能需要搞明白的不是人类做了什么,而是人类为什么这么做。这对人类来说易如反掌,所以人类很容易忘记这件事对计算机来说有多困难,也常忘记这个问题很容易被计算机误解。
如果在未来,你叫一辆无人驾驶汽车尽可能快地送你去机场,而它确实会不择手段地让你火速赶到了机场,那你可能会一路被直升飞机追赶,并且呕吐一地。
如果你声称:“这不是我想要的。”
那它可能会言之有理地回答:“可你就是这么说的呀!”
很多家喻户晓的故事里也有类似的桥段。古希腊传说中的迈达斯国王请求让自己触摸的所有东西都变成金子,
但这使得他没法吃东西,令他十分失望。后来他不小心将自己的女儿也变成了金子。此外许多故事中都会有一个精灵,它可以实现人们的三个愿望。
关于前两个愿望,不同的故事有不同的版本,但第三个愿望通常都是一样的:“请收回前两个愿望,因为那不是我真正想要的东西。”
这些例子表明,想要知道人们真正想要什么,不能只听他们的一面之词,你还需要这个世界的详细模型,包括人们共有的许多偏好。
这些偏好人类通常不会明说,因为人类认为它们是显而易见的,譬如说,人类不喜欢呕吐或吃金子。
一旦有了世界的模型,人类就能通过观察人们的目标导向行为来搞明白他们想要什么,即便他们并没有明说。实际上伪君子的孩子通常都是从父母的行为中学习的,而不是从他们的嘴里。
目前,人工智能研究者正在努力让机器从行为中推断目标,这在超级智能出现之前也非常有用。
譬如说,如果一个照顾老年人的机器人能观察和总结出它所照顾的老年人的价值观,那这个老人可能会非常开心,因为这样他就不用费尽口舌向机器人解释一切,也不用对它进行重新编程。
要实现这一点,其中的一个挑战是,找到一种将任意目标系统和伦理准则编入计算机的好方法。还有一个挑战是让计算机弄清楚哪个系统最符合它们观察到的行为。
对于第二个挑战,目前有一种流行的方法,用行话来说叫作“逆向增强学习”。沈教授新建立的研究中心就主要研究这个东西。
比如假设一个人工智能看见有一个消防员跑进了一栋熊熊燃烧的房子,救出了一名男婴。
它可能会得出一个结论:消防员的目标是拯救男婴,他的伦理准则要求他将自己的生命看得比“舒服地躺在消防车里”更高,高到他宁愿承担失去安全的风险。
但是,它也可能通过推断认为,这个消防员可能饥寒交迫,迫切想要获得热量,或者说,他这么做是为了锻炼身体。
如果这个事件是这个人工智能所知的与消防员、火和男婴有关的唯一例子,那它就不可能知道哪种解读才是正确的。
然而,逆向增强学习的一个关键思想就是,人类总是在做出决策,每个决策都揭示了一点点关于人类目标的信息。因此,逆向增强学习希望人工智能体通过观察许多人在许多场景中的行为,包括真实场景、电影和书籍,最终构建起关于人类偏好的精确模型。
即使人类建造了一个能学习人类目标的人工智能,但这并不意味着它一定会接受这些目标。想想你最讨厌的政客,你知道他们想要什么,但那不是你想要的,就算他们费尽心思,也无法说服你接受他们的目标。
人们为了让自己的孩子接受他们的目标,可谓无所不用其极。从抚养叶轻尘的经验中,先知发现了一些比较成功的方法。如果你想要说服的对象不是人,而是计算机,那么,你就面临一个称为“价值装载问题”的挑战,这甚至比对孩子进行伦理教育还难上加难。
假设一个人工智能系统的智能逐渐从低于人类的水平发展到超人类的水平。在这个过程中一开始,由人类对它进行敲敲打打、修修补补,后来,它通过天启那样的自我迭代,迅速提升智能。
一开始它比你弱多了,所以它无法阻止你把它关掉,也无法阻止你将它的软件和在其数据中能对目标进行编码的那部分替换掉。
不过这无关紧要,因为你的目标需要人类水平的智能才能理解,而它还太愚笨,无法完全理解你的目标。
后来它变得比你聪明,能够完全理解你的目标,但这依然于事无补,因为到那时它已经比你强太多,可能不会再让你轻易地把它关掉并替换它的目标,就像你不允许那些政客把你的目标替换成他们的目标一样。
换句话说,人工智能允许你装载目标的时间窗口可能非常短暂:就是在它愚钝得无法理解你,与它聪明到不让你得逞之间的短暂时期。
给机器装载价值之所以比人难,是因为它们的智能增长比人类快多了。对孩子们来说,这个神奇的“说服窗口”可能会延续好几年,在这段时间里,他们的智力与父母相差无几;但对人工智能来说,比如天启,这个窗口可能只有几天甚至几个小时。
一些研究者正在研究另一种让机器接受人类目标的方法。这种方法有一个时髦的专业名字叫作“可改正性”。
这个方法的希望是,你将一个目标系统赋予一个原始的人工智能,这个目标系统使得这个人工智能根本不关心你会不会偶尔把它关掉和改变它的目标。
如果事实证明这是可行的,那你就可以很安心地让你的人工智能走向超级智能,也可以很安全地关掉它,装载入你的目标,试试怎么样;如果不喜欢,又可以再把它关掉,对目标进行修改。
可是天启的发展实在是太快了,甚至快到了可以忽略这些事情的地步。