空间智能并不是一个多新的概念,它作为人类智能的一个重要组成部分,早在1905年就受到关注。当时因对机械能力和操作能力的研究而受到启发,美国心理学家Howard Gardner教授第一次明确提出了“空间智能”的概念。
它通常是指一个人准确感受视觉空间并将所见形象表现出来的能力,最著名的例子就是男性与女性对于交通路线的记忆能力差异。当然,它不止于记忆能力,最主要的是人有能力以三维空间的方式来思考,使人知觉到外在和内在的影像,并能重现这些影像。例如,婴儿期的空间智能萌芽,是从婴儿能够区分父母等不同面孔时开始的。
在日常生活中,空间智能不仅是人们生活学习的基本能力,更是进行艺术、科学、数学乃至文学活动不可或缺的能力。例如,孩子们通过感知及操作外部世界的空间,培养其空间智能,这对于他们的整体发展至关重要。
斯坦福大学教授李飞飞创立的“空间智能”公司,其理论基础就是空间智能,旨在让AI能像人类一样对视觉信息进行高级推理。她的研究涉及一种可以合理地推断出图像和文字在三维环境中形象的算法,并根据这些预测采取行动,这也是人工智能大模型解决推理问题的能力。也因此,她认为,空间智能是解决人工智能难题的关键拼图,从“看到”变为“洞察”,“洞察”转变为“理解”,“理解”引导为“行动”。
李飞飞及其团队在人工智能领域的最新研究成果主要集中在两个方面:具身智能和空间智能。
在具身智能领域,他们开发了一种将大模型接入机器人的技术,使机器人能够直接理解人类的复杂指令,并将其转化为具体的行动规划,无需额外的数据和训练。这项研究使得机器人在未经“培训”(也称为无样本训练)的情况下,能够从3D空间中分析出目标和需要绕过的障碍,从而做出行动规划。此外,李飞飞团队还推出了名为VoxPoser的智能机器人,该机器人结合了通用语言大模型、计算机视觉和机器人技术,进一步提升了机器人的理解和执行能力。
在空间智能领域,李飞飞详细解读了这一概念,并在2024年的TED演讲中提到斯坦福团队的一个研究成果BEHAVIOR,这是他们“创建”的一个框架。她强调了计算机视觉领域的快速发展,并表示对此抱有极大的热忱。她认为,空间智能的核心在于教会计算机如何看、学习和行动,并且不断学习如何更好地看和行动
李飞飞所研究的空间智能
李飞飞所研究的空间智能自不待言是一个前沿且重要的领域,其核心概念与技术基础主要涵盖以下几个方面。
一是如何定义空间智能。空间智能是指机器在三维空间中的感知、理解和交互能力。它超越了传统二维视觉的局限,赋予机器对空间的深度认知,使其能够像人类一样在复杂的三维世界中导航、操作和决策。
二是空间智能的重要性。推动AI能力超越当前水平:李飞飞认为,未来的AI应该具备空间智能,能够理解和与3D世界互动,这将推动AI的能力超越当前的水平。
由此可以说,空间智能是实现AGI的关键步骤之一。它不仅仅是AGI的一个子集,更是通向AGI的桥梁。空间智能的发展,将使得机器不仅能够理解人类的语言和情感,还能够在物理世界中以前所未有的方式与我们互动。
三是空间智能的技术基础。空间智能需要四大技术支柱来支持。
1.数字化:数字化是空间智能的基础,它将物理空间的信息转化为计算机可处理的数字形式。这种转化使得空间数据的收集、存储、处理和分析变得更加高效和精确。
2.网络化:网络化技术为空间智能提供了通信和连接的基础。通过构建覆盖广泛、高速可靠的网络,可以实现不同地点、不同系统之间的信息共享和交互,使得空间智能的应用范围更加广泛。
3.智能化:智能化是空间智能的核心,它利用先进的人工智能和机器学习技术,对空间数据进行深度分析和处理,从而提取出有价值的信息和知识。智能化技术使得空间智能能够更好地理解和适应物理世界的变化,提供更加智能、高效的服务。
4.空间计算与AI能力:空间计算和AI能力是空间智能的关键技术。它们通过将物理世界中的空间、场景、数据、用户进行链接,与虚拟世界相结合,构建一个供广大用户共建的数字世界底座。这种能力使得空间智能能够为用户提供个性化、沉浸式的体验,满足不同用户在不同场景下的需求。
这四大技术支柱相互支持、相互依赖,共同构成了空间智能的技术体系。
四是空间智能的应用前景。空间智能不仅让机器彼此互动,而且还能与人类以及真实或虚拟的3D世界互动。比如,用脑电波指挥机器人执行日常任务。
随着数字技术的不断发展,空间智能技术将在多个领域发挥重要作用。例如,空间智能技术可以为VR和AR提供更为真实、立体的体验;通过空间智能技术,自动驾驶汽车和无人机可以更好地理解周围环境,实现更安全的行驶和飞行;空间智能技术可以提高智能制造和物流的效率和准确性,降低成本。
空间智能不仅是实现通用人工智能的关键步骤之一,而且将为人类的生活和工作带来革命性的变化。
李飞飞在2024年TED演讲的题目,是《空间智能,让AI理解现实世界》。
她的演讲,从5.4亿年前的世界:纯粹、无尽的黑暗切入。黑暗之存在,并不是因为缺少光线,而是因为缺少视觉——人类的眼睛。
视觉能力被认为引发了寒武纪大爆发,神经系统从被动体验向主动体验进化。“视觉变成了洞察力。看变成了理解。理解导致了行动。”所有这些都催生了智能。
计算机视觉(机器视觉)的崛起是后来的事。
九年前,李飞飞提交了一份关于计算机视觉的早期进展报告。这份报告里提到了三个强大的力量:神经网络的算法;快速、专门的硬件(图形处理单元或GPU);大数据。
因为有了计算机视觉算法,AI就可以用人类的自然语言描述一张照片。因为有了一系列扩散模型,为生成式AI算法提供动力,提示词已可以转化为照片和视频,创造出全新的事物。
对于空间智能来说,仅仅看是不够的。“看,是为了行动和学习。”如果想让AI超越目前的能力,不仅要能够看到和说话,而且能够行动。令人兴奋的是,大自然花费了数百万年时间进化出空间智能,眼睛捕捉光线,将2D图像投射到视网膜上,大脑将这些数据转换成3D信息。在最近,谷歌的研究人员开发出了一种算法,将一组照片转换成3D空间;
李飞飞团队更进一步,创建了一个将单个图像变成3D形状的算法;密歇根大学的研究人员找到了一种将句子转换成3D房间布局的方法;李飞飞团队则开发出一种算法,可以从单个图像生成无限可能的空间,供人们去探索。目前,李飞飞团队正在训练计算机和机器人,如何在3D世界中行动。
人的空间智能与机器人的空间智能
人的空间智能与机器人的空间智能虽然在本质上有着显著的不同,但它们都涉及对三维空间的理解和操作能力。
人的空间智能主要指利用三维空间进行思维的能力,包括对色彩、线条、形状、空间及其相互关系的敏感性。这种智能使得人类能够在头脑中具体地呈现视觉和空间的想法,并且能够快速地在一个空间矩阵中找出方向。例如,航海家、飞行员、雕塑家、画家和建筑师等职业通常表现出较高的空间智能。此外,空间智能还包括形象思维的智能,即在复杂环境下准确感觉视觉空间,并将所知觉到的信息表现出来。
人的空间智能包括:空间感知,即能够感知周围环境的空间布局,理解物体的位置、大小和形状;空间记忆,即记住空间环境的信息,如地图、路线和地标;空间推理,即能够进行空间逻辑思考,比如解决迷宫问题或理解空间关系等;空间导航,即在空间环境中导航,找到从一点到另一点的路径。
人类的空间智能是与生俱来的,它通过大脑中的多个区域协同工作来实现,如海马体和顶叶皮层等。
相比之下,机器人的空间智能则是通过计算和算法来实现的。空间计算作为空间智能的核心技术,涉及人类与机器的交互,使机器保留并操纵真实物体和空间的参照物。例如,李飞飞的团队在机器人语言智能方面取得了突出进展,可以根据口头指令让机械臂执行任务,这表明机器人可以通过大数据和视觉语言模型来分析3D空间中的目标和障碍,从而做出行动规划。此外,空间机器人需要具备高度的智能和自主性,以便在太空等特殊环境中独立完成任务。
也就是说,人的空间智能更多依赖于生物学上的感知和认知机制,而机器人的空间智能则依赖于先进的计算技术和算法。尽管两者在实现方式上有所不同,但都致力于提高对三维空间的理解和操作能力。
从广义上讲,人的空间智能不仅包括对空间方位的感知能力,还涉及视觉辨别能力和形象思维能力。这是一种倾向于形象思维的智能,能够准确感知视觉空间,并将所知觉到的形象表现出来。
例如,儿童的空间智能通常表现为能够说出清楚的视觉意向,喜欢看图画书、图片,并从图画中获取更多信息,以及喜欢搭积木等活动。
人类的空间智能或者说成人的空间智能具有高度的灵活性和适应性,能够根据不同的情境和需求进行处理和决策。人类可以感知时间的流逝,处理多个事务之间的优先级和先后关系,做出合理的时间规划和安排。同时,人类也具有对空间的感知和理解能力,可以适应不同的空间环境,进行灵活的行动和交互。
机器人的空间智能主要指的是能够适应各种环境,具备高度的智能和自主性,可以轻松行动,能够独立完成各种任务。
机器人的空间智能原理主要包括机械、电子、通讯和人工智能等方面。它们需要具备耐高温、抗辐射和抗震动等特性,以确保在各种环境行动的稳定性和可靠性。同时,机器人还需要配备高精度的驱动器和传感器,以实现精确的运动和控制。此外,它们还需要具备稳定的供电和数据传输能力,以及与人类进行实时数据传输和指令控制的能力。
机器人的空间智能包括:传感器输入,即使用摄像头、激光雷达(LiDAR)、声纳等传感器来感知周围环境;环境建模,即基于传感器数据构建环境的三维模型;路径规划,即使用算法(如AI算法、Dijkstra算法等)来规划从起点到终点的路径;避障,即在移动过程中,实时检测并避开障碍物;自主导航,即在未知环境中自主导航,这涉及到机器学习和人工智能技术。
机器人的空间智能具有高度的自动化和智能化水平,能够按照预设的程序和算法执行任务。然而,与人的空间智能相比,机器人在对空间和时间的感知和理解上仍然存在一定的局限性。它们主要通过传感器和定位技术来感知和理解空间,缺乏人类的灵活性和适应性。你月发多少?我让他发几百块钱呢。我们社保的。
能一斤九。是人的空间智能与气人的空间智能,既有区别又有联系。
本质上,人的空间智能是生物学上的,而机器人的空间智能是工程学和计算机科学上的。
自主性上,人类具有高度的自主性和灵活性,而机器人的空间智能通常依赖于预设的程序和算法。
学习能力上,人类可以通过经验学习新的空间技能,而机器人需要通过编程更新或通过机器学习来适应新环境。
应用上,人类的空间智能广泛应用于日常生活和专业领域,而机器人的空间智能主要用于自动化、导航、探索等领域。
两者之间的联系,可以通过具体的例子来理解。例如,机器人的空间智能可以模仿人类的某些空间行为,而人类在设计机器人时也会借鉴自己的空间智能原理。随着技术的发展,机器人的空间智能正在不断进步,越来越接近人类的水平。李飞飞介绍,机器人的空间智能指的是机器人能够感知和理解外部环境,并通过执行相应的动作来实现对外部环境的适应。
李飞飞认为,机器人要实现对外部环境的感知和理解,首先需要解决机器人在三维空间中的定位问题。
“三维空间中的定位是指机器人如何感知自身、周围环境,并且能够去适应这种变化。”李飞飞说,这需要考虑到机器人与环境之间的关系,即机器人如何感知和理解周围环境。在复杂多变的环境中,如果机器人没有感知能力或者不能理解周围环境,那么它就无法完成任务。
“我们需要让机器人去感知它所处的空间,然后根据这个空间确定它所要采取的行动。”李飞飞说,如果机器人不能理解周围环境,那么它就无法控制自己采取行动。
李飞飞指出,在三维空间中定位是非常困难的。“因为我们要考虑到周围环境里有哪些物体能够被看到,以及我们需要确定一些什么东西。”
在李飞飞看来,要实现对环境进行感知和理解需要从几个方面入手:首先要进行视觉定位;其次要对周围进行感知;此外还需要了解环境中可能存在哪些物体、这些物体在什么位置上、这些物体与周围物体之间有什么样的关系等。
“机器人要通过视觉来进行定位,它可以通过视觉传感器来获取外界信息,比如它可以通过激光雷达传感器获得一些外界信息。此外还需要一些视觉传感器来对周围进行感知。”李飞飞说,通过这些方法可以让机器人知道周围有哪些东西,这些东西在哪里、它们与其他东西之间有什么关系等。“当然还有一些方法来进行定位和感知。比如我们可以通过使用一些传感器来进行定位和感知。”
“我们经常说机器人要有智能,智能的本质是什么?而学习能力最核心的就是与环境的交互。机器人跟环境交互的时候,它会受到周围环境的影响。比如一只鸟飞起来,它会受到风和太阳的影响,也会受到其他鸟类、昆虫、昆虫群的影响。而这一过程是非常复杂的。”
在与环境交互的时候,机器人通常会采用两种方式。
第一种方式是跟周围环境建立一个“物理世界”,即用传感器来感知周围环境;第二种方式是与周围环境进行交互,即用计算机视觉来感知周围环境。
“我们可以想象一个人站在一条河边,然后你向他扔了一块石头。这个时候你会发现,你扔出去的石头正好落在河里面,产生了一个波浪。”“这个时候机器人也会受到影响。它会根据自己对周围环境的感知能力来判断这个波浪是否对自己有影响,然后再做决策。”
“通过这种方式,机器人与周围环境之间建立起一种信息交互的机制,从而使机器人可以获得更好的学习能力,实现更加智能化和个性化的行为。”
目前,李飞飞研究团队正在和华为一起开发一种仿生机器人。“我们现在把这种机器人叫做‘仿生机器人’,它可能会有一些感知能力,但是它并不具备真正的认知能力。”这类机器人最重要的任务是进行三维环境的感知,包括人可以看到什么,怎么看。同时还要进行运动感知,比如如何运动、如何行走。”
“我们在做研究时发现,仿生机器人并不是我们所想的那么简单。比如说我们把仿生机器人拿到自然环境中去进行感知。如果环境非常复杂,它会因为感知能力不足而不能很好地进行感知,这就很难进行行动了。”李飞飞说。
“如果我们想让机器人真正地具备认知能力的话,那么我们首先要去解决它的认知问题。”“所谓认知问题就是它对周围的环境了解多少,对它的周围环境中存在哪些东西了解多少。如果你能够了解到这些东西的话,那么你就能很好地完成任务。”
空间智能落地实践
李飞飞研究团队一直致力于将大模型、计算机视觉和机器人技术相结合,创建出真正实用的机器人,让机器人可以自动地执行人类的任务。她表示,目前在这一领域中还没有一款产品能达到其技术要求。“我们正在努力,以使机器人能够看到、学习和行动。”
VoxPoser智能机器人可以从3D空间中分析出目标和需要绕过的障碍,从而做出行动规划。这款机器人能够实现对人类指令的直接理解,并且不需要任何额外的数据和训练。
“我们现在已经能够做到这一点了,”李飞飞说。“我们只是做得还不够,需要进一步改进。”
VoxPoser机器人目前正在加州大学圣巴巴拉分校进行测试,在那里,学生们会使用机器人来完成一项有趣的任务——绘制一幅地图。这需要学生在3D空间中绘制出一些障碍物和目标。
李飞飞团队还一起研究了ScaleDept机器人系统。该系统是一个能够自动生成地图的工具包,让机器人能够通过三维地图来理解环境、规划路径、并采取行动。
ScaleDept机器人能够以前所未有的速度绘制地图和生成路径。与传统方法相比, ScaleDept可将生成效率提升10倍以上;绘制出来的地图也比以往任何时候都更加准确。ScaleDept还支持“实时”绘制,即使在环境发生变化时也能持续更新地图并提供信息;同时还支持将3D空间和2D平面地图相结合的绘制方式。
李飞飞说:“我们可以根据需要创建这些地图并自动绘制它们,也可以在不需要额外数据或训练的情况下手动生成这些地图。”
她在演讲中展示了 VoxPoser机器人在“真实世界”中的测试情况。她说:“这是一款非常实用、非常有趣、非常强大的机器人系统。”“我们可以用它来绘制一幅地图,并根据需要生成路径;我们可以用它来绘制地面上的障碍物;我们还可以用它来绘制天空中的目标和背景,甚至可以画出虚拟世界中的场景……”
除了 VoxPoser机器人之外,李飞飞团队还在研究其他具有空间智能和具身智能功能的机器人。例如,在实验室中测试了 VoxPoser机器人之后,她们正与斯坦福大学合作开发一款名为 VoxFlex的机器人,该机器人在房间中可以绕过房间中存在的任何物体。这些机器人在一次实验中成功地绕过了一个物体;接下来,她将与斯坦福大学一起进行更多研究并开发一款全新的机器人系统。
实际上,在我国空间智能理应有一些具体的实践。如,智慧办公解决方案。金地空间科技为深信服科技大厦进行了智慧办公解决方案的落地,共建设了19个智慧系统,实现了低碳节能、智慧通行、智慧安防、智慧运维四大场景的智慧化建设。
通过集成化的智慧系统,实现对建筑日常运营的全方位、各因素的智能监测,降低能源消耗,提升办公空间的科技智能和绿色舒适度。
在广州南沙悦方城,金地空间科技为其配置了自主研发的“智慧空间操作系统”(智慧商业解决方案),实现了14个子系统的数据融合,统一集成管理和监控。帮助客户实现精细化管理、效率提升,使数据成为项目的核心财富,实现品牌增值。
在科技领域,通过人造卫星、遥感、雷达、卫星定位、无人机等感知设备获取地球或宇宙中的各种空间信息。对感知获得的数据进行分析、处理和提取,为后续应用提供基础。并将处理后的数据通过通信技术传输到指定地点,实现数据的远程传输和共享。再对收集到的数据进行分析、建模和预测,为空间资源管理、环境保护、交通导航、气象预测等领域提供支持和决策依据。
空间智能展望
随着传感器技术的不断进步,空间智能的感知能力将得到显著提升,能够更精确地捕捉和解析空间信息。
人工智能和大数据技术的融合将推动空间智能向更高层次发展,实现更复杂的空间分析和决策支持。
云计算为空间智能提供了强大的数据处理能力,而边缘计算则提高了数据处理的实时性和效率。
未来,空间智能将在城市规划、交通管理、环境监测等领域发挥重要作用,助力智慧城市的建设和发展。
通过空间智能技术,可以实现工厂、仓库等场所的自动化管理和优化,提高生产效率。
在教育领域,空间智能可以为学生提供更直观、生动的学习体验;在医疗领域,空间智能技术可以用于手术导航、远程医疗等。
空间智能企业可以通过提供空间数据服务,为各行各业提供决策支持,实现数据价值的最大化。
帮助企业构建空间智能平台,整合各方资源,提供一站式的空间智能解决方案,满足客户的多样化需求。
根据客户的特定需求,提供定制化的空间智能服务,提高客户满意度和忠诚度。
空间智能的发展面临着数据安全、隐私保护、技术标准化等挑战。
随着5G、物联网等新一代信息技术的快速发展,空间智能将迎来更多机遇,如远程医疗、自动驾驶等领域的应用拓展。
在2024年的 TED演讲中,李飞飞详细阐述了她对空间智能的愿景,即教会计算机如何看、学习和行动,并且不断学习如何更好地看和行动。她表示,这些目标正在快速实现:她的团队开发了一个名为 BEHAVIOR的框架,将现有的机器学习方法与机器人技术相结合,为机器人带来更强的空间智能能力。此外,李飞飞也提到了一些正在开发中的技术,包括用于无人驾驶汽车的空间感知、用于无人机和机器人的先进视觉系统。
在谈到未来空间智能领域的发展时,李飞飞表示:“现在我们正处于一个关键时刻,我认为这是一个非常激动人心和令人兴奋的时代。在这个时代里,我们将有更多时间来研究如何将机器人、人工智能和人类结合在一起。我们已经可以想象到未来会有什么样的空间智能。”
未来,空间智能将与物联网、人工智能、大数据等技术深度融合,推动产业升级和转型。