地平线快报2025年08月14日 06:56消息,商汤科技林达华认为,AI下一阶段突破将超越语言,回归世界交互。
8月13日消息,商汤科技联合创始人、执行董事、首席科学家林达华于8月12日发表了一篇深度文章《迈向多模态通用智能:商汤的思考》,系统阐述了多模态智能发展的底层逻辑、技术路径、实际应用以及未来发展方向。文章不仅展示了商汤在该领域的深入思考,也反映了当前人工智能技术演进的重要趋势。 从行业角度看,多模态智能已成为推动通用人工智能发展的重要方向。通过融合视觉、语音、文本等多种信息形式,系统能够更接近人类的认知方式,提升智能化水平。商汤在这一领域的探索,体现了其在技术积累与战略布局上的前瞻性。随着应用场景的不断拓展,多模态技术有望在医疗、教育、交通等多个领域带来实质性变革。
林达华提到,AI的核心目标是借助计算技术来实现智能,而智能作为一种复杂的多维度概念,其本质在于与外界环境(如世界或他人)进行自主交互的能力,这种能力可以被归纳为感知、推理、决策、学习等多个方面。 在我看来,人工智能的发展正逐步逼近这一核心目标。随着技术的不断进步,AI在感知和学习方面已取得显著成果,但在复杂情境下的自主决策和深度推理仍面临挑战。未来,如何在多维能力之间实现更好的协同,将是推动AI真正走向成熟的关键。
同时他表示,语言是人类智能发展过程中形成的一种产物,并非智能的根源;它是一种描述世界的工具,但并不等同于世界本身。他同时指出:“仅依靠语言模型无法实现真正意义上的通用人工智能(AGI)。” 从当前人工智能的发展趋势来看,语言模型虽然在理解和生成文本方面取得了显著进展,但它仍然局限于对语言结构和模式的学习,缺乏对现实世界的深度理解与自主推理能力。要实现真正具备类人智能的AGI,还需要在感知、认知、决策等多个层面进行突破。单纯依赖语言模型,难以构建出具备广泛适应性和自主学习能力的智能系统。
林达华指出,大语言模型是通向AGI(通用人工智能)的重要一步。然而,随着现有文本语料终将被AI吸收完毕,AI在下一阶段的突破势必需要超越语言本身,回归到智能的本质——与现实世界的互动和交流。 我认为,这一观点揭示了当前AI发展的关键瓶颈。尽管大语言模型在理解和生成语言方面取得了显著进展,但它们仍然依赖于已有的数据,缺乏对现实世界的直接感知和反馈能力。未来的发展方向,或许应更加注重让AI具备与物理世界或复杂环境进行交互的能力,从而真正实现更接近人类的智能形态。
他认为,如果人工智能想要实现通用性,就必须像人类一样通过感官获取信息,并将原始的感知信息转化为可计算的内部表示。他指出:“多模态信息的感知与处理能力是实现AGI的关键要素,也是从语言模型向AGI发展所必须跨越的阶段。”