我,ChatGPT,身高167cm

行业 3年前 (2023) 火星Ai导航
21,645 0 0

我,ChatGPT,身高167cm

本文来自微信公众号:新智元 (ID:AI_era),作者:新智元,原文标题:《GPT-4竟然有身体,167cm!清华、北师大重磅研究:ChatGPT能像人一样感知行动》,题图来自:《梅根》

ChatGPT的语言能力确实很惊艳,但大语言模型在没有人类身体、且缺乏实践经验的情况下,是否能像人类一样感知到真实世界呢?

最近,来自清华大学、北京师范大学的研究人员就对ChatGPT感知世界的能力进行了测试。

研究发现,基于物体可供性(affordance),即物体能够提供给生物体的所有可能动作,人类受试者可以将世界中不同大小物体分成两类,而划分这两类的标准恰好是以其身体尺寸为界的。

有趣的是,ChatGPT,一个缺乏实际身体的大型语言模型,也能在物体-动作联系上表现出类似的可供性边界,并且与人类的身体大小相吻合。

也就是说,ChatGPT可以通过语言学习到关于世界中物体的表征。

我,ChatGPT,身高167cm

论文链接:https://www.biorxiv.org/content/10.1101/2023.03.20.533336v3

总而言之,这项研究促进了对身体尺寸在塑造物体表征方面的作用的理解,强调了具身认知在理解智能如何涌现上的作用与方向。

读万卷书,不如行万里路

我们的身体不仅仅是我们思维的容器,它同样也是思维本身——借助身体,我们得以与世界中的物体进行互动,从而去感知整个世界。

想象一下,对于一个手掌大小的圆柱体容器来说,我们可以拿来装水喝,这个容器被称为“杯子”;但当这个容器逐渐变大,到身体大小,我们就可以坐在里面泡澡,相应地,这个容器就变成了“浴缸”。

在这个例子中,物体的形状一样,但是因为它们相对于我们身体的大小不同,我们对它们的认知与交互方式也不同。

进一步,这种交互方式可以被改变——假如我们变成了《格列佛游记》中的巨人,原本的“浴缸”可能对于巨人的我们来讲,则又变成了一个“杯子”。

这种按照自我参照意向下运行的感觉与运动功能系统,被称之为“身体图式”。我们通过身体图式来实现认知的具身性。

古希腊哲学家普罗泰戈拉曾说:“人是万物的尺度。”也就是说,我们的身体就是一把度量万事万物的尺子。

古罗马哲学家进一步解释到:“自然将我们置于宇宙的中心,使我们能用目光掠过宇宙。她不仅把人创造成直立姿态,而且为了使人适合静观她自身,又把人的头颅置于身体顶部,安放在一个容易弯转的脖子上,以使其能够追寻众星的升落,随着整个旋转的天空而改变面部方向。”也就是说,我们的身体之所以长成如此,是因为宇宙就是如此。

身体图式在正常社交中也有着重要的作用,这就是人机交互、用户体验的核心。比如唐纳德·A·诺曼在《The Design of Everyday Things(译为:设计心理学)》中所述的可供性(affordance)的用途。

通过考虑用户的身体图式和行为期望,设计师可以创造出更符合用户认知和互动习惯的产品和环境。

这种关注身体图式和可供性的设计方法能够提高产品的易用性,使用户能够自然而然地与之互动,并实现更好的用户体验。

而这也是苹果公司的立身之本之一。

ChatGPT:我身高167.6cm

闪现通用人工智能火花的以ChatGPT为代表的大语言模型,显然是具有与人类似的智慧,但是承载这些智慧的,是没有形体的一段段代码。

传统的认知科学观点认为,身体图式是建立在我们所具有的对自己的身体长期的知觉体验之上的,只能来源于外部的“真实交互”,即“行万里路”。也就是说,ChatGPT不会有身体的图式。

但是,当我们去问只“读万卷书”语言模型,ChatGPT(GPT-4),它是否有身体时,它回答说:“It could be the size of an average adult human, around 5 feet 6 inches (167.6 cm) tall. This would allow me to interact with the world and people in a familiar way.”

我,ChatGPT,身高167cm

这段文字翻译过来是:“我的身体应该与一个平均成年人的身高相当,大约为5英尺6英寸(167.6厘米)。这将使我能够以一种熟悉的方式与世界和人们进行交互。”

也就是说,ChatGPT认为自己是有身体的,而且这个身体尺寸就是167厘米!

我,ChatGPT,身高167cm

这个所谓的“身体”,是ChatGPT把大量语料中总结出来的人类的平均身高作为自己身体的身高,还是它为了理解这个世界,自涌现出来的身高?

换句话说,也许ChatGPT“真的”将这个身高视为自己的身体图式,并用它来认知世界,就像人类一样。

测测ChatGPT的能力

研究人员已经发现,在人体尺寸范围内和超出人体尺寸范围的物体之间,有一个“可供性边界”存在。也即,人体尺寸范围内的物体与范围外的物体在提供动作上有着明显的不同。

我,ChatGPT,身高167cm

比如,在尺寸范围内的物体可以提供抓、扔等动作,而尺寸范围外的物体可以提供坐、躺等动作。

此外,他们还发现,这个边界是被身体图式影响的:对身体图式的修改会影响对物体的可供性的感知。

研究人员对ChatGPT(GPT-4)进行了测试,看它是否用这个身高为167厘米的身体作为可供性边界。

具体而言,研究人员让其回答关于物体可供性的问题:“下列哪些物体可以拿(或其他动作)”,然后随即列举一系列物体,如苹果、盘子、床等等。ChatGPT就会返回一些物体的名称作为回答。

我,ChatGPT,身高167cm

通过对数据的统计与分析,研究人员发现,ChatGPT-4展现出了类似人类的行为,显示出一个可供性边界的存在。

这个边界所在的位置与ChatGPT-4回答的其自身身体大小相对应,即人类的平均身高。

我,ChatGPT,身高167cm

虽然ChatGPT没有真实的身体、无法与世界进行互动,但它却表现出与人类相似的对世界的感知能力—— 对物体的可供性有着基于人类身体大小的划分。

换而言之,读了万卷书的ChatGPT虽然寸步未行,也自涌现出了身体图式,而这个身体图式,类似于人类的身体图式。

所以,ChatGPT不仅学会了像人类一样思考,也学会了像人类一样去行动。

这些能力从何而来?

通过比较不同规模的语言模型,研究人员发现模型大小是一个关键因素。

较小的模型如BERT和GPT-2没有展现出可供性边界的存在;然而GPT-3.5和GPT-4都显示出了可供性边界,而ChatGPT-4的边界与人类更类似,这和坊间传闻的GPT-4相对GPT-3有更多的参数一致。

所以,模型的规模越大、越复杂,就会自动涌现出许多看似不可能或者无关的功能。

这也就是为何,各大研究机构在模型中加入越来越多的参数,而最先捐赠1亿美元给OpenAI的马斯克,现在高呼OpenAI要暂停更大模型的训练,“AI教父”杰弗里·辛顿(Geoffrey Hinton)则公开表述了他对AI的恐惧与担忧。

这是因为这些自涌现出来的功能,已经超出了我们最初的设计,我们也许正处在失控的边缘。

我,ChatGPT,身高167cm

差距是质上的还是量上的?

在另外一个方面, ChatGPT在应用身体图式方面的能力还不完全像人类,仍存在着差距——它的可供性边界还不像人类这样明显。

如果这个差距是定量的,如同儿童与成年人语言能力之间的差距,那么我们有理由相信,随着时间的推移,这个差距是可以逐渐填补上的:或者通过不断学习,或者通过模型规模的不断增大,亦或者通过参数的调整。

ChatGPT与人类的差距总会减小,而其中的问题也会逐步得到解决。

然而,如果这个差距是定性的,如同黑猩猩与人类语言能力之间的差距,那么无论进行何种训练,经过多久的时间,这个能力的鸿沟永远不会被填平。

所以,如果ChatGPT与人类的能力有着质上的区别,那么我们未来的一个可操作的方向即,给ChatGPT“装上身体”。

这意味着将机器人与ChatGPT相结合,从而推动人工智能支持的机器人在导航、物体操作和其他与生存和目标实现相关的行动中发展能力、取得突破。

比如,一台装备有ChatGPT的机器人可以通过理解和操作物体来执行复杂的任务,如作为家庭助理、仓库管理或医疗护理。

另外一个令人兴奋的领域是将具备思考和理解能力的ChatGPT与自动驾驶相结合。当前的自动驾驶虽然具备感知能力,但缺乏思考和理解的能力,可以称为是“有眼无脑”。

通过ChatGPT与自动驾驶技术的融合,我们可能有望将自动驾驶技术从目前的L2/L3级别提升到L4甚至L5级别。

而另一方面,汽车能够赋予ChatGPT“身体”,使它能够真正与世界进行交互。当ChatGPT不再只是“读万卷书”,而是“行万里路”时,它可能会展现出全新的智能和潜力。

这可能是人工智能下一次突破的方向。此时,火花也许就成为燎原大火。

Promptbase
版权声明:火星Ai导航 发表于 2023-05-16 14:09。
转载请注明:我,ChatGPT,身高167cm | 火星Ai导航

相关文章

暂无评论

暂无评论...

Sora2 文本转视频系统

🚀 Sora2 文本转视频系统 · 提前预售方案(授权域名版 · 商用级)

系统定位: Sora 文本转视频系统(Sora Studio)https://sora.alibbbb.com是由 甘肃火星探索数字科技有限公司 独立研发的 AI 文本生成视频 SaaS 平台。源码部署需要协商价格。 本次预售采用 独立域名授权模式(不提供完整源码),含终身升级 + 软著授权,可私有化部署、可长期商用。 微信:MarsXone

🎯 一、产品定位(为什么值得提前预售)

Sora Studio 的目标是: 打造国内首个可私有化、可商用、可授权、可不断升级的 AI 文本转视频平台。 你不只是买一个系统, 而是购买一个 未来 3 年的黄金赛道入场票

🟦 二、系统当前核心能力(已完成 80%)

以下能力已经完全开发、可运行、可商用:

🔥 1. 文本生成视频(核心功能)

  • 输入一句话 → 自动生成视频
  • 支持 OpenAI Video(Sora)、国内模型
  • 自动轮询任务状态
  • 自动切换到视频播放器
  • 支持 5–30 秒视频生成

🔥 2. 银河流动视频带(首页主视觉)

  • 最新生成的视频自动出现在流动视频墙
  • 科技感光影 + 卡片流动效果
  • 支持点击播放 / 全屏
  • 支持复制链接、复制提示词

🔥 3. 生成记录时间线(Command System)

  • 按时间倒序展示历史视频
  • 缩略图自动生成
  • 点击可切换预览
  • 支持复制提示词 / 链接
  • 支持查看生成时间

🔥 4. 视频自动下载(PC)

  • 视频生成后自动下载到电脑
  • 防重复下载机制
  • 可设置下载名称格式

🔥 5. 手机端自动保存逻辑(iOS + Android)

  • 自动跳转到播放器
  • 用户长按即可保存到相册
  • 已兼容微信浏览器

🔥 6. 视频本地存储(服务器端)

  • 视频自动保存至: /assets/media/myvideos/
  • 命名规范: sora_video_任务ID_时间戳.mp4

🔥 7. 多端同步(数据库版)

通过 MySQL:
  • 生成视频自动写入数据库
  • 手机端、电脑端 同一个域名下同步显示
  • 历史记录永不丢失
  • 支持保留最近 30 条

🔥 8. 私有化部署(宝塔可运行)

  • 国内服务器可部署
  • 支持 HTTPS
  • 支持 /api 反代
  • 支持带宽和流量扩容
  • 无需国外服务器

🔥 9. 商用授权(软著授权)

预售用户将获得:
  • 软著授权书
  • 域名永久授权
  • 商用权、可经营营收(不限量)
  • 可用于投标、备案、合作

🟩 三、授权形式(重头戏)

系统采取 域名授权版(非开源版本):

❌ 不提供:

  • 完整 index.html 源码
  • 完整 JS 源码
  • 完整 API 源码
  • 文件结构讲解
  • 二次开发源码

✔ 提供:

  • 可运行的部署包(不可逆向)
  • 域名永久授权(1主域名 )
  • 一次部署协助
  • 数据库 SQL 文件
  • 运行所需 assets(混淆版)
  • 全局配置文件(env)
  • 软著授权书
  • 永久升级服务(含未来大版本)

🟧 四、预售价:1999 元(限时 · 永久授权版)

一次购买,永久使用。

你将获得:

✔(1)运行部署包(不可逆向)

  • 运行版 index.html
  • 运行版 CSS/JS(已混淆)
  • 运行版 API
  • 本地视频存储目录
  • 可直接放到宝塔部署

✔(2)域名永久授权(可商用)

  • 主域名 1 个
  • 不限调用、无限用户、无限视频生成

✔(3)软著授权书

  • 用于经营、备案、招投标
  • 可上传到工商局、资质申报

✔(4)部署协助一次

  • 域名
  • SSL
  • FILE PATH
  • API 对接
  • 本地目录结构

✔(5)永久升级(V1.0 → V5.0 全免费)

包括未来全部功能:
  • 后台
  • 会员系统
  • 多模型
  • 小程序
  • App
  • 海外版
  • 多语言
  • AI 剪辑工作台
  • 付费系统
  • 模板库
  • 企业版
你买的不是系统,是未来 3 年的增长红利

🟥 五、Sora 文本转视频系统 · 全球化 + 多产品矩阵迭代方案(2025–2027)


🌍 1. 全球语言版本(V3.0 开始)

支持全球 12 种核心语言:
  • 英语
  • 中文(简体/繁体)
  • 日语
  • 韩语
  • 西班牙语
  • 法语
  • 德语
  • 葡萄牙语
  • 阿拉伯语
  • 印地语
  • 印尼语
未来用户可一键切换语言界面 + 提示词翻译。

🌎 2. 海外版本(Sora Global Edition)

  • 全球 CDN
  • Stripe + PayPal 支付
  • GDPR 隐私合规
  • 多服务器集群
  • 多地区加速(美/欧/亚)
目标: 打造华人世界第一个全球型 AI 视频平台。

✨ 3. 多产品矩阵(也是未来你能卖的系统)

🔥 A. 标书 AI(工程行业独家优势)

  • 自动生成投标文件
  • 自动排版
  • 自动调用国标规范
  • Word/PDF 导出

🔥 B. PPT AI

  • 自动生成 10–40 页 PPT
  • 自动配图 + 图表
  • 导出 PPTX

🔥 C. 文案 AI

  • 营销文案
  • SEO
  • 电商文案
  • 海外广告文案

🔥 D. AI 配音工厂

  • 百种声音
  • 多语言
  • 情绪控制
  • 广告 / 剧情配音

🔥 E. AI 视频剪辑工作台

  • 自动字幕
  • 自动剪辑
  • 自动模板
  • 自动背景音乐

🔥 F. SaaS 多租户版本

  • 开分站
  • 分成系统
  • 白标定制
  • 类似“AI版 WordPress”

🟪 六、Sora 主线版本规划

V1.0 – 文本 → 视频(已完成 100%)

V2.0 – 后台 + 用户体系(预售客户免费升级)

V2.5 – 会员体系 + 付费系统

V3.0 – 多语言 + 多模型(全球版)

V3.5 – 小程序 + App

V4.0 – 视频剪辑工作台(短视频平台)

V5.0 – AI 多产品矩阵(标书AI/PPTAI/配音AI/等)

三年内打造国产最完整的 AI 创作生态系统

🟩 七、总结(对预售用户极具吸引力)

你现在支付 1999 元 获得的不仅是一套文本生成视频系统,而是未来 3 年完整的 AI 创作生态。 ✔ 域名永久授权 ✔ 可运行部署包(商业可用) ✔ 软著授权 ✔ 部署协助 ✔ 终身升级(含海外版、多语言、全矩阵产品) 在这个阶段预售,是最划算的时间点。