«

Vibe Coding XR:借助XR模块与Gemini,加速AI与XR融合的原型开发进程。

qimuai 发布于 阅读:8 一手编译


Vibe Coding XR:借助XR模块与Gemini,加速AI与XR融合的原型开发进程。

内容来源:https://research.google/blog/vibe-coding-xr-accelerating-ai-xr-prototyping-with-xr-blocks-and-gemini/

内容总结:

谷歌推出Vibe Coding XR:融合AI与扩展现实,60秒将创意转化为交互应用

2026年3月25日,谷歌XR团队的交互感知与图形负责人Ruofei Du及产品经理Benjamin Hersh宣布推出一项名为“Vibe Coding XR”的创新工作流程。该技术旨在显著降低扩展现实(XR)应用开发门槛,让创作者无需深厚编程或引擎知识,即可快速构建交互式、具备物理感知的XR体验。

打破XR开发壁垒,用自然语言直接生成应用

传统XR原型开发通常需要整合复杂的感知管线、游戏引擎和底层传感器,过程繁琐且耗时。Vibe Coding XR通过结合谷歌的Gemini多模态大模型与开源框架XR Blocks,实现了“氛围式编程”。用户只需用自然语言描述想法(例如“创建一朵美丽的蒲公英”或“设计一个交互式物理天平实验”),系统便能在60秒内自动生成功能完整的Android XR应用,并可直接在头显设备或桌面模拟环境中运行与测试。

核心工作流程:从描述到沉浸式体验

该流程设计简洁直观:

  1. 描述创意:用户在Android XR头显或桌面Chrome浏览器中,通过文字或语音输入提示词。
  2. AI生成:Gemini模型基于对XR Blocks框架和范例代码的理解,自动规划并配置场景、感知模块与交互逻辑。
  3. 即时体验与迭代:生成的应用可立即在头显中通过手势交互启动。用户可快速预览效果,并通过分享链接与他人协作。

应用场景广泛,助力教育、科研与创意表达

演示案例展现了该技术的强大灵活性:

技术基石:大模型与专业化框架的深度结合

Vibe Coding XR的成功依赖于两大支柱:

  1. Gemini的长上下文与推理能力:通过精心设计的系统提示词,将Gemini“培养”成一位遵循XR最佳实践(如空间布局、交互距离)的领域专家。
  2. XR Blocks开源框架:基于WebXR、three.js等开放网络技术构建,其核心引擎封装了环境感知、XR交互、AI集成等复杂空间计算子系统,为Gemini提供稳定可靠的代码生成基础。

初步测试显示良好前景,团队持续优化

团队通过内部研讨会收集了60个提示词构成测试集VCXR60。经过11个主要版本的迭代优化,当前系统已能有效减少早期版本中因框架自身缺陷或模型“幻觉”产生的错误。评估表明,在处理涉及复杂动画和手部交互的提示时,使用更高级的“Pro模式”能获得更可靠的结果。

展望:开启空间计算“创意为王”的新时代

Vibe Coding XR标志着空间计算开发正从依赖专业技术向赋能普适创意转变。通过将大模型的推理能力与XR Blocks的高层抽象结合,它正在弥合灵感闪现与物理感知现实之间的鸿沟。

谷歌团队诚邀人机交互、人工智能与XR领域的研究者与开发者共同贡献于XR Blocks开源生态。相关框架与演示已公开,并将在2026年ACM CHI大会的谷歌展台进行现场展示。

中文翻译:

Vibe Coding XR:借助 XR Blocks 与 Gemini,加速 AI + XR 原型开发

2026年3月25日
杜若飞,谷歌 XR 交互感知与图形负责人;Benjamin Hersh,谷歌 XR 产品经理

Vibe Coding XR 是一个快速原型开发工作流,它将开源的 XR Blocks 框架与 Gemini Canvas 相结合,能够将用户指令转化为完全交互式、具备物理感知的 WebXR 应用,适用于 Android XR 平台。这使得创作者能够在桌面模拟环境和 Android XR 头显中快速测试智能空间体验。

大语言模型(LLM)和智能体工作流正在改变软件工程和创意计算。我们正见证一种向“氛围编程”的转变,即 LLM 直接将人类意图转化为可运行的代码。像 Gemini Canvas 这样的工具已经为 2D 和 3D 网页开发实现了这一点。然而,扩展现实(XR)领域仍然难以触及。XR 原型开发通常需要拼凑零散的感知管线、复杂的游戏引擎和底层的传感器集成。

快速、通过氛围编程创建的原型可以解决这个问题。它们能帮助经验丰富的开发者直接在头显中测试新的用户界面、3D 交互和空间可视化。这种快速验证可以为那些最终可能被放弃的想法节省数天的工作量。同时,它也使得构建展示自然科学和力学原理的互动教育体验变得更加容易。

今天,我们宣布推出 Vibe Coding XR 以弥合这一鸿沟。该工作流将 Gemini 作为创意伙伴,与我们基于网页的 XR Blocks 框架协同工作。通过将 Gemini 的长上下文推理能力与专门设计的系统提示词和精选代码模板相结合,该系统能自动处理空间逻辑。它能在 60 秒内将自然语言直接转化为功能完备、具备物理感知的 Android XR 应用。

我们的团队将在 2026 年 ACM CHI 大会的谷歌展台进行现场演示。您今天也可以在此处亲自尝试。

Vibe Coding XR 工作流程

在过去一年中,我们持续迭代设计和改进 Vibe Coding XR 流程,使其无缝且易于使用。以下是一个示例:

为了便于测试,我们还在桌面 Chrome 上提供了“模拟现实”环境。这使得创作者在将应用部署到 Android XR 设备之前,能够快速原型化和测试交互。许多高级感知功能,如深度感知、手部交互和物理效果,在 Android XR 设备上才能获得最佳体验。

Vibe Coding XR 技术简介

Vibe Coding XR 利用 Gemini 的长上下文能力和思维过程,使其扮演专家级 XR 设计师和工程师的角色。我们开发了一个专门的系统提示词,用 XR Blocks 架构和示例来“教导” Gemini,包括关于房间尺度 XR 环境的指南、包管理以及 XR 交互的最佳实践。

底层的 XR Blocks 框架建立在 WebXR、three.js 和 LiteRT.js 等易于使用的网络技术之上。其核心引擎管理着空间计算所需的各子系统间的复杂交互,包括环境感知、XR 交互和 AI 集成。我们的提示词上下文包含以下组成部分:

应用场景:从指令到现实

我们通过氛围编程生成的示例原型,展示了 Vibe Coding XR 工作流程的多功能性:

我们使用更具体的上下文进行提示,例如在 XR Blocks Gem 中使用 NASA 系外行星数据、程序化生成或创建高分辨率纹理,并展示了 Vibe Coding XR 流程中的迭代优化。

初步技术评估

评估 XR 应用一直是个挑战,很大程度上是因为它通常需要动手、在设备上进行测试和主观的人工评估。为了测试我们的 Vibe Coding XR 流程的有效性,我们构建了一个用于创建 XR 应用的指令初步数据集:VCXR60。

VCXR60 来源于四次时长一小时的内部研讨会,包含 20 位谷歌员工参与者提供的 60 条独特指令。使用该数据集,我们测量了推理时间和一次性成功率,特别关注在 XR Blocks 模拟现实环境中零错误执行的情况。例如,一个简单的指令“创建一朵美丽的蒲公英,当我拾起它时会被吹散”,在 Gemini Flash 中可能在 20 秒内完成,但与 Gemini Pro 相比,出现运行时错误的几率更高,因为处理动画和手部交互在思维过程中需要更多的令牌。

早期,我们发现大多数初始错误源于 XR Blocks 本身的缺陷或对不存在或已弃用 API 的幻觉,导致成功率约为 70%。这些见解推动了一个为期六个月的快速迭代周期。今天,经过 11 个主要版本发布,我们很高兴分享 XR Blocks Gem v0.11.0 在 VCXR60 数据集上的初步评估结果,作为基线参考。

我们给开发者的首要建议是:在进行高级 XR 原型开发时,使用“专业模式”能获得最可靠的结果。

结论

Vibe Coding XR 标志着迈向未来空间计算的关键一步,在这个未来中,限制因素不再是技术专长,而是创造力。通过将 LLM 的推理能力与 XR Blocks 的高级抽象相结合,我们弥合了转瞬即逝的想法与可触知、具备物理感知的现实之间的鸿沟。

我们的团队正持续致力于 XR Blocks 框架、基准测试和空间智能的研究。我们邀请人机交互(HCI)、AI 和 XR 社区为 Android XR 上的这个 XR Blocks 生态系统做出贡献。您可以通过快速链接访问开源框架并尝试实时演示,或前来 ACM CHI 2026 参观我们的演示。

致谢

此项工作是谷歌多个团队协作的成果。该项目的主要贡献者包括:杜若飞、Benjamin Hersh、David Li、钱勋、Nels Numan、周重义、陈彦和、陈星月、任佳豪、Robert Timothy Bettridge、Faraz Faruqi、陈向“Anthony”、Steve Toh 和 David Kim。以下研究人员和工程师对 XR Blocks 框架做出了贡献:David Li 和杜若飞(同等主要贡献),Nels Numan、钱勋、陈彦和、周重义(同等次要贡献,按字母顺序排列),以及 Evgenii Alekseev、Geonsun Lee、Alex Cooper、Brandon Jones、Min Xia、Scott Chung、Jeremy Nelson、袁秀秀、Jolica Dias、Tim Bettridge、Benjamin Hersh、Michelle Huynh、Konrad Piascik、Ricardo Cabello 和 David Kim。我们还要感谢 Gemini Canvas 和 AI Studio 团队的支持,包括但不限于:Tim Bettridge、李岩、Daniel Marques、Deven Tokuno、Levent Yilmaz、Saravana Rathinam、Samuel Petit、Mike Taylor-Cai、Ammaar Reshi 和 Robert Berry。我们要感谢 Mahdi Tayarani、Max Dzitsiuk、Jim Ratcliffe、Patrick Hackett、Seeyam Qiu、Coco Fatus、Alon Hetzroni、Aaron Kim、杨英华、Brian Collins、Eric Gonzalez、Nicolás Peña Moreno、张一档、Jamie Pepper、何宇豪、李逸飞、刘子毅、金晶对我们早期提案和 WebXR 实验的反馈与讨论。我们感谢 Tim Herrmann 和 Andrew Helton 的审慎评审。我们感谢 Maryam Sanglaji、Max Spear、Adarsh Kowdle、Guru Somadder、Shahram Izadi 的方向性反馈和贡献。

英文来源:

Vibe Coding XR: Accelerating AI + XR prototyping with XR Blocks and Gemini
March 25, 2026
Ruofei Du, Interactive Perception & Graphics Lead, and Benjamin Hersh, Product Manager, Google XR
Vibe Coding XR is a rapid prototyping workflow that empowers Gemini Canvas with the open-source XR Blocks framework to translate user prompts into fully interactive, physics-aware WebXR applications for Android XR, allowing creators to quickly test intelligent spatial experiences in both simulated environments on desktop and on Android XR headsets.
Large language models (LLMs) and agentic workflows are changing software engineering and creative computing. We are seeing a shift toward “vibe coding”, where LLMs turn human intent directly into working code. Tools like Gemini Canvas already make this possible for 2D and 3D web development. However, extended reality (XR) remains difficult to access. Prototyping in XR typically requires piecing together fragmented perception pipelines, complex game engines, and low-level sensor integrations.
Quick, vibe-coded prototypes can solve this problem. They help experienced developers test new UIs, 3D interactions, and spatial visualizations directly in a headset. This rapid validation can save days of work on ideas that might eventually be discarded. It also makes it easier to build interactive educational experiences that demonstrate natural science and mechanics.
Today, we are announcing Vibe Coding XR to bridge this gap. This workflow uses Gemini as a creative partner alongside our web-based XR Blocks framework. By combining Gemini’s long-context reasoning with specialized system prompts and curated code templates, the system handles spatial logic automatically. It translates natural language directly into functional, physics-aware Android XR apps in under 60 seconds.
Our team will present an onsite demonstration at the Google Booth at ACM CHI 2026. You can also try it out here today.
The Vibe Coding XR workflow
Over the last year, we have been iteratively designing and improving the Vibe Coding XR journey to be seamless and accessible. Here’s an example:

谷歌研究进展

文章目录


    扫描二维码,在手机上阅读