一文详解：Google I/O 2025 开发者大会，泄洪式升级的 Gemini 强得可怕！-课多多

那个谷歌，它带着全家桶鲨回来了！

看得我眼花缭乱，接下来就以最简洁的方法速看一下都有哪些惊喜。

更新内容大合集

Gemini 2.5 Flash 超过 ChatGPT 了

基础功能

AI视频通信

Google Beam 显示器上有6个摄像机对人实时摄影并变成3D的效果，跟他人视频的时候就能看到一个立体的人了。

6个摄像机点位

实时合成3D人像

人物看起来更加立体

惠普目前已经与谷歌合作，几周后会公布。

实时语音对话翻译

Google meet 不仅可以模仿说话的声音还有语气。

前支持英语和西班牙语之间互译，后续会继续更新其他国家的语言。

AI实时视频对话

Gemini live AI睁开眼睛了，可以看到实时画面，并回答提问者的问题。

对话1

AI回答：是你自己的影子

对话2

AI回答：这是垃圾车

目前安卓和IOS都可以用这个功能了。

Agent+MCP

常见的Agent功能

案例：你想要找一个符合条件的公寓

目前 Agent Mode 只能付费使用。

牛得不行不行的个性化模式

案例：你给别人回复邮件，想半天只能蹦出来几句话👇

优化前

但是AI会在你以往的各种信息（邮件、文件、资料）里找到关于你的资料，并模仿你的语气说话方式直接优化内容。

优化后

文本转语音

案例：正常说话转气声，英文转其他语言，效果非常丝滑。

今天就能用了，API还得等一阵子。

超强编码能力

它能理解复杂的内容（文字+图片），并帮你直接改代码。

案例：我现在有一堆去博物馆拍的照片，想要把照片围成一个3D的球体。

思考草图

给对应的草图和提示词，2.5 pro开始自动调整代码。

正在自己改代码中

最后成品

照片围成了3d的球形

选择其中一张照片，还可以对这张照片进行提问，AI会用语音来回答。

Native Audio功能演示：讲解穿山甲的鳞片

这个功能可以说是产品经理狂喜了，现在就可以自己手搓APP。

Gemini功能更新

Deep Research 分析工具

现在能直接上传文件和图片，像 PDF、普通图片、Word 文档这些，拖到和 Gemini 的对话框里就行，它就能理解这些内容，还能做总结、对比。

另外，以后它还能和 Gmail、Google Drive 一起用（不过这个功能还没正式上线）。

等能用的时候，只要你授权，Gemini 就能从你的邮件和云端硬盘里找数据，然后对比好多文档，给出特别智能的回答。

Canvas 内容生成

现在它多了个 “Create” 按钮，以前创作得费劲输入提示词，现在不用了，直接根据当下的聊天内容，就能自动生成互动内容。

而且，它还能把 Deep Research 分析出来的结果，一键变成网页、播客音频、互动测验这些不同的形式。

不管你是做营销的，想弄点宣传网页；还是当老师的，想把教学资料变成播客；又或是自媒体人，想搞些互动测验来吸引粉丝，用它都超合适，能省不少事儿。

Gemini for Chrome-AI插件

谷歌把 Gemini 集成到 Chrome 浏览器，总之就是浏览助手。

任何网页点 Gemini 图标，打字或说话就能提问，能总结网页、解释术语、跨页问答，不用来回切标签页，再也不怕标签页乱成一团。

这功能先给美国桌面版 Gemini 订阅用户用。

Imagen 4-AI生图

推出了 Imagen 4 这个升级版的图像生成模型。

细节特别清晰、特别细腻，就跟拿放大镜看似的，每一处都清清楚楚。色彩也特别自然、特别丰富，看着特别舒服。而且生成的文字和标注也更靠谱了，不会出现乱七八糟的情况。不管是人物的脸，还是衣服上的纹理，又或者是背景的构图，视觉效果都比以前强太多了，简直上了好几个台阶！

现在，只要你是 Gemini 的用户，不用额外花钱订阅，就能免费薅一把。

文章版权归作者所有，未经允许请勿转载。

THE END

AI笔记