谷歌发布 Gemini 3.5:前沿智能模型正式具备"行动能力"

从"智能对话"到"智能执行":Gemini 3.5 的核心突破

谷歌在最新 I/O 大会上扔出王炸——Gemini 3.5 系列模型。官方直接喊出"frontier intelligence with action"（前沿智能+行动力）的口号，这可不是简单迭代，而是明牌梭哈 AI Agent 赛道。

简单说，Gemini 3.5 不再满足于当个"嘴强王者"，而是要当"实干家"。它不仅保留了顶尖的推理能力，还强化了与外部工具、API 和操作系统的交互能力。这意味着它不再是只能哔哔的聊天机器人，而是能调用搜索引擎、操作文件系统、触发第三方服务，甚至能自主决策下一步动作的智能代理。

技术细节:多模态+工具调用的深度整合

虽然官方还没放出完整技术文档，但从 I/O 大会的演示来看，Gemini 3.5 在以下三个维度直接起飞：

原生多模态理解：文本、图像、视频、音频统统拿下，响应延迟进一步降低，实时交互稳如老狗
结构化输出与函数调用：模型直接输出 JSON Schema 格式数据，精准匹配工具函数，开发者再也不用为 Prompt 工程头秃
长上下文与任务记忆：上下文窗口大幅提升（具体数值还没公布），多步骤任务全程不掉链子

这些能力组合起来，Gemini 3.5 能搞定复杂的业务流程自动化，比如"根据用户需求自动搜索航班、比价、预订、发确认邮件"这种一条龙服务。

对中国 AI 从业者的启示:Agent 赛道进入深水区

谷歌这波操作给国内 AI 圈扔了三颗重磅炸弹：

首先，模型能力的竞争维度彻底变了。过去一年国内大厂还在卷参数量、跑分和对话体验，Gemini 3.5 直接把门槛拉到了"能不能调用工具、完成任务闭环"这个高度。已经在布局 Agent 框架的公司（比如字节的 Coze、阿里的通义千问 Agent）算是抢到了先手。

其次，开发者生态的重要性直线上升。Gemini 3.5 的行动力依赖丰富的工具库和 API 接入，谷歌在 Google Workspace、Android 生态的整合优势明显。国内厂商得好好琢磨怎么在微信、钉钉、飞书等本土生态中搞出类似能力。

最后，合规与安全风险必须重视。当模型具备实际执行能力后，一个错误的函数调用就可能引发数据泄露、资金损失等严重后果。国内用户在使用类似能力时，一定要把权限管理、操作审计和异常拦截机制搞到位。

需要注意的是，Gemini 3.5 目前主要通过 Google Cloud 和 AI Studio 提供 API 访问，国内开发者可能需要通过海外服务器或第三方代理接入。但其技术思路和产品形态，对正在开发 AI Agent 产品的国内团队极具参考价值：下一代大模型的核心竞争力，不在于"聊得多好"，而在于"能干什么"。

本文基于 Google AI Blog 报道, 由 AiDuo123 AI 编辑翻译改写。原文链接: https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-5/

常见问题

国内用户能直接用 Gemini 3.5 吗?

目前 Gemini 3.5 主要通过 Google Cloud 和 AI Studio 提供 API,国内直接访问可能受限,需要海外服务器或企业级跨境网络。个人用户可关注后续是否有国内云厂商代理接入。

Gemini 3.5 的 action 能力和 GPT-4 的 function calling 有什么区别?

核心机制类似,但 Gemini 3.5 强调与谷歌生态(搜索、地图、Workspace)的深度整合,且多模态输入对工具调用的支持更原生。GPT-4 则依赖 OpenAI 的插件生态和 API 市场。

国内大模型在 Agent 能力上处于什么水平?

字节 Coze、阿里通义、百度文心都已支持工具调用和多步骤任务,但在系统级集成和生态丰富度上与 Gemini 3.5 仍有差距。国内优势在于本土应用场景的深度定制,如微信、电商、政务流程的自动化。

谷歌发布 Gemini 3.5:前沿智能模型正式具备"行动能力"

从"智能对话"到"智能执行":Gemini 3.5 的核心突破

技术细节:多模态+工具调用的深度整合

对中国 AI 从业者的启示:Agent 赛道进入深水区

常见问题

Pool 应用将手机截图变为可搜索记忆库获 200 万美元融资

美国政府或将持股 OpenAI 等 AI 公司参照英特尔模式推进

OpenAI 预计一年内上市,估值已达 860 亿美元

谷歌 Gemini 成阿根廷国家队主赞助商,AI 首次全面进入世界杯

从"智能对话"到"智能执行":Gemini 3.5 的核心突破

技术细节:多模态+工具调用的深度整合

对中国 AI 从业者的启示:Agent 赛道进入深水区

常见问题

相关推荐

Pool 应用将手机截图变为可搜索记忆库 获 200 万美元融资

美国政府或将持股 OpenAI 等 AI 公司 参照英特尔模式推进

OpenAI 预计一年内上市,估值已达 860 亿美元

谷歌 Gemini 成阿根廷国家队主赞助商,AI 首次全面进入世界杯

Pool 应用将手机截图变为可搜索记忆库获 200 万美元融资

美国政府或将持股 OpenAI 等 AI 公司参照英特尔模式推进