资讯模型与产品··来源: Blog·原文 →

谷歌发布 Gemini 3.5:前沿智能模型正式具备"行动能力"

谷歌在 I/O 大会上推出 Gemini 3.5 系列模型,核心突破是将顶尖推理能力与实际执行能力结合。这标志着大模型从"对话助手"向"自主代理"演进的关键节点,对国内 AI Agent 开发者和企业用户具有重要参考价值。

谷歌发布 Gemini 3.5:前沿智能模型正式具备"行动能力"
[广告位 · 上线后接 AdSense]

从"智能对话"到"智能执行":Gemini 3.5 的核心突破

谷歌在最新 I/O 大会上扔出王炸——Gemini 3.5 系列模型。官方直接喊出"frontier intelligence with action"(前沿智能+行动力)的口号,这可不是简单迭代,而是明牌梭哈 AI Agent 赛道。

简单说,Gemini 3.5 不再满足于当个"嘴强王者",而是要当"实干家"。它不仅保留了顶尖的推理能力,还强化了与外部工具、API 和操作系统的交互能力。这意味着它不再是只能哔哔的聊天机器人,而是能调用搜索引擎、操作文件系统、触发第三方服务,甚至能自主决策下一步动作的智能代理。

技术细节:多模态+工具调用的深度整合

虽然官方还没放出完整技术文档,但从 I/O 大会的演示来看,Gemini 3.5 在以下三个维度直接起飞:

  • 原生多模态理解:文本、图像、视频、音频统统拿下,响应延迟进一步降低,实时交互稳如老狗
  • 结构化输出与函数调用:模型直接输出 JSON Schema 格式数据,精准匹配工具函数,开发者再也不用为 Prompt 工程头秃
  • 长上下文与任务记忆:上下文窗口大幅提升(具体数值还没公布),多步骤任务全程不掉链子

这些能力组合起来,Gemini 3.5 能搞定复杂的业务流程自动化,比如"根据用户需求自动搜索航班、比价、预订、发确认邮件"这种一条龙服务。

对中国 AI 从业者的启示:Agent 赛道进入深水区

谷歌这波操作给国内 AI 圈扔了三颗重磅炸弹:

首先,模型能力的竞争维度彻底变了。过去一年国内大厂还在卷参数量、跑分和对话体验,Gemini 3.5 直接把门槛拉到了"能不能调用工具、完成任务闭环"这个高度。已经在布局 Agent 框架的公司(比如字节的 Coze、阿里的通义千问 Agent)算是抢到了先手。

其次,开发者生态的重要性直线上升。Gemini 3.5 的行动力依赖丰富的工具库和 API 接入,谷歌在 Google Workspace、Android 生态的整合优势明显。国内厂商得好好琢磨怎么在微信、钉钉、飞书等本土生态中搞出类似能力。

最后,合规与安全风险必须重视。当模型具备实际执行能力后,一个错误的函数调用就可能引发数据泄露、资金损失等严重后果。国内用户在使用类似能力时,一定要把权限管理、操作审计和异常拦截机制搞到位。

需要注意的是,Gemini 3.5 目前主要通过 Google Cloud 和 AI Studio 提供 API 访问,国内开发者可能需要通过海外服务器或第三方代理接入。但其技术思路和产品形态,对正在开发 AI Agent 产品的国内团队极具参考价值:下一代大模型的核心竞争力,不在于"聊得多好",而在于"能干什么"。


本文基于 Google AI Blog 报道, 由 AiDuo123 AI 编辑翻译改写。原文链接: https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-5/

常见问题

国内用户能直接用 Gemini 3.5 吗?
目前 Gemini 3.5 主要通过 Google Cloud 和 AI Studio 提供 API,国内直接访问可能受限,需要海外服务器或企业级跨境网络。个人用户可关注后续是否有国内云厂商代理接入。
Gemini 3.5 的 action 能力和 GPT-4 的 function calling 有什么区别?
核心机制类似,但 Gemini 3.5 强调与谷歌生态(搜索、地图、Workspace)的深度整合,且多模态输入对工具调用的支持更原生。GPT-4 则依赖 OpenAI 的插件生态和 API 市场。
国内大模型在 Agent 能力上处于什么水平?
字节 Coze、阿里通义、百度文心都已支持工具调用和多步骤任务,但在系统级集成和生态丰富度上与 Gemini 3.5 仍有差距。国内优势在于本土应用场景的深度定制,如微信、电商、政务流程的自动化。
[广告位 · 上线后接 AdSense]
标签:#谷歌

同类资讯 — 由发布时间排序

Pool 应用将手机截图变为可搜索记忆库 获 200 万美元融资

Pool 应用将手机截图变为可搜索记忆库 获 200 万美元融资

新应用 Pool 通过 AI 技术将用户手机中杂乱的截图自动分类整理,并追溯原始链接。这款由 Spinoff Studio 推出的工具已获 General Catalyst 等机构超 200 万美元 pre-seed 融资,现已在 iOS 平台免费上线,计划推出个人助理类衍生应用。

应用与案例融资动态
美国政府或将持股 OpenAI 等 AI 公司 参照英特尔模式推进

美国政府或将持股 OpenAI 等 AI 公司 参照英特尔模式推进

美国政府持有 AI 公司股权的讨论已从理论进入实质谈判阶段,时机恰逢 OpenAI 等公司 IPO 窗口期。参照英特尔案例,政府可能以无投票权股份、低于市场价格入股,但这将给投资者带来治理不确定性与稀释风险。主动捐赠股权的公司或可换取监管宽松,但政府进入股东名单将改写整个行业估值逻辑。

政策与安全OpenAI
OpenAI 预计一年内上市,估值已达 860 亿美元

OpenAI 预计一年内上市,估值已达 860 亿美元

据 The Information 援引知情人士消息,OpenAI 预计将在未来一年内启动 IPO。此前该公司刚完成员工股份二级市场交易,估值达 860 亿美元,较今年 2 月的 290 亿美元估值大幅跃升近 3 倍,显示投资者对生成式 AI 领头羊的持续看好。

行业动态OpenAI
谷歌 Gemini 成阿根廷国家队主赞助商,AI 首次全面进入世界杯

谷歌 Gemini 成阿根廷国家队主赞助商,AI 首次全面进入世界杯

谷歌与阿根廷足协达成合作,Gemini 成为国家队全球主赞助商,其 Logo 将出现在训练服上。AI 将用于球队战术分析、对手数据研判和球迷互动内容生成。谷歌已同时签约巴西和法国队,将世界杯视为年度最重要文化事件,但 AI 在高压赛事环境中的表现仍面临全球级风险考验。

应用与案例谷歌