探花小宝谷歌推出新一代AI模子Gemini 2.0 Flash，救助生成图像，全面转向Agent

发布日期：2024-12-12 13:29 点击次数：178

作家：赵雨荷探花小宝

泉源：硬 AI

为应答 OpenAI 此前推出的宽广新址品，谷歌周三推出下一代贫苦东谈主工智能模子 Gemini 2.0 Flash，不错原生生成图像和音频，同期救助文本生成。2.0 Flash 还不错使用第三方讹诈圭表和办事，使其约略探询谷歌搜索、现实代码等功能。

从周三起，2.0 Flash 的实验版块将通过 Gemini API 和谷歌的 AI 配置平台（AI Studio 和 Vertex AI）提供。但是，音频和图像生告捷能仅对"早期接入互助伙伴"洞开，并筹谋在来岁 1 月全面推出。

畴昔几个月内，谷歌暗示将推出 2.0 Flash 的不同版块，用于 Android Studio、Chrome DevTools、Firebase、Gemini Code Assist 等居品。

Flash 的升级

第一代 Flash（1.5 Flash）只可生成文本，且并未缱绻用于迥殊高要求的使命负载。据谷歌称，新版块 2.0 Flash 模子更具千般性，部分原因是它约略调用器具（如搜索）并与外部 API 交互。

谷歌 Gemini 模子居品发达东谈主 Tulsee Doshi 暗示，

"咱们知谈，Flash 因其在速率和性能上的细致均衡而备受配置者心疼。在 2.0 Flash 中，它依然保执了速率的上风，但当前愈加强劲。"

谷歌宣称，根据公司里面测试，2.0 Flash 在某些基准测试中的运行速率是 Gemini 1.5 Pro 模子的两倍，并在编码和图像分析等范畴"显耀"改造。事实上，该公司暗示，2.0 Flash 凭借其更好的数学性能和"事实性"取代了 1.5 Pro，成为 Gemini 的旗舰模子。

2.0 Flash 不错生成并修改图像，同期救助文本生成。该模子还不错读取像片、视频以及音频录制骨子，从而回复与这些骨子关连的问题。

音频生成是 2.0 Flash 的另一个时弊功能，Doshi 将其描写为"可操控"和"可定制"。举例，该模子不错用八种针对不同口音和说话优化的声息来诵读文本。

不外，谷歌并未提供 2.0 Flash 生成的图像或音频样本，因此无法判断其输出质料与其他模子的比较。

谷歌暗示，它正在使用其 SynthID 工夫为 2.0 Flash 生成的通盘音频和图像添加水印。在救助 SynthID 的软件和平台（即部分谷歌居品）上，该模子的输出将被象征为合成骨子。

此举旨在缓解东谈主们对销耗的担忧。事实上，"深度伪造"（deepfake）正成为日益严重的威逼。据身份考据办事 Sumsub 的数据，从 2023 年到 2024 年，环球检测到的深度伪造数目增长了四倍。

多模态 API

幼女强奸

2.0 Flash 的坐蓐力版块将于来岁 1 月推出。但与此同期，谷歌推出了一个 API，名为 Multimodal Live API，以匡助配置者构建具有及时音频和视频流功能的讹诈圭表。

通过 Multimodal Live API，谷歌暗示配置者不错创建具有来自录像头或屏幕音频和视频输入的及时多模态讹诈圭表。该 API 救助器具集成以完成任务，并约略处理"天然对话模式"，举例打断——与 OpenAI 的及时 API 功能近似。

Multimodal Live API 已于周三上昼全面洞开使用。

AI 代理操作网页

谷歌周三还发布了其首个约略在网页上现实操作的 AI 代理，这是由其 DeepMind 部门推出的商量模子，名为 Project Mariner。该代旨趣 Gemini 驱动，VR视角约略继承用户的 Chrome 浏览器，迁移屏幕上的光标，点击按钮，填写表单，从而像东谈主类相同使用和浏览网站。

谷歌暗示，从周三开动，这款 AI 代理将领先面向一小部分事先选用的测试者推出。

媒体报谈，谷歌正在无间尝试新的款式，让 Gemini 约略读取、回首以致使用网站。一位谷歌高管告诉媒体，这标记着一种"全新的用户体验范式迁移"：用户不再平直与网站交互，而是通过生成式 AI 系统完成这些交互。

分析合计，这种迁移可能会影响数百万家企业——从 TechCrunch 等出书商到沃尔玛等零卖商——这些企业一直以来皆依赖谷歌将信得过用户开荒到他们的网站。

在与科技媒体 TechCrunch 的演示中，谷歌实验室总监 Jaclyn Konzelmann 展示了 Project Mariner 的使命旨趣。

在 Chrome 浏览器中装配一个扩张圭表后，浏览器右侧会弹出一个聊天窗口。用户不错教导代理完成诸如"根据这份清单在超市创建购物车"之类的任务。

接着，AI 代搭理导航到一家超市的网站，然后搜索并将商品添加到编造购物车中。一个可想而知的问题是代理运行速率较慢——每次光标迁移之间约有 5 秒的延长。或然，代搭理中断任务并复返到聊天窗口，要求澄澈某些物品（比如需要些许胡萝卜等）。

谷歌的代理无法完成结账，因为它不会填写信用卡号或账单信息。此外，Project Mariner 也不会为用户接受 cookies，或签署办事条件公约。谷歌暗示，这是出于对用户更好适度的接洽，成心不允许代理现实这些操作。

在后台，谷歌的代搭理截取用户浏览器窗口的截图（用户需在办事条件中痛快这极少），并将其发送到云表的 Gemini 进行处理。然后，Gemini 会将导航网页的教导发送回用户的电脑。

Project Mariner 还不错用于搜索航班和栈房、购物家居用品、查找食谱以很是他当前需要用户点击网页技艺完成的任务。

不外，Project Mariner 仅能在 Chrome 浏览器的最前端活动标签页上使命，这意味着在代理后台运行时，用户无法用电脑作念其他事情，而是需要不雅看 Gemini 渐渐方位击操作。谷歌 DeepMind 首席工夫官 Koray Kavukcuoglu 暗示，这是一个相当特意的决定，观点是让用户知谈谷歌的 AI 代理正在作念什么。

Konzelmann 暗示，

" [ Project Mariner ] 标记着咱们当前看到的一种根人道的新用户体验范式迁移。咱们需要探索一种正确的递次，让这一切篡改用户与网页互动的款式，同期也篡改出书商为用户以及代理创建体验的款式。"

AI 代理作念商量、写代码、闇练游戏

除了 Project Mariner，谷歌周三还推出了几款专门用于特定任务的新 AI 代理。

其中一个 AI 代理 Deep Research 旨在通过创建多时弊商量筹谋匡助用户商量复杂商量。它似乎是 OpenAI 的 o1 的竞争敌手，后者也约略进行多时弊推理。但是，谷歌发言东谈主指出，该代理并无谓于处置数学和逻辑推理问题、编写代码或进行数据分析。Deep Research 现已在 Gemini Advanced 中推出，并将在 2025 年登陆 Gemini 讹诈。

当收到一个困难或范畴较大的问题时，Deep Research 会创建一个多时弊的步履筹谋往还复问题。在用户批准筹谋后，Deep Research 需要几分钟的时刻往还复问题、搜索网页，然青年景一份详备的商量答复。

另一个新 AI 代理 Jules 旨在匡助配置者完成代码任务。它平直集成到 GitHub 使命流中，使 Jules 约略检察现存使命并平直在 GitHub 中进行革新。Jules 现已向一小部分测试者推出，并将在 2025 年晚些时候发布。

终末，谷歌 DeepMind 暗示正在配置一款用于匡助用户闇练游戏的 AI 代理，这是基于其在创建游戏 AI 方面的恒久教导。谷歌正在与 Supercell 等游戏配置商互助测试 Gemini 说明《部落突破》等游戏宇宙的智商。

AI 生成摘抄

谷歌周三还发布了基于 Gemini 2.0 模子的 AI 生成摘抄功能" AI Overviews "，为某些 Google 搜索查询提供的摘抄骨子，将很快约略处理"更复杂的话题"，以及"多模态"和"多时弊"的搜索骨子。谷歌暗示，这包括高档数常识题和编程问题。

新的 AI Overviews 功能将在本周开动进行有限测试，并将在明岁首芜俚现实。

不外，自本年春天推出以来，AI Overviews 激勉了很多争议，其提供的某些可疑叙述和提议（举例保举在披萨上加胶水）曾在网上激勉热议。根据 SEO 平台 SE Ranking 的一份最近答复，AI Overviews 援用了"并不全皆可靠或基于笔据的"网站，包括逾期的商量和付费居品列表。

分析合计，主要问题在于，AI Overviews 或然难以分辨信息泉源是事实、虚构、调侃照旧严肃骨子。往常几个月里，谷歌篡改了 AI Overviews 的使命款式，规则了与局面和健康话题关连的谜底。但谷歌并不宣称这一功能还是尽善尽好意思。

尽管如斯，谷歌暗示，AI Overviews 普及了搜索参与度，尤其是在 18 到 24 岁这一时弊用户群体中——这是谷歌的要点标的东谈主群。

最新 AI 加快器芯片 Trillium 专供 Gemini 2.0

谷歌周三发布了其第六代东谈主工智能加快器芯片 Trillium，宣称这一芯片的性能改造可能从根柢上篡改 AI 配置的经济模式。

这款定制处理器用于测验谷歌最新发布的 Gemini 2.0 AI 模子，其测验性能是上一代的四倍，同期大幅缩短了能耗。

谷歌首席现实官桑达尔 · 皮查伊（Sundar Pichai）在一篇公告著作中说明谈，谷歌还是将超越 10 万颗 Trillium 芯片贯穿在一个单一的网罗结构中，造成了环球最强劲的 AI 超等筹划机之一。

Trillium 在多个维度上完毕了显耀的跨越。与其前代比拟，这款芯片每颗芯片的峰值筹划性能普及了 4.7 倍，同期高带宽内存容量和芯片间互联带宽均翻了一倍。更为贫苦的是，它的能效普及了 67%，这是数据中心在应答 AI 测验重大能耗需求时的一个时弊方针。

Trillium 的生意影响不仅限于性能方针。谷歌宣称，与上一代芯片比拟，该芯片在每好意思元的测验性能方面普及了 2.5 倍，这可能会重塑 AI 配置的经济模式。

分析合计，Trillium 的发布加重了 AI 硬件范畴的竞争，而英伟达凭借其基于 GPU 的处置决策恒久占据主导地位。天然英伟达的芯片仍然是很多 AI 讹诈的行业圭臬，但谷歌的定制芯片递次可能在特定使命负载，迥殊是测验相当大的模子方面具有上风。

还有分析称，谷歌在定制芯片配置上的盛大投资反应了其对 AI 基础设施贫苦性的战术押注。谷歌决定将 Trillium 提供给云客户，这标明其但愿在云 AI 阛阓上更具竞争力，与微软 Azure 和亚马逊 AWS 伸开厉害竞争。关于通盘科技行业而言，Trillium 的发布标明 AI 硬件霸主之争正过问新阶段。

本文来自微信公众号"硬 AI "，热心更多 AI 前沿资讯请移步这里

上一篇：麻生希快播英伟达的把持困局: AI 时间的权利与制衡

下一篇：反差为不知 12月11日大秦转债下落0.05%，转股溢价率0.39%

探花 小宝 谷歌推出新一代AI模子Gemini 2.0 Flash，救助生成图像，全面转向Agent

探花小宝谷歌推出新一代AI模子Gemini 2.0 Flash，救助生成图像，全面转向Agent