裸舞 推特 OpenAI最大竞争敌手Anthropic发布新模子
小母狗 文爱
发布日期:2024-10-28 01:57 点击次数:62
实习生 王春 澎湃新闻记者 喻琰裸舞 推特
能自主完成究诘、回应邮件以及解决其他后台使命的AI捏造助手来了。
10月22日,好意思国东说念主工智能初创公司Anthropic晓喻推出升级版的Claude 3.5 Sonnet模子,升级后的Claude 3.5大谈话模子,Anthropic宣称会达到“仿佛一个东说念主在电脑前使命”的成果。
它或然通过新的“计较机使用”(Computer Use)API,与任何桌面运用程序交互,师法键盘输入、鼠标点击和移动等操作。Anthropic将其称为“下一代AI自我学习算法”,并深信这项工夫有望在改日自动化经济中占有很大一部分。
演示视频里裸舞 推特,究诘东说念主员向Claude 3.5 Sonnet无情了一个执走运用场(02:01)
Anthropic在官方博客中详备先容了这项新功能的研发历程。他们覆按Claude或然“看到”屏幕上发生的事情,然后使用可用的软件器用来扩充当务。通过新的API,Claude不错计较需要移动鼠标的像素数,准确地方击屏幕上的正确位置,完成用户指示。
“咱们并非为Claude联想特定的器用来完成个别任务,而是教它通用的计较机技巧,让它或然使用为东说念主类联想的多样程序器用和软件程序。”Anthropic默示。
为了杀青该功能,Anthropic在器用使用和多模态方面作念了许多前期使命。操作计较机需要络续和讲明图像的才智——即屏幕截图。同期,还需要推理何时以及奈何扩充特定操作。通过覆按,Claude学会了将用户的文本指示迁徙为一系列逻辑智商,然后在电脑上扩充。
举例,它不错匡助用户找到去金门大桥不雅看日出的最好地方,检察驾车时期和日出时期,并在日期中安排步履;还不错自动编写网站代码,确立编程破绽,致使在用户构建运用程序时及时评估其性能。
日本av女优尽管商场上已有其他或然自动化桌面任务的AI代理,如Relay、Induced AI和Automat,但Anthropic宣称,新的Claude 3.5 Sonnet模子在性能和肃肃性上最初于其他竞争敌手。笔据SWE-bench Verified基准测试,Claude 3.5 Sonnet在编码任务上得分从33.4%升迁至49.0%,朝上了扫数公开可用的模子,包括OpenAI的旗舰模子o1-preview。
此外,Claude 3.5 Sonnet在TAU-bench测试中也贯通出色,在零卖限制的得分从62.6%提高到69.2%,在更具挑战性的航空限制则从36.0%跃升至46.0%。即使莫得经过挑升的覆按,升级后的Claude 3.5 Sonnet在遭遇阻碍时还能自我纠错和重试,并能完成需要数十致使数百步的标的。
不外,Claude的计较机使发愤能现在仍有一定局限。举例,它在滚动、拖动、缩放等基本操作上还有辛劳,由于其通过截图并拼接的面孔“不雅察”屏幕,可能会错过轻微出现的算作或奉告。
安全问题亦然一大饶恕点。此前的究诘标明,即使是无法使用桌面运用程序的模子,如OpenAI的GPT-4o,在遭受“逃狱”挫折时,也可能扩充无益的多智商行径,举例从暗网购买假护照。
Anthropic默示,他们取舍了多项法子来留神销耗,举例不在覆按中使用用户的截图和领导词,留神模子在覆按时期打听收罗,并开采了分类器,招引Claude幸免高风险的行径,如在酬酢媒体上发帖、创建账户以及与政府网站交互。
“莫得万无一失的阵势,咱们将抓续评估和雠校安全法子,以均衡Claude的才智和负背负的使用。”Anthropic强调。据悉,多家有名公司仍是启动探索Claude的新功能,包括Asana、Canva、Cognition、DoorDash、Replit和The Browser Company等。
Anthropic由前OpenAI成员Dario Amodei和Daniela Amodei创立,旨在开采安全、可靠的AI模子,其Claude系列大谈话模子被粗鄙以为是 OpenAI 的 ChatGPT 和谷歌的 Gemini 的主要竞争敌手。这次Claude 3.5 Sonnet在关节性能诡计上杀青最初裸舞 推特,展示了Anthropic在东说念主工智能限制一样具有最初实力。