百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

Claude迎重磅升级,支持像人一样操控计算机:不仅可以查看屏幕、移动光标,还可以单机按钮、键入文本!

haoteby 2025-02-10 12:30 23 浏览

每经编辑:杜宇

当地时间10月22日,Anthropic的Claude 3.5迎重磅升级!

Claude 3.5 Haiku 和升级款的 Claude 3.5 Sonnet 都来了。Claude 3.5 Sonnet 不仅编程能力更强,还带来全新功能computer use(计算机使用), Claude 现在支持像人类一样操作计算机,可以遵循用户的命令在计算机屏幕上移动光标,点击相关位置,并通过虚拟键盘输入信息,模拟人们与自己计算机的交互方式

升级版 Claude 3.5 Sonnet 现在就可以使用了。computer use测试版也开放使用。

进化后的Claude 3.5 Sonnet堪称最强推理模型。它在各个方面得到了全面显著的提升,尤其是业界领先的编码能力。

甚至,Claude现在能够像人类一样操作计算机,不仅可以查看屏幕、移动光标,还可以单机按钮、键入文本!

目前,Claude 在以与人相同的方式使用计算机的模型中处于最先进水平——也就是说,通过查看屏幕并根据屏幕内容采取行动。在一个旨在测试开发人员让模型使用计算机的评估(OSWorld)中,Claude 目前获得了 14.9% 的分数。这远未达到人类水平的技能(通常为 70-75%),但远高于同一类别中排名第二的 AI 模型获得的 7.7%。

Anthropic开发者关系主管表示,计算机使用是全新人机交互范式的第一步。同时也是,AI模型应该具备的全新基础能力。

为什么要训练AI操作电脑?Anthropic表示,在过去几年里,强大的AI开发已经达到了许多里程碑,比如执行复杂逻辑推理,以及识别和理解图像的能力。而下一个突破点,就是AI操作电脑了!如果模型不必通过专门定制的工具进行交互,而是按指示就能使用所有软件,这一定代表着未来的方向。

在下面这个demo中,Anthropic研究员给Claude提出了一个极有难度的挑战:

我的朋友要来旧金山,我想明天早上和他一起在金门大桥看日出。我们将从太平洋高地出发。你能帮我们找到一个绝佳的观赏地点,查看一下开车时间和日出时间,然后安排一个日历活动,让我们有足够的时间到达那里吗?

Claude自行打开了Google,开始了搜索。

金门大桥和用户居住地有多远呢?Claude会自己打开地图查找距离。

开发者展示出Claude如何操控了自己的笔记本电脑,丝滑地完成了一个网站编程任务。

首先,Claude在小哥的Chrome浏览器中导航到了Claude.ai,并且让Claude为自己创造了一个90年代主题的个人主页。

只见它自己输入网址,键入提示,向另一个Claude发出请求。

假设我们需要填写一份来自蚂蚁设备公司的供应商请求表,但需要填写的数据散步在电脑的各个角落,Claude能帮我们完成吗?

只见它开始截取操作者的屏幕截图,并且很快发现:蚂蚁设备公司并不在表格中。

这时,它立刻切换到CRM系统中,去搜索这个公司。找到后,它开始滚动页面,查找填表所需的所有信息,然后提交了表格。这也就意味着,我们工作中许多不得不做的繁琐事项,都可以交由Claude代劳了!

在各项行业基准测试中,升级版Claude 3.5 Sonnet性能得到了全方位提升。特别是,智能体编码、工具使用任务中取得显著突破。

在编码能力方面,它在SWE-bench Verified测试中,性能从33.4%大幅提升至49.0%。

这超越了所有公开可用的模型——包括OpenAI o1-preview等推理模型和专为智能体编码设计的专门系统。

凭借快速的处理速度、改进的指令执行能力和更准确的工具使用,Claude 3.5 Haiku非常适合面向用户的产品、专门的辅助任务,以及从海量数据中生成个性化体验。

AI操作电脑能力代表了一种全新的人工智能开发方法。

迄今为止,LLM开发者一直在努力使工具适应模型,创造特殊的环境,让AI使用专门设计的工具来完成各种任务。

虽然Claude已经达到了当前的最高水平,但它的操作仍然相对缓慢且容易出错。我们日常使用电脑时的许多操作,如拖拽、缩放等,Claude都还无法做到。

此外,Claude目前观察屏幕的方式类似于快速翻阅一本画册,通过连续截图并拼接在一起,而不是观察连续的视频流。这意味着它可能会错过一些短暂的动作或通知。

有趣的是,Anthropic在录制Demo时,还遇到了一些有趣的小插曲。

比如,在一次演示中,Claude不小心点击停止了一个长时间运行的屏幕录制,导致所有录像都付诸东流。

而在另一次编码演示中,Claude则突然「走神」,开始饶有兴趣地浏览起黄石国家公园的照片。

总之,Claude如今的表现让人对未来充满期待:AI操作电脑的能力将神速进步,那一天,软件开发小白都能轻松使用它。

每日经济新闻综合公开资料

每日经济新闻

相关推荐

一日一技:用Python程序将十进制转换为二进制

用Python程序将十进制转换为二进制通过将数字连续除以2并以相反顺序打印其余部分,将十进制数转换为二进制。在下面的程序中,我们将学习使用递归函数将十进制数转换为二进制数,代码如下:...

十进制转化成二进制你会吗?#数学思维

六年级奥赛起跑线:抽屉原理揭秘。同学们好,我是你们的奥耀老师。今天一起来学习奥赛起跑线第三讲二进制计数法。例一:把十进制五十三化成二进制数是多少?首先十进制就是满十进一,二进制就是满二进一。二进制每个...

二进制、十进制、八进制和十六进制,它们之间是如何转换的?

在学习进制时总会遇到多种进制转换的时候,学会它们之间的转换方法也是必须的,这里分享一下几种进制之间转换的方法,也分享两个好用的转换工具,使用它们能够大幅度的提升你的办公和学习效率,感兴趣的小伙伴记得点...

c语言-2进制转10进制_c语言 二进制转十进制

#include<stdio.h>intmain(){charch;inta=0;...

二进制、八进制、十进制和十六进制数制转换

一、数制1、什么是数制数制是计数进位的简称。也就是由低位向高位进位计数的方法。2、常用数制计算机中常用的数制有二进制、八进制、十进制和十六进制。...

二进制、十进制、八进制、十六进制间的相互转换函数

二进制、十进制、八进制、十六进制间的相互转换函数1、输入任意一个十进制的整数,将其分别转换为二进制、八进制、十六进制。2、程序代码如下:#include<iostream>usingna...

二进制、八进制、十进制和十六进制等常用数制及其相互转换

从大学开始系统的接触计算机专业,到现在已经过去十几年了,今天整理一下基础的进制转换,希望给还在上高中的表妹一个入门的引导,早日熟悉这个行业。一、二进制、八进制、十进制和十六进制是如何定义的?二进制是B...

二进制如何转换成十进制?_二进制如何转换成十进制例子图解

随着社会的发展,电器维修由继电器时代逐渐被PLC,变频器,触摸屏等工控时代所替代,特别是plc编程,其数据逻辑往往涉及到数制二进制,那么二进制到底是什么呢?它和十进制又有什么区别和联系呢?下面和朋友们...

二进制与十进制的相互转换_二进制和十进制之间转换

很多同学在刚开始接触计算机语言的时候,都会了解计算机的世界里面大多都是二进制来表达现实世界的任何事物的。当然现实世界的事务有很多很多,就拿最简单的数字,我们经常看到的数字大多都是十进制的形式,例如:我...

十进制如何转换为二进制,二进制如何转换为十进制

用十进制除以2,除的断的,商用0表示;除不断的,商用1表示余0时结束假如十进制用X表示,用十进制除以2,即x/2除以2后为整数的(除的断的),商用0表示;除以2除不断的,商用1表示除完后的商0或1...

十进制数如何转换为二进制数_十进制数如何转换为二进制数举例说明

我们经常听到十进制数和二进制数,电脑中也经常使用二进制数来进行计算,但是很多人却不清楚十进制数和二进制数是怎样进行转换的,下面就来看看,十进制数转换为二进制数的方法。正整数转二进制...

二进制转化为十进制,你会做吗?一起来试试吧

今天孩子问把二进制表示的110101改写成十进制数怎么做呀?,“二进制”简单来说就是“满二进一”,只用0和1共两个数字表示,同理我们平常接触到的“十进制”是“满十进一”,只用0-9共十个数字表示。如果...

Mac终于能正常打游戏了!苹果正逐渐淘汰Rosetta转译

Mac玩家苦转译久矣!WWDC2025苹果正式宣判Rosetta死刑,原生游戏时代终于杀到。Metal4光追和AI插帧技术直接掀桌,连Steam都连夜扛着ARM架构投诚了。看到《赛博朋克2077》...

怎么把视频的声音提出来转为音频?音频提取,11款工具实测搞定

想把视频里的声音单独保存为音频文件(MP3/AAC/WAV/FLAC)用于配音、播客、听课或二次剪辑?本文挑出10款常用工具,给出实测可复现的操作步骤、优缺点和场景推荐。1)转换猫mp3转换器(操作门...

6个mp4格式转换器测评:转换速度与质量并存!

MP4视频格式具有兼容性强、视频画质高清、文件体积较小、支持多种编码等特点,适用于网络媒体传播。如果大家想要将非MP4格式的视频转换成MP4的视频格式的话,可以使用MP4格式转换器更换格式。本文分别从...