Eko团队 投稿量子位 | 公众号 QbitAI
抢先OpenAI的“Operator”,清华、复旦、斯坦福等盘问者纠合起来整了个大活~
他们淡薄了一个名为“Eko”的Agent竖立框架,竖立者只需用简易的代码和天然说话,就能快速构建可用于出产的“诬捏职工”:
Agent不错给与用户的电脑和浏览器,代替东说念主类完成各式任务。
而这个操作,恰是之前OpenAI被爆出的“Operator”所能已矣的。爆料称OpenAI将会这个月发布“Operator”,咫尺径直被截胡了。
更为要津的是,盘问团队还把Eko给开源了。

来望望Eko是若何让职责经由自动化的。
比如自动在雅虎财经上网络纳斯达克的最新数据,包括主要股票的价钱变化、市值、来往量,分析数据并生成可视化解说:
再举例:
刻下登录页面自动化测试:正确的账户和密码是:admin / 666666请立地组合用户名和密码进行测试,以考据登录考据是否平时职责,举例:用户名不成为空、密码不成为空、用户名不正确、密码不正确终末,尝试使用正确的账户和密码登录,考据登录是否生效生成测试解说并导出

清算刻下目次下大于1MB的悉数文献
这是若何已矣的?

开源版“诬捏职工”竖立框架
这项演技的中枢时刻翻新有三点:
羼杂智能体暗示:淡薄了“Mixed Agentic representation”,通过无缝团结抒发高等次设想的天然说话(Natural Language)与竖立者低档次已矣的方法说话(Programming Language)。跨平台Agent框架:淡薄环境感知架构,已矣归并套框架和编程说话,同期撑执浏览器使用、电脑使用、动作浏览器插件使用。出产级拦截机制:现存Agent框架大宗强调自治性(Autonomous),即无需东说念主类拦截,而Eko框架提供了显性的出产级拦截机制,确保智能体职责流不错随时被中断和窜改,从而保险东说念主类对出产级智能体职责流的灵验监管和治理。

环境感知架构(Environment-Aware Architecture)
主要场景包括:
i)浏览器使用:主要专注于通过图形用户界面(GUI)来操作网页和浏览器中的元素,常见的已矣形态包括截图和网页索要时刻。
ii)电脑使用:与浏览器不同,Node.js 自动化则主要面向敕令行界面(CLI)操作和文献系统管制,明天还会引入GUI感知材干。
Eko的跨平台竖立是通过其环境感知架构(Environment-Aware Architecture)已矣的,这一架构由三个要津档次组成:通用中枢(Universal Core)、环境特定器具(Environment-Specific Tools)和环境桥接(Environment Bridge)。
通用中枢:这一层提供了与环境无关的基本功能,如职责流管制、器具注册管制、LLM(大说话模子)集成和钩子系统。环境特定器具:每种环境(如浏览器膨胀、Web 环境、Node.js 环境)齐提供了优化的器具集。环境桥接:这一层崇拜环境的检测、器具注册、资源管制和安全为止,确保不同平台之间未必凯旋互动和通讯。安全性和打听为止:Eko针对不同环境实施了符合的安全方法。浏览器膨胀和Web环境齐领受了严格的权限为止和API密钥管制,而Node.js环境则允许更平凡的系统级打听,基于用户权限进行文献操作和敕令实行,在需要时会在实行前申请用户证实。
自动器具注册:通过 loadTools() 等器具,Eko自动注册适用于刻下环境的器具,这使得竖立者不错在多个环境中无缝地切换,并确保器具的正确加载。
档次化缱绻(Hierachical planning)
团队淡薄档次化感知框架,将任务的拆解分为两层,包括Planning layer和Execution layer。
其中Planning layer崇拜将用户的需求(天然说话或代码说话暗示)和现存器具集拆解成一个有范围特定说话(Domain-specific language)暗示的任务图(Task graph)。
任务图是一个有向无环图,刻画了子任务之间的依赖相干。该任务图由LLM一次性合成。在Execution layer中,字据每个任务调用LLM来合成具体的实行行径和器具调用。
多步合并优化:当Eko检测到两次实行齐是对LLM的调用时,会触发框架的自动合并机制,将两次调用的system prompt自动整合,合并成一次调用。从而加速推理速率。
视觉-交互因素纠合感知(Visual-Interactive Element Perception)
视觉-交互因素纠合感知框架(VIEP)是一种新颖的浏览器感知处分决策,通过将视觉识别与元素陡立文信息团结,权贵普及了在复杂网页中的任务精度和恶果。
它通过索要网页中的交互元素(如A11y树),并将其映射到范围特定说话(DSL),生成高效的伪HTML代码,简化了元素的表征。
不同于传统的A11y+Screen shot决策,VIEP在视觉信号方面,引入了Set-of-Mark,确保每个元素的视觉标志符与伪HTML中的标志符逐一双应,普及了元素识别的精度。
为了优化性能,截图分散率被压缩至原始的60%,同期画质压缩至50%,减少了资源破费,同期保执了满盈的识别质地。


与传统的HTML暗示比较,VIEP通过简化交互元素和生成紧凑的伪HTML结构,幸免了径直处理宽敞HTML实质的支出。举例,Google首页的HTML从22万字符减少至仅1,058个字符,大幅提高了处理速率和准确度。
VIEP不仅优化了性能,裁减了本钱,还普及了跨环境适合性,确保自动化操作在不同浏览器和操作系统中相识运行。
出产级的可拦截机制
在构建AI驱动的自动化系统时,竖立者连续需要监控任务的实行情况,随时窜改行径,或在必要时进行拦截。
天然“钩子”是软件竖立中的常见倡导,但在Eko中,它们承担了私有的变装——在AI自动化和东说念主工监督之间架起了一座桥梁。
简陋来说,不错在Workflow实行前后插入我方的逻辑,比如考据输入、处理斥逐、致使重试失败的任务。
代码如下:

Eko提供三种不同层级的钩子,每个层级齐具有私有的作用:
职责流钩子(Workflow Hooks)这些钩子位于职责流的最表层,用于全体为止和监控自动化经由的启动和扫尾。举例,你不错在职责流脱手之前进行资源驱动化,或在职责流扫尾后进行清算和处理最终斥逐。
子任务钩子(Subtask Hooks)这些钩子位于职责流的中间层,允许你在每个子任务脱手前和扫尾后进行监控和处理。举例,你不错在每个子任务前纪录日记,或在职务完成后对中间斥逐进行处理。
器具钩子(Tool Hooks)这是最细粒度的钩子,允许你在每个器具实行前后进行考据和修改。举例,你不错在器具实行前考据输入参数,或在器具实行后处理复返斥逐。
钩子不错匡助竖立者及时优化职责流,提高自动化系统的精度和恶果。
举例,在实行某些任务时,竖立者不错通过钩子对输入数据进行考据,肃肃乌有信息传入系统;或在职务完成后,处理和转念斥逐,以便更好地愚弄输出。钩子还能匡助竖立者网络实行数据,进行性能分析,识别瓶颈并优化自动化经由。
除了惯例的监控和调试功能,Eko的钩子系统还撑执更翻新的使用场景。
举例,在一些要津任求实行时,钩子不错暂停职责流并恭候东说念主工审批;在AI决策出现问题时,竖立者不错通过钩子进行东说念主工拦截或粉饰AI的判断,确保业务经由的顺畅。
作家简介
陆逸文,清华大学博士生,盘问敬爱为具身智能平台和智能体。

罗卓伟,FellouAI首席工程各人,咫尺从事东说念主工智能斟酌范围职责。

马骁腾,清华大学自动化系博士后,博士毕业于清华大学。主要盘问敬爱为强化学习和智能体。

陈家棋,复旦大学硕士生,斯坦福大学打听学生学者。主要盘问范围为臆测机视觉和智能体。

Homepage:https://eko.fellou.ai/Github link:https://github.com/FellouAI/ekoDocs:https://eko.fellou.ai/docs/亚bo体育网