机器之心报道
编辑:杜伟、梓文
【资料图】
在人类的进化史中,制作和使用工具是关键的转折点。如今,在 Google Deepmind 等最新的研究中,大语言模型也具备了相似的能力,进化成了工具制作者。
我们知道,大语言模型(LLM)在广泛的 NLP 任务中已经表现出卓越的能力,甚至展现出能够实现通用人工智能某些方面的良好迹象。此外,与人类的智能进化类似,LLM 在最近的研究中被揭示出使用外部工具从而提升解决问题能力及效率的潜力。
需要注意的是,这些工具使用方法的适用性很大程度程度上取决于是否有合适的工具。从人类进化的里程碑可以发现,人类进化的关键转折点是人类有能力制造工具来解决出现的困难。
受到制造工具对人类重要性的启发,在本文中,Google Deepmind、普林斯顿和斯坦福大学的研究者将这种「进化」的概念应用于 LLM 领域,进行了初步探索。他们提出了一个闭环框架,在这个框架中LLM 作为工具制作者(LLMs As Tool Makers ,LATM),使其能够生成自己的可重新使用的工具来处理新任务。
论文地址:https://arxiv.org/pdf/2305.17126.pdf
该方法包括两个关键阶段:
工具制作:LLM 作为工具制作者,专门为给定的任务设计工具(作为 Python 函数实现);
工具使用:另一个 LLM 作为工具使用者,它可以与工具制作者相同,应用工具来处理新的请求。
两阶段设计允许 LATM 在每个阶段将作业分配给最合适的 LLM。一方面,需要高度能力的工具制造过程可以分配给一个功能强大且资源密集型的模型 (例如 GPT-4)。另一方面,相对简单的使用工具过程,可以分配给轻量、经济高效的模型 (例如 GPT-3.5 Turbo)。这种方法不仅增强了 LLM 解决问题的能力,并能够显著降低处理一系列任务的平均计算成本。
LATM 的闭环框架。
由于工具制作过程只需要对给定的功能执行一次,因此生成的工具可以在不同的任务实例中反复使用。这种方法为处理复杂任务开拓了可扩展、成本高效的解决方案。例如,假定一个任务,用户要求 LLM 安排一个适合每个人的会议(例如在电子邮件对话中)。涉及复杂算术推理的任务对于像 GPT-3.5 Turbo 这样的轻量级模型来说是艰巨的挑战。相比之下,更强大的模型(例如 GPT-4)虽然推理成本要高得多,但是能够找到正确的解决方案。
LATM 能够克服这种困难,是因为它将强大但昂贵的模型当作工具制作者,并将工具传递给工具使用者 —— 经济型模型进行使用。工具制作完成后,轻量级工具使用者可以用它来高效、高性能地解决任务。
本文的实验能够验证这种方法在复杂的推理任务上(包括几个具有挑战性的 Big-Bench 任务)的有效性。结果表明,LATM 可以达到与资源密集型模型相当的性能,同时具有更高的成本效益。这种新颖的 LLM 方法,模仿了人类在创建和使用工具方面的进化飞跃,为开辟使用 LLM 生成的工具的社区提供了无限可能。[page]
方法概览:LLM as Tool Maker (LATM)
制作新工具并重复使用
在 LATM 范式中,主要过程可以分为两个阶段:工具制作和工具使用。每个阶段都利用不同类型的大语言模型(LLM)来平衡性能和成本效率。
对于工具制作(Tool Making),该阶段采用强大但成本更高昂的模型(例如 GPT-4)作为工具制作者。工具制作者通过特定任务的一些演示来创建通用和可复用的工具(作为 Python 函数实现)。该阶段又可以进一步分为以下三个子阶段:
首先是工具提出(Tool Proposing)。在这一阶段,工具制作者尝试生成一个 Python 函数,用以解决给定任务的演示。该过程遵循「实例编程」(PbE)范式,其中提供了几个具体的演示,并且需要模型编写产生演示行为的程序。在实验中,研究者在该阶段使用了 3 个演示。如果提出的工具无法执行或者遇到错误,工具制作者会将错误信息附加到历史记录中并进行另一次尝试。
其次是工具验证(Tool Verification)。在这一阶段,工具制作者使用验证样本生成单元测试,然后在提出的工具中执行这些测试。研究者在实验中使用了 3 个验证样本。如果工具未能通过任何这些测试,工具制作者会在其历史记录中记录下错误,并尝试在单元测试中纠正问题(此过程只会纠正单元测试部分的函数调用,而不会纠正功能)。LLM 的自调试能力已在最近的研究中得到有效证明,然而在 LATM pipeline 中,验证阶段的用途稍有不同。该阶段有两个关键作用:一是提供示例来演示如何将自然语言问题转换为函数调用;二是验证工具的可靠性,使整个过程充分自动化。
最后是工具封装(Tool Wrapping)。如果执行或验证失败超过了预设阈值,则工具封装阶段被视为失败。相反,工具制作者准备好为工具使用者提供封装后的工具。该步骤涉及封装函数代码,并演示如何将一个任务转换为函数调用。这些演示从工具验证步骤中提取,从而将问题转换为单元测试。随后最终产品可供工具使用者使用。
完成了工具制作,接下来是工具使用(Tool Using)了。该阶段涉及一个轻量级且具有成本效益的模型(例如 GPT-3.5 Turbo),用作工具使用者。工具使用者的角色是利用验证后的工具来解决任务的不同实例。该阶段的 prompt 是封装工具,它包含了解决任务的函数和如何将任务查询转换为函数调用的演示。通过演示,工具使用者能够以一种上下文学习的方式来生成需要的函数调用,然后执行函数调用以解决任务。或者可以应用后处理来转换输出以匹配任务所需的格式,例如多项选择题的选项。
总的来说,工具制作阶段包括工具提出、验证和封装,每类任务只需执行一次,然后可以将生成的工具重复用于该任务的所有实例。与单独使用强大的模型相比,这使得 LATM 的效率和成本效益显著增加。此外,Python 函数时一种更通用的思维链,增强了整体效用和灵活性,因此可用于解决涉及算法推理能力的问题。[page]
LATM 的 pipeline。
下图 3 展示了方法的具体示例,说明工具制作者如何通过生成工具(Python 函数)来解决 BigBench 的逻辑推导任务,以及工具使用者如何使用工具。
使用 Dispatcher 处理流数据
在真实世界场景中,任务实例通常按顺序出现。为了适应这种数据流,研究者引入了第三个 LLM 即 dispatcher,它确定是让工具使用者还是工具制作者参与每个传入的任务。dispatcher 模块与现有工作中的工具选择功能有相似之处,然后在识别现有工具无法解决的新任务以及让工具制作者为这些任务生成新工具方面具有独到的能力。
具体而言,dispatcher 保留了工具制作者产生的现有工具的记录。当接收到新的任务实例时,dispatcher 首先确定是否有适合手头任务的工具。如果有合适的工具,则将实例确定为新任务,并利用强大的模型解决该实例,甚至可以调用人工标注器。随后缓存新任务的实例,直到缓存实例足够工具制作者制作新工具。具体的工作流程如下图 4 所示。
实验结果
本文在来自不同领域的 6 个数据集上评估了所提出的方法,包括 Logical Deduction、Tracking Shuffled Objects、Dyck Language、Word Sorting、 Chinese Remainder Theorem 和 Scheduling Meeting。
在工具制作阶段,研究者将温度参数设置为 0.3,以在生成过程中引入随机性,并在必要时允许重试。在这个阶段,实验使用了带有 ChatCompletion API 的 GPT-4 和 GPT-3.5 Turbo 模型进行,并不断将响应附加进聊天记录当中,来创造交互体验。
在工具使用阶段,LLM API 调用仅进行一次,并使用标准完成 API 对 gpt -3 型模型进行消融研究。当使用工具时,温度参数始终为设置为 0.0。在工具提出和工具验证阶段的最大重试次数设置为 3。
工具制作的有效性
据实验观察,GPT-4 作为工具制作者时,常能设计出合适的算法来解决任务。例如下表 1 中,工具制作者搜索所有排列,并选择满足给定约束的正确排列来创建代码,解决逻辑演绎任务。在实验中,工具验证阶段主要用于演示如何将自然语言问题转换为函数调用。在 60 次试验中,只观察到 2 例工具制作者可以在错误消息的指导下纠正其错误。
LATM 提升轻量级 LLM 的性能
下表 2 比较了思维链提示与 LATM 的性能。实验使用 GPT-4 作为工具制作者为这六项任务生成工具,并评估 GPT-3.5 Turbo 和 GPT-4 作为工具使用者的性能。结果表明,在该工具的帮助下,像 GPT-3.5 Turbo 这样的轻量级模型可以达到与 GPT-4 相当的性能,显著优于 CoT 提示。此外与使用 GPT-4 相比,使用 GPT-3.5 Turbo 的平均成本要低得多。
这突出了 LATM 在增强轻量级模型的性能方面的有效性。因此,使用 LATM 相较于安规的模型来说,能够降低成本。[page]
将 LATM 扩展为具有混合任务的流设置
将 LATM 扩展为流设置后,流设置中不同任务的实例可以实时到达。在这种情况下,需要另一个模型调度程序,来确定实例所属的任务。实验使用 GPT-3.5 Turbo 作为调度器,并评估其能力:
识别现有工具来解决传入实例;
为未知任务的实例请求工具制作。
结果表明,调度程序可以有效地识别现有的工具,并为未知任务请求工具制作,但它不会大幅降低性能。这表明 LATM 可以平滑地扩展到具有混合任务的流设置。
消融实验
首先是工具制作语言模型所需的能力。研究者调研了工具制作阶段所用语言模型的能力要求。一般来说,更强大且成本更高昂的模型越能达到目的,这是因为该阶段中每个任务只执行一次,高准确度对于有效地将工具传递给更小的模型至关重要。
其次是工具使用语言模型所需的能力。研究者调研了工具使用模型的能力要求,具体结果如下表 4 所示,GPT-3.5 Turbo 在所有测试的模型中实现了最佳的性能与成本平衡。
最后是思维链(CoT)作为工具没有帮助。除了 LATM 之外,研究者还调研了是否可以通过重用更大模型和更小模型(类似于 LATM pipeline)的思维链来提高性能。具体结果如下表 5 所示,使用大模型的 CoT 与人类编写的 CoT 具有相似甚至更差的性能,这要比 LATM 差得多。
上一篇:物业公司如何提升业主满意度的方法_物业公司如何提升业主满意度
下一篇:最后一页
机器之心报道编辑:杜伟、梓文在人类的进化史中,制作和使用工具是关键的转折点。如今,在GoogleDeepmind等
近年来,为激发文化与经济的融合发展,石棉县打造了桐去108社等多个网红打卡地。
1、做到物业费收支透明公共区域清洁。2、完善尽量满足业主的的需求。3、快速响应业主的报修等服务保安人员
2023年5月9日,在山东省荣成市爱伦湾海洋牧场,养殖船迎着日出出海作业。 王福东摄(人民视觉) 2023
据外媒报道,当地时间30日,美国企业家、特斯拉和SpaceX公司的首席执行官马斯克表示,中国的航天计划发展比
Lck赛区也是不断的找寻机会,准备在世界级的舞台中给lpl来一次重创,所以说亚运会的比赛他们直接召回了两名
一、深圳北大医院玻尿酸隆鼻怎么样深圳北大医院成立于1999年,是深圳当地的一家公立三级甲等的现代化医院,
原标题:江西南昌市第三届中小学青年教师教学竞赛决赛开赛工人日报-中工网记者王晓颖通讯员李辉5月27日,由
5月29日,宏柏新材(605366)融资买入21 61万元,融资偿还103 36万元,融资净卖出81 75万元,融资余额5370 8万元。
点上方关注【漳视直播】天天免费观看“现场直播”与漳州本地新闻!漳州直播专业运营现场直播,现承接漳州地
上证报中国证券网讯人民银行5月30日公告称,为维护月末流动性平稳,2023年5月30日人民银行以利率招标方式开
新概念英语第四册课本原文:发现化石人已发布,欢迎大家查看。新概念英语第四册内容主要针对的是基础比较薄
来为大家解答以上问题。清洗皮草的巧有哪些图片,清洗皮草的巧有哪些这个很多人还不清楚,现在一起跟着来瞧
新华社酒泉5月30日电5月30日6时42分,神舟十六号载人飞行任务航天员乘组出征仪式在酒泉卫星发射中心问天阁
大家好,小乐来为大家解答以上的问题。行政单位财务管理制度流程图,行政单位财务管理制度这个很多人还不知
昨日期螺震荡上行,收于3511,环比上一交易日上涨1 86%,现货市场价格稳中见强。需求端,昨日铁矿
今天小编肥嘟来为大家解答以上的问题。黄沙百战穿金甲不破楼兰终不还的意思和情感,黄沙百战穿金甲不破楼兰
1、狮鹫兽源自何时何地无人得知,贤者们认为它是古代文明中某次魔法试验的成果,但似乎在有文字记载之前狮
23国开08(增发)发布发行公告
5月29日,创金合信鑫祺混合A最新单位净值为1 1608元,累计净值为1 3531元,较前一交易日下跌0 21%。历史数
小常来为大家解答以上问题。手机yy怎么开麦,手机yy怎么改名很多人还不知道,现在让我们一起来看看吧!1、1
1、一般来说,各大网站都可以投稿,你进入小说主页,例如:17k小说网站。2、进入以后,就可以看到这个“我
1、保底工资是维持员工正常生活的工薪制度。2、工人在工厂工作时,一般采用工作底薪加奖励。3、特殊情况下
从昨天开始,许多人表示,自己的ChatGPTplus账号被封了。来自OpenAI的邮件称,由于账号存在可疑行为,为了
陈金皓5 29外汇黄金晚间行情怎么看?黄金原油最新行情策略分析及操作策略建议黄金原油投资是一项漫长的工作
5月28日,聊城东昌中学党支部书记王涛组织党员教师一行30余人,冒雨赴刘邓大军渡黄河纪念馆和鲁西第一个党
顶幡上额,伸臂托举,只见5米多高的中幡在演员的手中、肩头、头顶、项背等处上下飞舞、交替腾挪;不一会儿
比亚迪接招,长城发起“自杀式攻击”?,长城,比亚迪,乘用车,电动车,哈弗汽车,哈弗h6,伯克希尔·哈撒韦
据中国新闻周刊,5月28日,山东省菏泽市郓城县,一女子在社交平台发文求助,称丈夫李某喝醉后,持刀砍死了
格隆汇5月11日丨中国心连心化肥(01866 HK)公告,5月11日耗资71 19万港元回购16 2万股,每股价格为4 38-4 37港元。
5月29日,兴银兴慧一年持有混合A最新单位净值为1 0148元,累计净值为1 0148元,较前一交易日下跌0 1%。历史
沪指5月29日上涨0 28%,主力资金全天净流出249 58亿元,已连续15个交易日资金呈净流出状态。其中,创业板主力资
“我是XXX金融客服,根据银保监会规定,您的‘学生账户’需要转为‘成人账户’,不然将影响个人征信。”
5月25日下午,广安市委统战部部长与民营企业家沟通协商“面对面+键对键”活动在前锋区举行。市委常委、统战
人民网北京5月29日电(记者胡雪蓉)武林风环球拳王争霸赛河北迁西站比赛27日在长城青山关脚下落幕。来自中国
1、它的流动性好,不溶于水,能溶解在熔融的冰晶石中。2、它是铝电解生产的中的主要原料。本文到此分享完毕
过去一周,A股持续下行,上证综指一度跌破3200点大关,创业板指创2022年5月11日以来新低,5月25日北向资金
5月26日,湛江市公共交通集团有限公司向广大市民发出《关于开通及优化调整公交线路的通知》:为优化公交资
1、祝你妇女节快乐,生活幸福!2、妇女节,祝你幸福!3、三八妇女节,祝你:享受你的歌,没有我的舞。4、祝
食材面粉200克,开水110克,韭菜150克,绿豆芽160克,里脊肉110克,鸡蛋2个,绿豆粉丝半把,胡萝卜40克,生
在《火影忍者》的故事中,主角鸣人的成长是离不开他人生路上最为重要的几位老师的,也正是因为有这些老师
五月的理县桃坪镇,绿树丛中串串红,玲珑樱桃点缀其中,鲜嫩多汁的甜樱桃一上市便获得广大游客的青睐。近年
据半岛电视台5月28日报道,在科索沃警察同该国北部塞族居民发生冲突的两天后,斯托尔滕贝格呼吁科索沃缓和
农林牧渔行业周报:生猪价格延续磨底静待供给改善4月饲料产量持续上行
爱美之心人皆有之,现在做医美的人还是挺多的,因为做了医美之后,整个人就会变得很自信,而且做医美的医院
吉艾退:关于公司股票终止上市暨摘牌的公告
旅行路上,我们遇见屏边大围山,可以探索自然,尽情欣赏生物多样性的神奇之美;我们遇见人字桥,寻觅滇越铁
日前,中国人寿寿险公司发布了2022年ESG暨社会责任报告。报告全面展示了该公司在运营发展中面对环境、社会
成都高新区印悦府(翠园)1、2、5栋人才公寓选房注意事项1 人才客户前来选房时,请携带身份证明原件;委托
1、我和博学多才的生物学家,探险经验丰富的哥哥一起去热带雨林寻找新的野生动物。2、2、我们准备好打火机
上净下界法师2007年启讲于净律学佛院请大家打开讲义第二百二十四页。我们讲到三渐次。三渐次,蕅益大师认为
市场监管总局联合工业和信息化部近日印发《关于实施中小企业计量伙伴计划的通知》,推动大企业加强计量引领
相信目前很多小伙伴对于星河世纪城都比较感兴趣,那么小搜今天在网上也是收集了一些与星河世纪城相关的信息
两个“全国第一”支撑打造“亚洲花都”---“我们将以此次示范园创建工作为契机,围绕现代花卉主导优势产业
中国电信启动2023-2024年度干线光缆及配套设备集采,C114讯5月29日消息(水易)来自中国电信官方消息,中国
大象新闻记者米方杰5月26日,哈啰骑行携手郑州交警及二七区停车服务中心走进郑州科技学院,共同开展“文明
1、新港西路151号大院,属于普通住宅小区,出行方便。2、周边综合配套施舍齐全。
5月29日白天,和5月28日类似的是,今天我国中东部地区继续维持着相当偏北的雨带——卫星云图上可见,5月29
新车拥有锐·T动和e:PHEV双动力,集“智动、智座、智驾”于一身,将成为真正的新电动化科技品,全维重构出
什么是新潮流影像?5月25日,小米Civi3给出了这一答案。小米携手瑞声科技旗下辰瑞光学,创新定制了WLG玻塑
1、四喜丸子没有表演!又一可怜的黑幕牺牲品-四喜丸子向延红!达人秀的结果应该出乎大多数人意料,该进前三
上周五国际金价震荡收涨。国际金价开盘报1939 98美元 盎司,盘中最高触及1957 2,经济数据方面,美国4月PCE
面相是中国传统文化中的一种学说,人们常常根据面相来判断一个人的性格特征、健康状况以及财运等方面。对于
美国有线电视新闻网日前报道称,山东淄博的烧烤视频在社交媒体爆红后,近期该市旅游的受欢迎程度呈现井喷趋
特斯拉被曝涉超大规模数据泄露:含4000起加速、刹车故障投诉
越南农产品对华出口激增(见图一)越南今年通过北部山区省份老街的边境口岸向中国出口的农产品大幅上升。老
5月26日,挖金客(301380)融资买入1137 92万元,融资偿还1124 95万元,融资净买入12 97万元,融资余额4446
财经网汽车5月29日讯中信证券表示,自动驾驶芯片作为智驾系统的底层基石,正伴随汽车智能化趋势的加速迎来
1、是可怜天下父母心吧就是说父母为了孩子把能做的都做了孩子却不领情父母很伤心却还愿意付出我不是按最字
本文转自【央视军事】今天上午召开的神舟十六号载人飞行任务新闻发布会公开了神舟十六号乘组人员名单:景海
2018年以后,自动驾驶领域再无创新公司,也鲜少有大牛入局。吴新宙很少对外人提起,他能赶上这场浪潮,其实
以下是ST鼎龙在北京时间5月29日09:26分盘口异动快照:5月29日9点26分,ST鼎龙开盘跌停,报1 79元,目前封单
近日,我们发现有海外媒体曝光了全新丰田埃尔法的路试谍照,新车将于2023年6月21日首发并公布在日本地区的
消息(新闻联播):如何加强基础研究,激发广大科研工作者的创新热情,从源头和底层解决关键技术问题,上海
1、长辈说的桃吃咬子。2、长辈们可没说过这样的话。3、或者是只是有些长辈随口一说而已。本文到此分享完毕
金融界基金05月29日讯嘉实中证海外中国互联网30ETF(QDII)基金05月25日上涨--,现价0 703元,成交17217 62万
今天来聊聊关于一年级语文书秋天的课文的文章,现在就为大家来简单介绍下一年级语文书秋天的课文,希望对各
专家认为,随着项目逐步落地,地方经济持续恢复有望得到支撑
近日,华硕ROG推出了月刃无线版鼠标,采用了蜂巢式结构、分离式PBT按键,拥有3模连接等功能,售价499元。
1、光照不足或者太强黄叶、掉叶,要移到适宜的位置:龙吐珠生长需要充足的阳光,如果养在光照比较差的位置,
三分野向园和爷爷为什么不是一个姓《三分野》向园其实跟随爷爷的姓向,只不过爷爷因为爱奶奶,跟随了她的姓
1、芦荟为百合科多年生草本植物。2、《本草纲目》记载“芦荟乃厥阴经药也,其功专于杀虫清热”。3、现代研
1、李一。2、是一位艺术家和策展人。本文到此结束,希望对大家有所帮助。
1、《守候那一份不存在的爱》是菲比演唱的歌曲,由司颖作词,菲比作曲。2、。文章到此就分享结束,希望对大
1、力顶52不过有时间上888WPE看哈有最新的WPE使用和下载请搜索888WPE。本文就为大家分享到这里,希望小伙伴们
目前李易峰视频6分钟在哪里看被爆喜欢已婚少妇一夜玩2女的关注度特别高,热度非常高,这也证明大家现在都在
"叔叔您辛苦了,请规范戴盔。 "5月28日上午10时许,崭新的电动自行车头盔从南京少年交警队员的手中郑重交
1、在ps中同时打开相框素材和照片,选移动工具,用鼠标左键点住照片拖入相框素材中,再将图片图层移到最底
图为一家具企业展区内,客商在同参展商交谈。刘力鑫摄图为一家具企业展区内,客商在同参展商交谈。刘力鑫摄
华龙网-新重庆客户端讯(记者张馨月袁舒含)今(27)日,2023年全国百家重点网络媒体记者重庆行走进璧山,
齐鲁网闪电新闻5月25日讯5月25日,“幸福生活看历下”主题新闻发布会在济南历下创益园举行。会上详细介绍了
【懂车之道新车】近日,比亚迪宋ProDM-i(图片|配置|询价)冠军版正式发布上市,总共4款车型,官方指导价13 5
NBA季后赛东决G6,凯尔特人凭借德里克-怀特的绝杀104-103战胜热火,大比分打成3-3平。赛后苏群点评了这一回
墨西哥城5月27日电(记者彭敏)5月26日,由中国驻墨西哥使馆主办,墨西哥国立自治大学孔子学院承办的第三届
想太多怎么办,注意事项如下很多人还不知道,现在让我们一起来看看吧!1、不要总是沉湎于过去。2、思维是一
第一轮疫情来势汹汹,大家熬过去后,大部分人都觉得新冠消失了,不可怕了,殊不知,我们正在进入“长新冠”
这是在上海虹桥国际机场停机坪拍摄的即将首航的C919飞机(5月28日摄)。新华社记者丁汀摄当日,C919首个商
你们好,最近小活发现有诸多的小伙伴们对于美团商家五星好评回复大全,美团五星好评怎么写这个问题都颇为感
这两年,郭德纲又神隐了起来,明面上的综艺邀约都没接几个了,只有旗下的徒弟们还活跃在各大卫视平台的综艺
乐视视频,原名乐视网,2004年成立于北京,享有国家级高新技术企业资质,致力打造基于视频产业、内容产业和
X 关闭
银行理财产品是什么?银行理财产品有哪些种类?
降准指的是什么意思?降准对老百姓意味着什么?
国债是怎么赚钱的?国债利率下降会不会亏损呢?
国债收益率下跌说明什么?国债收益率下跌还可以买入吗?
X 关闭