
配资门户网站有哪些
这项由深圳安泊泰科技与复旦大学联合组建的优势AI智能体实验室(A3 Lab)推出的研究成果,于2026年4月以预印本形式发布,论文编号为arXiv:2604.17091v1,感兴趣的读者可以通过这个编号在arXiv平台查找原文。
每次跟AI助手聊天,你有没有注意到一件奇怪的事情:对话越长,它好像反而越来越糊涂?它可能忘了你在开头说过的限制条件,把前面已经完成的步骤重新来一遍,或者在一堆杂乱的信息里找不到最关键的那句话。这种现象并不是你的错觉,而是当前AI系统面临的一个深层困境。研究团队把它称为"上下文爆炸"——随着对话不断延伸,AI需要处理的信息越来越多,真正有用的内容却被淹没在一堆无关紧要的废话里,最终导致判断能力的急剧下滑。
深圳安泊泰科技与复旦大学的研究团队提出了一套名为GenericAgent(简称GA)的全新AI智能体系统,试图从根本上解决这个问题。他们的核心主张用一句话来概括:AI的表现好不好,不取决于它能记住多少信息,而取决于它在有限的"记忆空间"里装了多少真正有价值的东西。这个原则被称为"上下文信息密度最大化",听起来有些学术,但背后的道理其实和整理书包一模一样:一个容量有限的书包,放进去的东西越精准有用,你能解决的问题就越多;反过来,如果把各种可能用到、可能用不到的杂物全都塞进去,反而什么都找不着。
GA系统通过四个相互配合的设计实现这个原则:一套极度精简的工具集,一套像图书馆一样分层管理信息的记忆系统,一套让AI在完成任务后自动提炼经验的"自我进化"机制,以及一套主动压缩和清理无用信息的上下文管理层。这四样东西组合在一起,让GA在多项真实任务测试中,以明显更低的资源消耗超越了包括Claude Code、OpenClaw在内的多个主流AI智能体系统。
一、装满书包的正确方式:为什么"记得更多"反而更糟
要理解GA解决的问题,得先弄清楚现有AI系统为什么会在长对话中失灵。
每个AI大语言模型都有一个"上下文窗口",可以粗略理解为它在一次对话中能同时"看到"和处理的信息总量。理论上,上下文窗口越大,AI能考虑的信息越多,应该表现越好。但研究团队引用的多项独立研究表明,实际情况恰恰相反。
第一个问题叫做"位置偏差"。大语言模型在处理很长的内容时,对放在中间位置的信息有天然的忽视倾向——就像你读一本厚书,开头和结尾往往印象深刻,中间章节经常记不住。当对话越来越长,越来越多的关键信息被埋到了"中间位置",AI的实际理解质量就开始打折。
第二个问题更直觉上难以接受:无关内容不仅占据空间,还会主动干扰判断。这不是说"我没注意到那段无用信息"那么简单,而是那段无用信息会像噪音一样,让模型在需要做决策时注意力分散,产生错误的关联和判断。
第三个问题是"有效上下文窗口"比名义上小得多。一个号称支持100万token(信息单位)的模型,实际上能可靠处理的信息量可能只有这个数字的十分之一左右。研究团队把这个上限称为"无幻觉上下文长度"——超过这个范围,模型就开始编造它没有真正理解的内容。
这三个问题叠加在一起,形成了一个恶性循环:对话越长,中间位置信息越多,无关内容越多,有效处理能力越弱,模型越需要靠猜测和编造来填补空白,错误越多,用户越倾向于提供更多澄清信息,上下文进一步膨胀。
研究团队提出,解决这个问题的正确框架不是无限扩大容器,而是精准控制放进容器里的内容。他们把这个设计挑战定义为"完整性"与"简洁性"之间的张力:完整性要求所有当前决策需要的信息都明确存在于上下文中,简洁性要求不相关和冗余的信息必须被清除出去。这两者之间的冲突是结构性的,不只是资源限制造成的——即使有无限大的上下文窗口,放进越多不相关内容,模型的注意力就越被分散,决策质量就越差。在此基础上还有第三个维度叫"自然性",指信息表达要符合模型能够可靠理解的形式,过度压缩或者使用奇怪的编码反而可能让模型误解。但研究团队明确指出,自然性是次要约束,完整性和简洁性才是核心矛盾。
GA系统的全部设计都围绕这对核心矛盾展开,目标是在每个阶段都尽可能把真正重要的内容留下来,把无关紧要的内容挡在门外。
二、精兵简政:九件工具打天下
在很多现有的AI智能体系统中,给AI提供的工具越多,看起来能力越强。Claude Code内置了53个不同功能的工具,OpenClaw有18个工具工厂且运行时还可以动态加载插件。GA的工具集呢?只有9个。
这不是无奈之举,而是经过深思熟虑的选择,原因有两个层面。
从"书包"的角度看,每增加一个工具,就等于在AI每次思考之前都要先读一遍这个工具的说明书。工具越多,说明书越厚,光是读说明书就消耗了大量可用的"记忆空间",留给真正要处理的任务的空间就越少。更糟糕的是,工具越多,AI在每次决策时需要从更大的选项池里挑选,选错的概率就越高,返工和重试的次数就越多。
从能力覆盖的角度看,GA的九个工具涵盖了五大类基础能力,通过组合就能完成几乎所有任务。文件读取、精确编辑和整块写入负责处理本地文件系统;代码执行工具可以运行Python或Bash脚本,这意味着几乎任何可以用程序实现的操作都在它的射程之内;网页扫描和JavaScript执行覆盖了浏览器交互;短期记忆更新和长期记忆提炼管理着信息的保存与沉淀;如果AI实在无法自主完成某件事,还有一个工具专门用来向用户发起询问。
研究团队强调了一个核心逻辑:理论上,仅靠代码执行这一个工具,AI就能模拟其余所有工具的功能——它可以写一段脚本来读取文件、写一段脚本来打开浏览器、写一段脚本来调用任何API。但是,每次都从零写脚本代价太高。其他八个工具的存在,不是为了扩展能力边界,而是为了降低常见操作的认知和执行成本,让AI在处理文件、浏览网页这类高频任务时不必每次都"重新发明轮子"。
在实际测试中,研究团队发现一个颇为有趣的现象:工具丰富的Claude Code和OpenClaw,实际运行中使用频率最高的也只是少数几个工具。以Claude Code为例,AgentTool一个工具就占了所有调用次数的一半以上,WebFetchTool占22%,FileReadTool占11%,其余五十个工具分摊剩余不到20%。换句话说,大量低频工具全程占着上下文的位置,却几乎从不被用到。GA的设计直接把这个长尾切掉了。
实验结果支持了这个判断:在五项长程复杂任务的测试中,GA完成率100%,与Claude Code持平,同时所用总token数只有Claude Code的35%、OpenClaw的30%,调用模型次数从32次降到11次,工具调用次数从22次降到13次。
三、图书馆式的记忆:只有需要的书才摆上桌面
工具精简解决了任务开始之前的信息冗余,但任务执行过程中还有另一个问题:过去的交互记录、中间状态和执行历史会不断积累,越来越多地占据"记忆空间",最终把当前最需要关注的信息挤出视野。
GA的解决方案是一套四层的分级记忆架构,可以用图书馆来理解它的运作方式。
最顶层是"桌面"——始终摆在面前、随时可见的信息。GA刻意让这个桌面保持极度简洁,只放一张简短的"记忆目录卡",告诉AI现在的记忆库里有哪些类别的信息、每类在哪里找。这张目录卡非常小,但足够用,因为AI本身就能充当解码器:只要知道某类知识的存在,它就能通过工具调用去把那类知识取出来。
第二层是"常用书架",放着经过验证的稳定事实。只有经过实际执行检验、被证明在多个任务中都有用的信息才能进入这里,临时性的状态、一次性事件和未经验证的猜测会被严格排除在外。
第三层是"操作手册库",放着可复用的流程知识:某类任务怎么做、前提条件是什么、常见的失败模式是什么、出错了怎么恢复。
第四层是"档案室",保存历史执行记录,不用于日常调用,但在需要回溯过去某次操作时可以翻阅。
这套架构的关键设计原则是"按需取用":AI在任何时刻只把当前任务真正需要的信息带入"桌面",其余内容留在相应层级安静地待着,既不占用注意力,也随时可以被找到。当AI完成某项工作后,有价值的发现会经过筛选进入第二或第三层,而不是原样堆进档案室。
实际测试验证了这个设计的效果。研究团队比较了四种不同的记忆配置:不使用任何外部记忆、把完整的操作规程原文注入上下文、在原文基础上再加入背景描述和定义等冗余信息、只保留核心决策规则的精简记忆。测试在一个危险品分类任务上进行,结果非常清晰:精简记忆配置用了165个token,完成率与冗余记忆配置(288个token)完全相同,两者都显著优于完整原文注入(575个token),而完整原文注入又显著优于不用记忆(完成率差距约14个百分点)。换句话说,记忆内容越精准,同样的"桌面空间"能创造的价值越高;反过来,把大量背景描述和解释性文字塞进上下文,不仅浪费空间,还会干扰模型找到真正决策需要的规则。
在防止记忆无限膨胀方面,GA的"目录卡"设计发挥了关键作用。每新增一类知识,目录卡只新增这类知识的存在标记,不添加实质内容。随着知识库越来越丰富,目录卡的总量会接近一个自然的上限——因为知识类别是有限的,而AI凭借对类别存在的感知就足以准确导航到更深层的内容。测试结果显示:安装了20项技能后的满负荷状态下,GA的提示词总长只有2298个token,而Claude Code是22821个,CodeX是23932个,OpenClaw是43321个。GA实现了同等能力下约十倍的上下文效率优势。
在另一项长期事实记忆的测试中,GA在多跳推理、时序理解、开放域问答和单跳问答四个维度上均超过了专门使用向量数据库和嵌入模型进行检索的Mem0和A-MEM系统。这说明准确的信息组织本身就能成为检索效率的替代,不一定非得依赖额外的检索基础设施。
四、经验变技能:AI如何从每次任务中真正学到东西
以上三个设计解决了单次任务内的信息质量问题,但还有一个更大的浪费没有被处理:每次任务结束后,AI辛苦积累的经验就消散了,下一次面对类似任务,得从零开始重新探索。
GA的自我进化机制试图打破这个循环,让每次成功的执行经验变成下次的起点。
这套机制的核心思路是把"历史做过什么"转化为"下次该怎么做"。AI在执行任务时产生的原始记录保存在第四层档案室,但这些原始记录不会被直接调用。只有经过明确的提炼步骤,验证某段经验确实有效且可复用,才会生成结构化的操作流程文档进入第三层,最终可能进一步被提炼为可执行的代码脚本。
研究团队将这个演进过程划分为三个阶段,用一个九轮连续实验来展示它的全貌。任务是调查GitHub上LangChain项目最近合并的五个问题修复记录,包括找到每个修改涉及的模块、关联的原始问题单、以及检查官方文档中有没有对应的故障排查说明,最后输出结构化的JSON报告。
第一轮是探索状态:AI对整个任务流程完全陌生,需要在执行中一边试错一边摸索。这一轮耗时7分30秒,调用了32次大语言模型,消耗了22万个token。
第二轮到第五轮,AI开始把第一轮的经验提炼成文字版的操作流程文档,并在后续执行中随着遇到新情况不断修正这份文档。这个阶段的消耗从第二轮的6.6万token持续下降到第五轮的3.6万token,运行时间从4分19秒压缩到2分50秒。
第六轮开始,文字流程文档进一步被固化成Python脚本。有了可直接运行的脚本,AI不再需要每次理解自然语言指令、翻译成操作步骤,而是直接执行代码。从这一轮起,消耗稳定在约2.3万token、5次模型调用、1分35到1分41秒之间,进入了一个高度稳定的低成本区间。
与第一轮相比,最终状态的资源消耗压缩了约90%。更值得关注的细节是:消耗的减少主要不是因为每次回复变短了,而是因为需要调用模型的次数从32次减少到5次——整整消除了27轮"理解-推理-生成"的循环。研究团队把这个过程描述为把探索性的路径搜索转化成了有保证的路径压缩:一旦最优路径被验证并存储,后续执行就不再需要重新搜索,直接沿着已知的最优路径走。
这个效果在八类不同的网页任务上得到了复制。研究团队对比了GA和OpenClaw在三次重复执行中的token消耗变化。GA在所有八类任务上都呈现出明显的收敛趋势:第一次执行成本高,第二次显著下降,第三次与第二次接近,稳定在低水平。整体节约幅度在61%到92%之间,平均79%。OpenClaw则没有任何收敛趋势,在某些任务上第二次、第三次的消耗甚至比第一次更高,说明它在重复面对相同任务时同样是从零开始探索。
研究团队还观察到一个规律:任务越复杂、越依赖多步推理和错误恢复,自我进化带来的节约越大。对于需要跨页面状态传递和复杂路径搜索的任务,节约幅度可以达到92%;相对简单的任务节约幅度也有约60%以上。
五、信息压缩的四道防线:当上下文实在装不下时怎么办
即使有了精简工具集和分级记忆,长时间运行的任务还是会产生越来越多的对话历史。GA对此设计了一套四级的主动压缩机制,在不同粒度上控制信息的增长。
最细粒度的是工具输出截断:每个工具在返回结果时,如果内容超过预设长度,就只保留头部和尾部,中间用省略号替代。代码执行结果上限1万字符,网页文本扫描上限1万字符,完整HTML处理上限3.5万字符,文件读取上限约2万字符。这确保了单条信息不会因为偶尔出现超长输出而撑爆当前可用空间。
第二道防线针对历史消息里的冗余内容。每隔约五轮对话,系统会扫描较早的消息,把重复出现的工作记忆块(比如多次出现的状态快照)替换成短占位符,把推理过程和工具调用记录截断到约800字符的窗口——因为只有最新的那份才有参考价值,老版本的详细内容可以被压缩。最近10条消息不参与这个压缩,以保证AI对当前正在发生的事情有完整认知。有意思的是,这种定期压缩还带来了一个副作用:被压缩的旧消息内容不变,在大语言模型的提示词缓存机制下会产生约80%的缓存命中率,进一步降低实际计费的token数量。
第三道防线是整体消息驱逐。当所有历史消息的总字符数超过预设预算时,系统先用更严格的规则再次运行压缩(这次只豁免最近4条消息),然后按时间顺序从最旧的消息开始删除,直到总量降到预算的60%以下,留出充裕的空间给接下来的对话轮次。被驱逐的消息并不是永久消失——它们作为原始记录保存在第四层档案室,只是不再出现在活跃的对话窗口里。
第四道防线是工作记忆锚点:每次工具调用完成后,系统自动在下一条用户消息里附加一段摘要,包含最近20轮的单行摘要(每行约100字符)、当前轮次编号,以及AI自己通过记忆更新工具维护的关键状态信息。这段摘要会随着旧消息被驱逐变成唯一的长期状态来源,确保核心任务信息在再长的执行过程中也不会消失。
六、智能逛网:当AI浏览器遇上信息密度问题
网页是信息密度问题最为严峻的场景之一。一个真实网页的HTML源代码,可能有百分之九十以上是导航栏、广告、隐藏元素、CSS样式、JavaScript代码和各种不可见标签,对任务真正有用的内容可能只有几百个字。如果把整个网页的原始代码塞进AI的上下文,代价极高,且大量无用信息会显著干扰判断。
GA的网页处理工具采用了一种分析算法:它在内部复制页面的DOM(文档对象模型,可以理解为网页的结构骨架),逐元素计算可见性,通过覆盖分析和区域划分把页面切分为主内容区和非必要区域,然后剔除被覆盖的、隐藏的元素,最后只序列化真正对用户可见的主内容部分。这个处理过程能把典型网页的上下文消耗降低一个数量级。此外,每次网页操作(如点击按钮、填写表单)执行后,工具会同时返回操作结果和页面变化情况,让AI在许多场景下不需要再做一次完整的页面扫描,进一步减少信息摄入量。
在网页任务的综合测试中,GA在WebCanvas基础交互测试中得分0.834,OpenClaw为0.722;在需要多步搜索和链式推理的中文网络搜索测试中,GA得分0.600,OpenClaw只有0.200;在22项真实网页任务的自定义测试中,GA得分0.577,OpenClaw为0.500。与此同时,GA在这三个测试中的平均token消耗分别是0.18M、0.47M和0.26M,OpenClaw对应的数字是0.71M、1.31M和0.76M。三倍左右的token差距,换来的是更高的准确率,这个结果与研究团队"更少的上下文、更高的信息密度、更好的结果"的核心主张高度一致。
七、小小代码库,大大可能性:极简架构带来的涌现能力
GA系统本身只有约3300行代码,核心的智能体循环只有92行。相比之下,OpenClaw的代码库约53万行,是GA的160倍。这种代码规模上的极简不是限制,而是刻意为之的设计选择,并且带来了几个在更复杂系统中反而难以实现的能力。
由于GA以命令行程序的形式运行,任何可以执行命令行的环境都可以调用它。这意味着,一个父级GA实例在遇到需要并行处理的复杂子任务时,只需通过代码执行工具启动多个子级GA进程,就自然获得了多智能体协作能力。每个子进程有独立的对话历史和记忆空间,互不干扰,完成后父进程汇总结果,形成一个简洁的"分发-汇总"工作流。这不是特意设计的多智能体框架,而是命令行程序可组合性的自然延伸。
同样的道理,GA还支持"监听模式":一个外部脚本周期性检查某个条件(比如某个文件夹里出现了新文件,或者某个错误日志有了新内容),条件满足时自动向GA发送任务指令。这让GA可以在没有用户主动干预的情况下持续工作,相当于一个随时待命的自动化助手。定时任务也是同样的机制——外部脚本按照时间规则触发任务,GA负责执行,两者之间的分工极为清晰。
更有意思的是,极简代码库还为未来的"自我升级"打开了可能性。研究团队指出,如果一个AI系统的代码库有几十万行,AI本身根本无法理解自己的实现,也无从修改。但当核心代码只有几千行时,AI完全可以读懂它,甚至在适当授权下修改它。这意味着GA的进化潜力不仅限于技能的积累,理论上还可以延伸到对自身架构的改进——这是研究团队留给未来探索的开放问题。
说到底,GA这项研究提出的不只是一个新系统,而是一种看待AI智能体的新视角。当前行业的主流思路是"给AI提供更多工具、更大记忆、更长上下文",隐含的假设是"更多资源等于更强能力"。GA用实验结果表明,这个假设在长程任务中是错的——超过某个临界点之后,更多的信息不仅不帮忙,还会主动拖后腿。
研究团队还总结了一个反直觉的发现:在长程任务中,一个AI智能体消耗的token越少,往往意味着它管理上下文的能力越强、任务完成质量越高,而不是相反。token消耗高,更可能是上下文管理失败的症状——模型用额外的交互轮次来弥补每一步决策质量的下滑,而不是因为它在做更多有价值的工作。
这个观察对于任何在工作或生活中使用AI助手的人都有一定的参考意义。当你发现一个AI工具在处理复杂长任务时越来越混乱,原因很可能不是模型能力不足,而是系统没有做好信息过滤,让无关内容挤占了真正重要的位置。GA提出的解法——精简接口、分级记忆、经验提炼、主动压缩——是一套可以被借鉴和延伸的工程思路。对于想要深入了解这套思路的读者,可以在arXiv上通过编号2604.17091找到完整的研究论文,研究团队也在GitHub上以lsdefine/GenericAgent公开了全部代码。
Q&A
Q1:GenericAgent的"上下文信息密度最大化"是什么意思?
A:简单说,就是在AI能处理的有限信息空间里,尽量只放真正有用的内容,把无关紧要的信息挡在外面。研究发现,AI处理的信息越多,不一定越聪明——超过某个临界点,多余的信息反而会干扰判断、降低准确率。GenericAgent的所有设计都围绕这个原则:精简工具减少说明书占用的空间,分级记忆让不常用的知识按需取用而非全部摆在面前,压缩机制主动清理无用历史,让"有效信息"的比例始终保持在高水平。
Q2:GenericAgent的自我进化机制具体是怎么工作的?
A:GA在完成一项任务后,会对执行过程进行回顾,把其中被验证有效的操作流程提炼成结构化的文字说明,存入"操作手册层"。随着同类任务反复执行,这些文字说明会进一步被转化为可直接运行的Python脚本。下一次遇到类似任务时,AI不需要重新探索,直接调用已有的脚本,极大减少了模型推理的轮次。实验表明,经过多轮迭代后,同一类任务的资源消耗可以降低约90%,且这种改进会持续积累,不会因为关闭程序而重置。
Q3:GenericAgent只有9个工具,为什么不会能力不足?
A:9个工具涵盖了文件读写、代码执行、网页交互、记忆管理和用户询问五大基础能力。核心逻辑是"组合优于枚举":复杂操作不需要一个专用工具,而是通过几个基础工具的组合来实现。比如网络搜索,GA用"执行浏览器操作"加"读取页面内容"就能完成,不需要单独的搜索工具。研究团队还发现,工具丰富的系统(如53个工具的Claude Code)配资门户网站有哪些,实际执行时真正高频使用的也只有少数几个,其余工具全程占着上下文空间却几乎不被调用,GA的设计直接省去了这些无效开销。
锦鲤配资提示:文章来自网络,不代表本站观点。