清华与北邮联手打造的提升通讯效能及任务成效训练系统——Optima

154 0 0

Optima指的是什么？

清华大学开发了名为Optima的框架，旨在优化大型语言模型（LLM）驱动下的多智能体系统（MAS）。通过实施一种迭代生成、排序、选择及训练的方法，该框架显著提升了通信效率与任务执行效果。Optima不仅在任务性能和令牌使用率上取得了平衡，并且提高了通讯内容的可读性；它还研究了各种强化学习算法，并整合蒙特卡洛树搜索技术来创建高质量的数据集用于训练。实验显示，在多智能体相关任务中，相较于单个智能体或传统MAS系统，Optima展现出卓越性能，提升了近2.8倍的表现同时降低了令牌消耗量。通过这种方式提高效率后，Optima为更高效的推理运算及改进的扩展法则提供了新的可能方向。

Optima的核心特性

提高沟通效能在多智能体系统（MAS）中改进智能体之间的交流方式，以降低达成目标时所需使用的数据单元量，从而提升沟通的效能。
提升任务执行效率通过优化迭代训练过程及调整奖励机制的均衡性，增强智能系统在处理诸如信息不透明的问题回答以及复杂的逻辑推断等艰巨任务时的能力。
灵活性与延展能力保障MAS在应对更大规模及更为复杂的工作时依然能够有效运行，并增强系统扩展能力。
优化推理过程的时间延展规则降低令牌消耗能够拓展优化推理时长的方法，有利于以更少的计算资源达到更高的效率。

Optima的工作机制

逐步培训模式采用迭代方法中的生成、评估排序、优选及再训练步骤，循序渐进地提升智能体的表现水平。
激励机制构建激励机制以协调任务效能、数据传输效率及信息交流的清晰度，促使智能系统能够在维持高效沟通的前提下达成目标。
增强型学习方法研究涵盖监督微调(SFT)、直接受众优化(DPO)和组合策略等多种强化学习技术，以提升智能体的表现。
蒙特卡洛树寻算法(MCTS)结合MCTS引导的方法，把每一轮对话当作树中的一个节点来处理，以此探索多种交流路线，并创造出适用于DPO训练的优质数据。
多重目标优化通过引入奖励函数来综合考量多种目标，旨在优化任务表现的同时，兼顾提高通信效能及增强结果的透明度。

Optima的工程位置

官方网站 проекта
注：此处的翻译是基于理解错误的，实际上要求是对中文短语“项目官网”进行同语言内的伪原创改写。正确的示例如下：

该项目的官方网络平台https://github.com/chenweize1998/optima-project-page
Git代码库：在GitHub上可以找到THUNLP团队维护的Optima项目页面。
arXiv科技文章在该链接中所指向的文档提供了对最新研究论文的访问，这份文件探索了先进的技术或理论。请直接访问此网址以查看具体内容和详细的研究发现：https://arxiv.org/pdf/2410.08115。

Optima的使用场合

关于非对等信息的提问与解答于问答系统内，若解答需汇聚多源资讯，则通过改善智能体之间的交流能增强答复的精确度并加快反应时间。
涉及高级逻辑分析的任务在处理涉及多个推理阶段的任务时，比如法律案件的剖析或科学研究问题的解答，该方法能够促进智能系统间的高效配合，并引导它们获得准确的结果。
编程创作在软件研发过程中，通过促进各个功能组件之间的高效交流与协作来精进开发流程，并提升代码的标准。
用于辅助决策的系统在做出商业决定或制定政策时，协助多位决策参与者或是智能化实体实现信息的交流与分享，共同探讨各种方案，并最终形成一致意见。
多个代理参与的游戏在游戏中，当多名玩家或智能体需协同工作时，通过改进交流方法来增强团队的合作效果和整体表现。

# AI工具