真实迷奸-乱伦变态快播 DeepSeek同款GRPO测验大提速!魔搭开源全经过有谈论,扶助多模态测验、测验加快和评测全链路
  • 你的位置:真实迷奸 > 红色av > 乱伦变态快播 DeepSeek同款GRPO测验大提速!魔搭开源全经过有谈论,扶助多模态测验、测验加快和评测全链路

乱伦变态快播 DeepSeek同款GRPO测验大提速!魔搭开源全经过有谈论,扶助多模态测验、测验加快和评测全链路

发布日期:2025-07-06 00:11  点击次数:85

乱伦变态快播 DeepSeek同款GRPO测验大提速!魔搭开源全经过有谈论,扶助多模态测验、测验加快和评测全链路

GRPO 测验又有新的器用链不错用乱伦变态快播,此次来自于 ModelScope 魔搭社区。

跟着 DeepSeek-R1 的告捷出圈,其使用的 GRPO 算法受到了业界的平凡关爱。GRPO 测验是来自于 PPO 算法的一种纠正,旨在诳骗采样旨趣对 value model 进行简化,以增大测验的褂讪性和可人惜性。

现在围绕 R1 模子的技巧有谈论,社区曾经经有一些开源罢了,比如来自 Hugging Face 的 Open-R1,以过火他一些 RL 框架,包括 veRL,OpenRLHF 等等。但是,在 GRPO 测验方面,大部分有谈论仍然濒临着诸多挑战,包括测验速率较低、集群树立复杂,以及对多模态扩展技艺差、测验后不好评测等等。

为了扶助开源社区在 GRPO 这个方进取的探索,ModelScope 魔搭社区围绕 MS-SWIFT 测验框架以及 EvalScope 评估框架,推出了相对好意思满高效的 GRPO 全链路措置有谈论,和社区共享。

GRPO 测验提速

GRPO 测验的耗时主要来自于采样、测验等几个方面。其中,采样自己是 PPO 算法的蹙迫构成部分。尤其是 GRPO 在 PPO 的基础上,使用采样代替 value model 的有谈论,这使得在 GRPO 测验中,采样的耗时的占比,更是大大的加多了。而且 GRPO 中单 query 的采样数(即 group size),一般相比大(DeepSeekMath 论文中为 64 个),高采样频率关于推理引擎的挑战是纷乱的。优化采样效用是进步 GRPO 举座测验速率的中枢场合。

基于这些秉性,魔搭社区的 SWIFT 框架进行了有针对性的优化:

多实例数据并行采样

关于 GRPO 算法,单实例采样时常无法餍足需求。团队不雅察发现,7B 模子在测验时间,单 iter 的采样时辰占比约为 70%,这意味着应该允许测验资源凭证执行情况,针对性的歪斜分拨给采样策动。

尤其在采样量以及 batch_size 较大时,采样耗时对测验速率影响会更为显耀。因此,在 SWIFT 中对 vLLM 和 LMDeploy 进行了一定的 patch(同期也与关系框架认真同学进行了洽商,将会将关系罢了在 vLLM/LMDeploy 上原生扶助),扶助在职意比例的测验卡上拉起采样实例。举例关于 8 卡测验中,树立 4 张卡认真模子测验,4 张卡认真采样;或者 6 张卡认真测验,2 张卡认真采样。

下图展示了在相似的 8 卡测验建造下,分离使用 1 卡 /2 卡部署推理引擎进行采样,剩余卡认真测验,vLLM/LMDeploy 的采样耗时和测验耗时如下 :

不错看到,基于 LMDeploy 分拨 2 卡进行采样时,测验时长约为 1 卡采样的 87%。而 vLLM2 卡采样时,时长为 1 卡采样的 78%。在这两个例子中,通过更合理多卡数分拨,对采样资源进行一定歪斜,王人达到了有用裁汰测验所需时长王人方针。

异步采样

GRPO 测验中,采样和模子测验需要瓜代进行,即测验时采样卡闲置,采样时测验卡闲置。关于这个问题,不同的框架给出了不同的措置有谈论。

举例 veRL 允许将采样和测验部署在吞并 GPU 上,在不同阶段让不同的权重 offload 到 CPU 中;或者针对 LLM 的不同 Layer、不同 Tensor 进行异构式切分,在加载权重时毋庸 all_gather(而是部分 weights 进行 gather 并同步),使测验模子和采样模子的效用达到最高。但是在中小模子的体量上,这么的切分巧合是最优的。

因为跟着模子尺寸和 batch_size 增大,采样、测验的耗时占比会有内容辞别。对此 SWIFT 选择了不一样的技巧道路,即异步采样 ( replay buffer ) ,其旨趣是在测验时同期进行采样,采样戒指用于下一 iter 的模子测验。由于采样使用的是 old policy model,因此测验过程需要迥殊加多关于 logits 各异的 CLIP。由于 old policy model 和 policy model 仅出入一个 iter,因此其测验褂讪性险些莫得下落。二者独一需要恭候(或者 stop the world)的过程是权重加载。

相似测验建造下的实验测试标明,在单卡部署 LMDeploy 的情况下,异步采样的测验时辰约为同步采样的 2/3。

模子 placement

SWIFT 除了扶助上述测验和 rollout 使用两个资源组进行异步训采经过以外,也扶助二者共用吞并资源组。即,在 actor 模子测验时,vLLM 将开启 sleep 模式以减少显存占用。

这两种模式的架构图如下:

况且,SWIFT 也扶助 vLLM 的 tensor_parallel ( MP ) 模式。

LMDeploy 推理框架扶助

LMDeploy 是来自于上海浦江实验室的优秀推理加快框架。该框架不仅扶助了纯文本和多模态模子的推理加快,况且自研了基于 FasterTransformer 罢了的 Turbomind 推理加快引擎。在推理速率上,LMDeploy 相较 vLLM 在一众模子上速率有显耀的进步。对 Qwen2.5-7B-Instruct 模子进行实验测试,具体树立如下:使用 AI-MO/NuminaMath-TIR 数据集,批量大小建造为 7,每条 query 采样 24 条戒指,测验 50 个 steps。以下是 vLLM 框架和 LMDeploy 框架在换取条款下的推理时长对比。

不错看到使用 LMDeploy 看成采样的推理引擎,在举座的测验速率上从 44 分 /50steps 加快到 37 分 /50steps,加快比约略为 16%。

注:终末 50steps 的测验耗时包括了保存模子权重,测试集评测

SWIFT 框架在 TRL 框架以及 vLLM 采样的基础上,迥殊引入了 LMDeploy 采样的扶助。成绩于其推理速率和权重加载速率,不错作念到举座采样耗时只须基础罢了的 70%。

多轮更新

多轮更新的中枢想想是:让一次采样得到的数据不错被屡次使用。通过这种方式,不错减少采样的频率,从而让采样和测验的资源分拨愈加平衡。

通过建造参数 num_iterations, 可建造每轮采样数据的迭代更新轮数,增大该参数值不错屡次诳骗采样数据,缓解采样过程对测验的速率影响,从而提高测验速率。在该值建造不太大(举例小于即是 4)的情况下,基本不会对模子测验后果有不良影响。这里的更新轮次对应论文中的 mu 值。

多轮更新是 TRL 库提供的机制,发现该机制和团队提供的其他机制结合起来有更好的加快后果。

基于 1 卡部署 LMDeploy 的建造下,对比 num_iterations 从 1-4 的测验时辰,底下给出了好意思满的实验戒指:

不错看到,在建造多轮更新轮次为 4 时(mu=4),举座测验耗时约为单轮更新的一半。

玄虚测试

针对八卡环境的 SWIFT、veRL 和 trl 框架的测验效用进行了对比。在实验建造中整合了前文提到的多种测验加快技巧,并选用 LMDeploy 看成推理引擎。

具体树立上,选择双卡进行推理采样,结合异步采样计谋,并将多轮更新轮次设定为 4 轮。同期,为了更好模拟真确测验场景,将 batch_size 篡改为 48(每轮 6 个 query,梯度累计步数为 8),group size 建造为 24,基于 Qwen2.5-7B-Instruct 模子和 AI-MO/NuminaMath-TIR 数据集 ( 1 ) ,对多框架的 GRPO 测验速率进行了对比评测。

SWIFT:

veRL:

trl ( mu=4 ) :

trl ( mu=1 )

实验戒指标明,SWIFT 框架的测验耗时约为 120 秒 / 步,而 veRL 框架测验耗时约为 280 秒 / 步,TRL 框架在选择多步更新下约为 144 秒 / 步,而不选择多步更新则约为 320 秒 / 步。通过整合多种测验加快技巧,SWIFT 框架在 GRPO 的中小集群测验效用上罢了了显耀进步。下图展示了 SWIFT 框架下的测验奖励走势,不错看出模子告捷罢了了奖励值的进步。

多模态 GRPO 测验

多模态 GRPO 测验现在曾经有一些开源措置有谈论,举例 R1-V,open-r1-multimodal 等,王人是基于 Open-R1 进行了浅易的扩展。

SWIFT 框架现在曾经扶助多模态模子(图文、视频、音频)的 GRPO 测验,只须在数据会聚给定’ images ’ / ‘ videos ’ / ‘ audios ’字段,GRPO 会将多模态内容输入多模态模子中进行强化测验。SWIFT 现在在微调中扶助的多模态模子近两百个,这些模子均自然扶助 GRPO 测验。参考 R1-V 的任务建造,在多模态计数任务上进行了测验,测验数据集为 CLEVR-70k-Counting ( 2 ) 。测验考中的奖励函数一共有两个,一个是 Deepseek-R1 中提到的容貌奖励函数,用于评估模子输出容貌的准确性;另一是自界说的准确性奖励函数,用于策动模子输出的计数是否与真值一致,现在两个奖励函数王人曾经界说在 SWIFT 框架中,通过— reward_funcs external_r1v_acc format 参数指定。

考中 Qwen2.5-VL-3B-Instruct 看成基础模子进行测验,考中 instruct 而不是 base 模子的主要原因是不错更快地获得 format reward。举座实验在 8 卡 GPU 上完成。刻下 SWIFT GRPO 测验已扶助多卡部署模子以加快 rollout,因此建造 num_infer_workers 为 2,进度数为 6:即 2 卡 vLLM 部署采样,6 卡模子测验。建造模子的最大输出为 1024,学习率建造为 1e-6,其他参数建造详见最好膨大 ( 3 ) 。

实验戒指如下图所示:

模子测验了 500 个 epoch 曾经基本不竭,准确性奖励 ( 图中为 ClevrCountORM ) 和容貌奖励(图中为 Format)在赓续加多,证实模子学习到了奈何完成这一任务,最终任务告捷率从运转的 0.4 攀升到 1 傍边;在大要 300step 傍边,reward_std 曾经将到 0.1 傍边,证实模子曾经基本不竭;completion length 最终褂讪在 60-80,模子学习到的任务推理范式是一一列举图中的物体。

测验后的模子输出样举例下:

user:How many items are there in the image?assistant: Counting the number of items in the image:n1. Green matte spheren2. Large metallic yellow spheren3. Small metallic brown cubennThere are three distinct objects in total.nn3

Reasoning 模子评测

EvalScope 框架是魔搭社区上开源的大模子评测器用 ( 4 ) ,提供了好意思满的大模子全面评测框架。

不仅提供 O1/R1 等推理类模子的推感性能的评测技艺,还扶助评测戒指的可视化,如下图所示。

四房色播

同期,团队将 MATH-500、GPQA-Diamond 和 AIME-2024 三个数据集整合为一个数据采集,遗弃于 modelscope/R1-Distill-Math-Test 数据集 ( 5 ) 中,用户不错凯旋使用该数据集的 ID 进行评测操作,具体使用经过参考:模子推理技艺评测最好膨大 ( 6 ) 。

除此以外,针对 Reasoning 模子在推理过程中存在 Underthinking(想考不及,指模子在推理时通常想路跳转,无法专注于正确的想路,导致非常谜底)和 Overthinking(过度想考,指模子浅易问题上生成过长想维链,浮滥策动资源)的问题。

该框架罢了了模子想考效用评测技艺,不错评估如 DeepSeek-R1-Distill-Qwen-7B ( 7 ) 等推理模子的想考效用,如下图所示,从 token 效用、想考长度、子想维链数目和准确率四个方面进行议论,不错用来评测并优化模子在短输出中获得正确谜底的技艺,具体使用经过参考教程:模子想考效用评测最好膨大 ( 8 ) 。

后果

圣洁单的数学任务 Countdown Game 动身,对 SWIFT 框架的 GRPO 有用性进行考证,并给出了好意思满的实验经过 ( 9 ) 。

Coundown Game 的任务方向是凭证给定的几个数字和加减乘除四种运算,得到方向数字,给出运算公式,因此在模子的输入中给定了任务形状、已罕有字和方向数字。测验考中的奖励函数一共有两个,一个是圭臬的容貌奖励函数 , 用于评估模子输出容貌的准确性;另一是自界说的准确性奖励函数,用于评估模子输出运算公式是否能得到方向值,现在两个奖励函数王人曾经界说在 SWIFT 框架中,通过— reward_funcs external_countdown format 参数指定。

考中 Qwen2.5-3B-Instruct 模子进行全参数 GRPO 测验,具体参数建造详见实验经过。发现 GRPO 的测验过程是相比不褂讪的,一个相比大的学习率和 beta(KL 散度的权重)自然会是模子更快不竭,但时常出现梯渡过大而测验崩溃的情况。最终考中学习率为 7e-5,beta 为 0.001。

实验戒指如下图所示:

一共测验了 2000 个 step,各项弧线证实了 SWIFT GRPO 的有用性,从实验戒指中也能看到模子的不竭过程。

准确性奖励(CoundownORM)和容貌奖励(Format)的稳步高潮证实模子徐徐学习到了奈何更好地完成这一任务,同期 reward_std 最终处在 0.2-0.3 傍边也证实了模子仍有赓续高潮的空间。

从 completion_length 的变化上能明确地看到模子想考方式的转换。从运转的 500 傍边降到 200,然后又增长到 300-400 tokens,能明确看到各个阶段模子的想考方式。运转时,模子会凯旋从戒指动身,反推需要的数字;然后,模子渐渐精简了反推过程,显耀缩减了输出局面;终末,模子发现完成任务最好的方式是列举已罕有字和运算的组合,并徐徐运算,输出范式基本不竭。最终的输出样举例下:

user:"Using the numbers [ 71, 92, 80 ] , create an equation that equals 59. You can use basic arithmetic operations ( +, -, *, / ) and each number can only be used once. Show your work in tags. And return the final equation and answer in tags, for example ( 1 + 2 ) / 3 = 1 ."

assistant:"nWe need to form an expression using the numbers 71, 92, and 80 which results in 59. Let's try some combinations:n ( 92 - 80 ) + 71 = 83 + 71 = 154 ( too high ) n ( 92 - 71 ) + 80 = 21 + 80 = 101 ( too high ) n ( 92 - 80 ) + 71 = 12 + 71 = 83 ( too high ) n ( 92 - 71 ) + 80 = 21 + 80 = 101 ( too high ) n ( 92 + 80 ) - 71 = 172 - 71 = 101 ( too high ) n ( 92 + 71 ) - 80 = 163 - 80 = 83 ( too high ) n ( 80 + 71 ) - 92 = 151 - 92 = 59nnSo our solution is: ( 80 + 71 ) - 92 = 59nn ( 80 + 71 ) - 92 = 59"

写在终末

SWIFT 正在添加 vLLM 的 MP 模式以适配更大体量模子的测验,并但愿在已有的优秀框架的技巧千里淀上以各异化技巧的方式为开导者提供浅易快速的中、小集群 RL 测验有谈论,给开导者提供新的技巧选型。现在 SWIFT 曾经扶助的测验范畴罕有学、ReACT 结构的 Agent、多模态 VQA 等,代码范畴的扶助也在陆续更新中。关于 Megatron 结构的模子 SWIFT 在扶助中,不单是是 GRPO 测验,SFT 和 PreTrain 也将得到相应扶助。

评测范畴,EvalScope 后续会针对 Reasoning models 进一步探索模子的"想考效用"问题;另外,从现在的趋势看,多模态 Reasoning 的范式也渐渐引起敬爱,团队也会在该范畴积极探索最新的评测基准、洽商和要道。

[ 1 ] AI-MO/NuminaMath-TIR 数据集:https://www.modelscope.cn/models/AI-ModelScope/NuminaMath-7B-TIR

[ 2 ] CLEVR-70k-Counting:https://www.modelscope.cn/datasets/okwinds/clevr_cogen_a_train

[ 3 ] 多模态 GRPO 最好膨大:https://github.com/modelscope/ms-swift/blob/main/docs/source/BestPractices/GRPO多模态训练.md

[ 4 ] 大模子评估框架 EvalScope:https://github.com/modelscope/evalscope

[ 5 ] modelscope/R1-Distill-Math-Test 数据集:https://modelscope.cn/datasets/modelscope/R1-Distill-Math-Test

[ 6 ] EvalScope 模子推理技艺评测最好膨大:https://evalscope.readthedocs.io/zh-cn/latest/best_practice/deepseek_r1_distill.html

[ 7 ] DeepSeek-R1-Distill-Qwen-7B :https://modelscope.cn/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

[ 8 ] 模子想考效用评测最好膨大:https://evalscope.readthedocs.io/zh-cn/latest/best_practice/think_eval.html

[ 9 ] GRPO 好意思满实验经过:https://github.com/modelscope/ms-swift/blob/main/docs/source/BestPractices/GRPO完整流程.md  

—  完  —

学术投稿请于责任日发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿内容‍

附上论文 / 名目主页勾搭,以及关系方式哦

咱们会(尽量)实时回答你

一键关爱 � � 点亮星标

科技前沿发挥逐日见

一键三连「点赞」「转发」「堤防心」

迎接在辩驳区留住你的倡导!乱伦变态快播



相关资讯
热点资讯
  • 友情链接:

Powered by 真实迷奸 @2013-2022 RSS地图 HTML地图

Copyright © 2013-2024 版权所有