增加grpo多次工具调用训练 #3503

woshixiaobai2019 · 2025-03-14T15:04:54Z

test_grpo_tool.py:训练测试脚本
math_tool.py:测试的工具，定义新运算，接口主要是判断是否继续和给格式奖励，还有online的result输入

相关数据集也放在目录中，比较混乱，主要还是修改gpro_trainer.py

GRPO args需要新增参数:
is_reward_tool_call:是否累加计算每个tool_call的格式奖励，但应该设置上限，否则可能会学到无限调用，但不输出正确答案。
tool_call_weight:tool_call_format奖励的权重

Jintao-Huang · 2025-03-15T03:28:17Z

数据集可以放在modelscope上，然后使用model_id进行使用嘛

然后最外层目录的文件放置在examples/train/grpo中单读建立个文件夹，然后放置在里面，然后写给文档（最佳实践）来介绍一下不

Jintao-Huang · 2025-03-15T03:29:35Z

pip install pre-commit

pre-commit run --all-files

lint过一下，会进行代码的整理

woshixiaobai2019 · 2025-03-15T04:03:36Z

pip install pre-commit

pre-commit run --all-files
lint过一下，会进行代码的整理

好的

woshixiaobai2019 · 2025-03-15T06:52:19Z

把数据集上传到了modelscope，然后新增一个最佳实践多轮工具调用实践

Jintao-Huang · 2025-03-17T02:23:08Z

examples/train/rft/rft.py

@@ -22,7 +22,8 @@ def do_sample(model: str, model_type: str, dataset: List[str], iter: int):
    for device in range(device_count):
        sample_cmd = (f'{conda_prefix} CUDA_VISIBLE_DEVICES={device} swift sample '
                      f'--model {model} --model_type {model_type} '
-                      f'--dataset {" ".join(dataset)} '
+                      f'--dataset {'


这里有语法问题，请检查一下

Jintao-Huang · 2025-03-17T02:23:17Z

scripts/benchmark/exp_utils.py

@@ -122,7 +122,7 @@ def run(self, exp: Experiment):
            exp.runtime = runtime
            envs = deepcopy(runtime.get('env', {}))
            envs.update(os.environ)
-            logger.info(f'Running cmd: {runtime["running_cmd"]}, env: {runtime.get("env", {})}')
+            logger.info(f'Running cmd: {runtime['running_cmd']}, env: {runtime.get('env', {})}')


zsxm1998 · 2025-03-19T08:27:26Z

期待调用工具的GRPO支持

增加grpo多次工具调用训练

2b91a31

重构代码

472926d

Jintao-Huang reviewed Mar 17, 2025

View reviewed changes

Your Name added 4 commits March 17, 2025 11:01

重构代码

dc54f8d

重构代码

a2c1be0

重构代码

b537398

重构代码

0f1ca05

woshixiaobai2019 force-pushed the main branch from 8d6b45b to 0f1ca05 Compare March 17, 2025 03:47

修复语法错误

d2125f4

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

增加grpo多次工具调用训练 #3503

增加grpo多次工具调用训练 #3503

woshixiaobai2019 commented Mar 14, 2025

Jintao-Huang commented Mar 15, 2025

Jintao-Huang commented Mar 15, 2025

woshixiaobai2019 commented Mar 15, 2025

woshixiaobai2019 commented Mar 15, 2025

Jintao-Huang Mar 17, 2025

Jintao-Huang Mar 17, 2025

zsxm1998 commented Mar 19, 2025

增加grpo多次工具调用训练 #3503

Are you sure you want to change the base?

增加grpo多次工具调用训练 #3503

Conversation

woshixiaobai2019 commented Mar 14, 2025

Jintao-Huang commented Mar 15, 2025

Jintao-Huang commented Mar 15, 2025

woshixiaobai2019 commented Mar 15, 2025

woshixiaobai2019 commented Mar 15, 2025

Jintao-Huang Mar 17, 2025

Choose a reason for hiding this comment

Jintao-Huang Mar 17, 2025

Choose a reason for hiding this comment

zsxm1998 commented Mar 19, 2025