bash reward_generation/steps_generate.sh \ --LM models--Qwen--Qwen2.5-7B-Instruct \ --round 0 \ --bs 4 \ --mt 6000 \ --n_gpus 1 \ --task math \ --loop 1 上述脚本不能运行,非常期待完整代码~