PRISM 不会粗暴地丢弃整条轨迹重新采样,而是保留高置信部分,只对低置信位置进行重新 mask,然后从这些局部变化中生成新的分支。这样做的好处是,它既保留了已有的高质量结构,又能继续探索不同的细节实现,避免过早收敛到单一路径。论文图 2 ...
1. 用 Test Time 换 Training Time 能让 LLM 更强吗? Self-Play 会是训 LLM 的新热点吗?把预算投入 Inference 会比扩大 LLM 参数更有效吗?PRM 对 Test-Time Compute 性价比影响多大?额外的 Inference Time 能帮 LLM 提升多少能力?Test-Time Compute 性价比还能再提高吗?... 2.