不改超参、不调token:用分位数替代均值,QAE让大模型强化学习更稳定
强化学习总是“要么坍塌要么炸”?QAE 用分位数取代均值,一步让训练稳回安全区。本文提出了一种简洁的强化学习基线改进方法——分位数优势估计(Quantile Advantage Estimation,QAE)。QAE 使用 K 分位数基线替代传统的均值基线,在响应层面形成“难题强化罕见成功、易题抑制剩余错误”的双门控机制。
查看全文
加载中...

收藏
人工智能
收藏
人工智能
收藏
人工智能
收藏
行业交流
收藏
人工智能
收藏
人工智能
收藏
人工智能
收藏
5G/6G通讯技术
收藏
人工智能
收藏
人工智能苏ICP备2021030733号

32011402011102
智造者(南京)创新科技有限公司 版权所有
联系电话:400-816-5816
联系地址:南京市江宁区谷里街道孝义路西塘80-1号A栋
投诉渠道:service@zhizaozhe.com