首页
技术日记
编程
旅游
数码
登录
标签
TRL
大模型微调实战之 Transformer 强化学习(TRL Reinforcement Learning)(三)Proximal Policy Optimization
大模型微调实战之 Transformer 强化学习(TRL Reinforcement Learning)(三)Proximal Policy Optimization Proximal Policy Optimization 这是一个
实战
模型
TRL
Transformer
Reinforcement
admin
9月前
75
0