Linux大棚 – 不忘初心的技术博客,浮躁时代的安静角落
  •  首页
  •  技术日记
  •  编程
  •  旅游
  •  数码
  •  登录
  1. 标签
  2. TRL
  • 大模型微调实战之 Transformer 强化学习(TRL Reinforcement Learning)(三)Proximal Policy Optimization

    大模型微调实战之 Transformer 强化学习(TRL Reinforcement Learning)(三)Proximal Policy Optimization Proximal Policy Optimization 这是一个
    实战 模型 TRL Transformer Reinforcement
    admin 9月前
    75 0
CopyRight © 2022 All Rights Reserved 豫ICP备2021025688号-21
Processed: 0.034 , SQL: 9