yyqoni
/

rlhflow-llama-3-sft-8b-v2-bandit-ppo-60k

Text Generation

text-generation-inference

Model card Files Files and versions

rlhflow-llama-3-sft-8b-v2-bandit-ppo-60k

16.1 GB

1 contributor

History: 5 commits

yyqoni's picture

Update README.md

4724aa2 verified 10 months ago