liuyixiu's picture

3 1

liuyixiu

liuyx0903

·

AI & ML interests

None yet

Recent Activity

liked a Space about 2 months ago

HuggingFaceTB/smol-training-playbook

upvoted a paper 2 months ago

BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping

upvoted a paper 6 months ago

OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling

View all activity

Organizations

liuyx0903 's datasets

None public yet