Model Card for Model ID

Model Details

RL training using Qwen3/Qwen3-0.6B-Base as base model, openai/gsk8m as dataset
reward stable at 0.75 after 100 steps

2x4090, about 3hrs

Safetensors

Model size

0.8B params

Tensor type

BF16

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Base model

Finetuned

(353)

this model