yujiepan
/

gpt-oss-tiny-random-bf16

@@ -19,7 +19,7 @@ Note: This model is in BF16; quantized MXFP4 FFN is not used.
 - vLLM
 ```bash
-vllm serve yujiepan/gpt-oss-bf16-tiny-random
 ```
 - Transformers
@@ -28,7 +28,7 @@ vllm serve yujiepan/gpt-oss-bf16-tiny-random
 import torch
 from transformers import pipeline
-model_id = "yujiepan/gpt-oss-bf16-tiny-random"
 pipe = pipeline(
     "text-generation",
@@ -67,7 +67,7 @@ from transformers import (
 )
 source_model_id = "openai/gpt-oss-120b"
-save_folder = "/tmp/yujiepan/gpt-oss-bf16-tiny-random"
 processor = AutoProcessor.from_pretrained(source_model_id)
 processor.save_pretrained(save_folder)
@@ -106,6 +106,7 @@ with torch.no_grad():
 model.save_pretrained(save_folder)
 # mxfp4
 # model = AutoModelForCausalLM.from_pretrained(save_folder, trust_remote_code=True, torch_dtype=torch.bfloat16, quantization_config=quantization_config)
 # model.save_pretrained(save_folder, safe_serialization=True)
 ```

 - vLLM
 ```bash
+vllm serve yujiepan/gpt-oss-tiny-random-bf16
 ```
 - Transformers
 import torch
 from transformers import pipeline
+model_id = "yujiepan/gpt-oss-tiny-random-bf16"
 pipe = pipeline(
     "text-generation",
 )
 source_model_id = "openai/gpt-oss-120b"
+save_folder = "/tmp/yujiepan/gpt-oss-tiny-random-bf16"
 processor = AutoProcessor.from_pretrained(source_model_id)
 processor.save_pretrained(save_folder)
 model.save_pretrained(save_folder)
 # mxfp4
+from transformers.quantizers.quantizer_mxfp4 import Mxfp4HfQuantizer
 # model = AutoModelForCausalLM.from_pretrained(save_folder, trust_remote_code=True, torch_dtype=torch.bfloat16, quantization_config=quantization_config)
 # model.save_pretrained(save_folder, safe_serialization=True)
 ```