Spaces:

ILLUME-MLLM
/

ILLUME_plus-3b

Sleeping

App Files Files Community

huangrh9 commited on May 30

Commit

a07b3ab

verified ·

1 Parent(s): 7378375

Update app.py

Browse files

Files changed (1) hide show

app.py +7 -3

app.py CHANGED Viewed

@@ -900,7 +900,7 @@ if __name__ == "__main__":
     # --- Add arguments for ILLUME configs and checkpoints ---
     parser.add_argument("--model_name", type=str, default="ILLUME-MLLM/illume_plus-qwen-2_5-3b-hf",
                         help="Name for builder.")
-    parser.add_argument("--torch_dtype", type=str, default='bf16', choices=['fp32', 'bf16', 'fp16'],
                         help="Computation data type.")
     parser.add_argument("--diffusion_decoder_path", type=str, default='ILLUME-MLLM/dualvitok_sdxl_decoder',
@@ -939,6 +939,7 @@ if __name__ == "__main__":
         attn_implementation='flash_attention_2',  # OR 'sdpa' for Ascend NPUs
         # torch_dtype=args.torch_dtype,
         # attn_implementation='sdpa',  # OR 'sdpa' for Ascend NPUs
         low_cpu_mem_usage=True,
         trust_remote_code=True).eval().cuda()
     processor = AutoProcessor.from_pretrained(args.model_name, trust_remote_code=True)
@@ -946,11 +947,14 @@ if __name__ == "__main__":
     # set the vision tokenizer for decoding image.
     dualvitok = AutoModel.from_pretrained(args.tokenizer_path,
                                           torch_dtype=torch.float32,
-                                          trust_remote_code=True).eval().cuda()
     processor.set_vision_tokenizer(dualvitok)
     # (Optional): set the sdxl diffusion decoder. It will enable upsample 2x image resolution.
-    processor.load_diffusion_vision_detokenizer(args.diffusion_decoder_path)
     # Assign device to model for later use
     streamer = TextIteratorStreamer(processor.tokenizer, skip_prompt=True, skip_special_tokens=True, timeout=15)

     # --- Add arguments for ILLUME configs and checkpoints ---
     parser.add_argument("--model_name", type=str, default="ILLUME-MLLM/illume_plus-qwen-2_5-3b-hf",
                         help="Name for builder.")
+    parser.add_argument("--torch_dtype", type=str, default='fp32', choices=['fp32', 'bf16', 'fp16'],
                         help="Computation data type.")
     parser.add_argument("--diffusion_decoder_path", type=str, default='ILLUME-MLLM/dualvitok_sdxl_decoder',
         attn_implementation='flash_attention_2',  # OR 'sdpa' for Ascend NPUs
         # torch_dtype=args.torch_dtype,
         # attn_implementation='sdpa',  # OR 'sdpa' for Ascend NPUs
+        token=os.environ["HF_TOKEN"],
         low_cpu_mem_usage=True,
         trust_remote_code=True).eval().cuda()
     processor = AutoProcessor.from_pretrained(args.model_name, trust_remote_code=True)
     # set the vision tokenizer for decoding image.
     dualvitok = AutoModel.from_pretrained(args.tokenizer_path,
                                           torch_dtype=torch.float32,
+                                          trust_remote_code=True,
+                                          token=os.environ["HF_TOKEN"],
+                                          ).eval().cuda()
     processor.set_vision_tokenizer(dualvitok)
     # (Optional): set the sdxl diffusion decoder. It will enable upsample 2x image resolution.
+    processor.load_diffusion_vision_detokenizer(args.diffusion_decoder_path,
+                                                token=os.environ["HF_TOKEN"])
     # Assign device to model for later use
     streamer = TextIteratorStreamer(processor.tokenizer, skip_prompt=True, skip_special_tokens=True, timeout=15)