服务端部署
#54
by
Alive2June
- opened
A100 80G显卡部署模型提供ocr服务。
客户端调用api使用ocr功能。
配置参数该怎么配置,能达到最大并发量,压榨A100全部性能。
如果可以,能将配置文件发一下么?
我现在部署,GPU UTL最大不超过50%:
paddleocr genai_server --model_name PaddleOCR-VL-0.9B --backend vllm --port 8118 --backend_config vllm_config.yaml
paddlex --serve --pipeline PaddleOCR-VL.yaml
vllm_config.yaml:
max-model-len: 8192
gpu-memory-utilization: 0.6
enforce-eager: true
max-num-seqs: 128