Update 'other/vllm/vllm_api_server.py'

2023-09-29 22:36:03 -06:00 · 2023-09-29 22:36:03 -06:00 · 2e998344d6
parent c888f5c789
commit 2e998344d6
1 changed files with 37 additions and 4 deletions
--- a/other/vllm/vllm_api_server.py
+++ b/other/vllm/vllm_api_server.py
@ -1,5 +1,6 @@
 import argparse
 import json
 import subprocess
 import time
 from pathlib import Path
 from typing import AsyncGenerator
@ -7,7 +8,7 @@ from typing import AsyncGenerator
 import uvicorn
 from fastapi import BackgroundTasks, FastAPI, Request
 from fastapi.responses import JSONResponse, Response, StreamingResponse
-from vllm.engine.arg_utils import AsyncEngineArgs, EngineArgs
+from vllm.engine.arg_utils import AsyncEngineArgs
 from vllm.engine.async_llm_engine import AsyncLLMEngine
 from vllm.sampling_params import SamplingParams
 from vllm.transformers_utils.tokenizer import get_tokenizer
@ -18,10 +19,36 @@ TIMEOUT_TO_PREVENT_DEADLOCK = 1  # seconds.
 app = FastAPI()
 served_model = None
 model_config = {}
 startup_time = int(time.time())
 # TODO: figure out ROPE scaling
 # TODO: make sure error messages are returned in the response
 def get_gpu_pstate():
    cmd = ['nvidia-smi', '--query-gpu=pstate', '--format=csv']
    output = subprocess.check_output(cmd).decode('utf-8')
    lines = output.strip().split('\n')
    if len(lines) > 1:
        return int(lines[1].strip('P'))
    else:
        return None
@app.get("/info")
 async def generate(request: Request) -> Response:
    return JSONResponse({
        'uptime': int(time.time() - startup_time),
        'startup_time': startup_time,
        'model': served_model,
        'model_config': model_config,
        'nvidia': {
            'pstate': get_gpu_pstate()
        }
    })
@app.get("/model")
 async def generate(request: Request) -> Response:
    return JSONResponse({'model': served_model, 'timestamp': int(time.time())})
@ -98,11 +125,17 @@ if __name__ == "__main__":
    parser.add_argument("--port", type=int, default=8000)
    parser = AsyncEngineArgs.add_cli_args(parser)
    args = parser.parse_args()
    engine_args = AsyncEngineArgs.from_cli_args(args)
    engine = AsyncLLMEngine.from_engine_args(engine_args)
-    served_model = Path(args.model).name
+    model_path = Path(args.model)
    served_model = model_path.name
    try:
        model_config = json.loads((model_path / 'config.json').read_text())
    except Exception as e:
        print(f"Failed to load the model's config - {e.__class__.__name__}: {e}")
    engine = AsyncLLMEngine.from_engine_args(engine_args)
    tokenizer = get_tokenizer(engine_args.tokenizer,
                              tokenizer_mode=args.tokenizer_mode,
                              trust_remote_code=args.trust_remote_code)