handle error while streaming

2023-09-24 13:27:27 -06:00 · 2023-09-24 13:27:27 -06:00 · 2678102153
parent cb99c3490e
commit 2678102153
2 changed files with 55 additions and 38 deletions
--- a/llm_server/routes/v1/generate_stream.py
+++ b/llm_server/routes/v1/generate_stream.py
@ -1,8 +1,10 @@
 import json
 import time
 import traceback
 from flask import request
 from ..helpers.client import format_sillytavern_err
 from ..helpers.http import validate_json
 from ..ooba_request_handler import OobaRequestHandler
 from ... import opts
@ -13,6 +15,7 @@ from ...stream import sock
 # TODO: have workers process streaming requests
 # TODO: make sure to log the token as well (seems to be missing in the DB right now)
@sock.route('/api/v1/stream')
 def stream(ws):
@ -55,6 +58,8 @@ def stream(ws):
                    'prompt': input_prompt,
                    'stream': True,
                }
                try:
                    response = generator(msg_to_backend)
                    # Be extra careful when getting attributes from the response object
@ -96,6 +101,16 @@ def stream(ws):
                    elapsed_time = end_time - start_time
                    generated_tokens = tokenize(generated_text)
                    log_prompt(handler.client_ip, handler.token, input_prompt, generated_text, elapsed_time, handler.parameters, dict(request.headers), response_status_code, request.url, response_tokens=generated_tokens)
                except:
                    generated_text = generated_text + '\n\n' + format_sillytavern_err('encountered error while streaming', 'error')
                    generated_tokens = tokenize(generated_text)
                    traceback.print_exc()
                    ws.send(json.dumps({
                        'event': 'text_stream',
                        'message_num': message_num,
                        'text': generated_text
                    }))
                    log_prompt(handler.client_ip, handler.token, input_prompt, generated_text, None, handler.parameters, dict(request.headers), response_status_code, request.url, response_tokens=generated_tokens)
        ws.send(json.dumps({
            'event': 'stream_end',
--- a/other/vllm/vllm_api_server.py
+++ b/other/vllm/vllm_api_server.py
@ -19,6 +19,8 @@ app = FastAPI()
 served_model = None
 # TODO: figure out ROPE scaling
 # TODO: make sure error messages are returned in the response
@app.get("/model")
 async def generate(request: Request) -> Response: