local-llm-server/llm_server/llm/llm_backend.py

from typing import Tuple, Union

import flask

from llm_server import opts
from llm_server.llm import get_token_count
from llm_server.routes.cache import redis


class LLMBackend:
    _default_params: dict

    def handle_response(self, success, request: flask.Request, response_json_body: dict, response_status_code: int, client_ip, token, prompt, elapsed_time, parameters, headers):
        raise NotImplementedError

    def validate_params(self, params_dict: dict) -> Tuple[bool, str | None]:
        raise NotImplementedError

    # def get_model_info(self) -> Tuple[dict | bool, Exception | None]:
    #     raise NotImplementedError

    def get_parameters(self, parameters) -> Tuple[dict | None, str | None]:
        """
        Validate and return the parameters for this backend.
        Lets you set defaults for specific backends.
        :param parameters:
        :return:
        """
        raise NotImplementedError

    def validate_request(self, parameters: dict, prompt: str, request: flask.Request) -> Tuple[bool, Union[str, None]]:
        """
        If a backend needs to do other checks not related to the prompt or parameters.
        Default is no extra checks preformed.
        :param parameters:
        :return:
        """
        return True, None

    def validate_prompt(self, prompt: str) -> Tuple[bool, Union[str, None]]:
        prompt_len = get_token_count(prompt)
        if prompt_len > opts.context_size - 10:
            model_name = redis.get('running_model', str, 'NO MODEL ERROR')
            return False, f'Token indices sequence length is longer than the specified maximum sequence length for this model ({prompt_len} > {opts.context_size}, model: {model_name}). Please lower your context size'
        return True, None
actually we don't want to emulate openai 2023-09-12 01:04:11 -06:00			`from typing import Tuple, Union`
refactor generation route 2023-08-30 18:53:26 -06:00
adjust logging, add more vllm stuff 2023-09-13 11:22:33 -06:00			`import flask`

actually validate prompt length lol 2023-09-14 18:31:13 -06:00			`from llm_server import opts`
rewrite tokenizer, restructure validation 2023-09-24 13:02:30 -06:00			`from llm_server.llm import get_token_count`
fix error handling 2023-09-27 14:36:49 -06:00			`from llm_server.routes.cache import redis`
actually validate prompt length lol 2023-09-14 18:31:13 -06:00
refactor generation route 2023-08-30 18:53:26 -06:00
			`class LLMBackend:`
set up queue to work with gunicorn processes, other improvements 2023-09-14 17:38:20 -06:00			`_default_params: dict`
add openai-compatible backend 2023-09-12 16:40:09 -06:00
option to disable streaming, improve timeout on requests to backend, fix error handling. reduce duplicate code, misc other cleanup 2023-09-14 14:05:50 -06:00			`def handle_response(self, success, request: flask.Request, response_json_body: dict, response_status_code: int, client_ip, token, prompt, elapsed_time, parameters, headers):`
refactor generation route 2023-08-30 18:53:26 -06:00			`raise NotImplementedError`

implement vllm backend 2023-09-11 20:47:19 -06:00			`def validate_params(self, params_dict: dict) -> Tuple[bool, str \| None]:`
refactor generation route 2023-08-30 18:53:26 -06:00			`raise NotImplementedError`
implement vllm backend 2023-09-11 20:47:19 -06:00
			`# def get_model_info(self) -> Tuple[dict \| bool, Exception \| None]:`
			`# raise NotImplementedError`
actually we don't want to emulate openai 2023-09-12 01:04:11 -06:00
fix invalid param error, add manual model name 2023-09-12 10:30:45 -06:00			`def get_parameters(self, parameters) -> Tuple[dict \| None, str \| None]:`
actually we don't want to emulate openai 2023-09-12 01:04:11 -06:00			`"""`
			`Validate and return the parameters for this backend.`
			`Lets you set defaults for specific backends.`
			`:param parameters:`
			`:return:`
			`"""`
			`raise NotImplementedError`
add openai-compatible backend 2023-09-12 16:40:09 -06:00
rewrite tokenizer, restructure validation 2023-09-24 13:02:30 -06:00			`def validate_request(self, parameters: dict, prompt: str, request: flask.Request) -> Tuple[bool, Union[str, None]]:`
			`"""`
			`If a backend needs to do other checks not related to the prompt or parameters.`
			`Default is no extra checks preformed.`
			`:param parameters:`
			`:return:`
			`"""`
			`return True, None`
actually validate prompt length lol 2023-09-14 18:31:13 -06:00
port to mysql, use vllm tokenizer endpoint 2023-09-20 20:30:31 -06:00			`def validate_prompt(self, prompt: str) -> Tuple[bool, Union[str, None]]:`
rewrite tokenizer, restructure validation 2023-09-24 13:02:30 -06:00			`prompt_len = get_token_count(prompt)`
port to mysql, use vllm tokenizer endpoint 2023-09-20 20:30:31 -06:00			`if prompt_len > opts.context_size - 10:`
fix error handling 2023-09-27 14:36:49 -06:00			`model_name = redis.get('running_model', str, 'NO MODEL ERROR')`
			`return False, f'Token indices sequence length is longer than the specified maximum sequence length for this model ({prompt_len} > {opts.context_size}, model: {model_name}). Please lower your context size'`
actually validate prompt length lol 2023-09-14 18:31:13 -06:00			`return True, None`