local-llm-server/llm_server/llm/generator.py

from llm_server import opts
from llm_server.cluster.cluster_config import cluster_config


def generator(request_json_body, cluster_backend, timeout: int = None):
    mode = cluster_config.get_backend(cluster_backend)['mode']
    if mode == 'ooba':
        # from .oobabooga.generate import generate
        # return generate(request_json_body)
        raise NotImplementedError
    elif mode == 'vllm':
        from .vllm.generate import generate
        return generate(request_json_body, cluster_backend, timeout=timeout)
    else:
        raise Exception
add a queue system 2023-08-23 20:12:38 -06:00			`from llm_server import opts`
finish openai endpoints 2023-10-01 16:04:53 -06:00			`from llm_server.cluster.cluster_config import cluster_config`
add a queue system 2023-08-23 20:12:38 -06:00

functional 2023-09-30 19:41:50 -06:00			`def generator(request_json_body, cluster_backend, timeout: int = None):`
finish openai endpoints 2023-10-01 16:04:53 -06:00			`mode = cluster_config.get_backend(cluster_backend)['mode']`
			`if mode == 'ooba':`
add ratelimiting to websocket streaming endpoint, fix queue not decrementing IP requests, add console printer 2023-09-27 21:15:54 -06:00			`# from .oobabooga.generate import generate`
			`# return generate(request_json_body)`
			`raise NotImplementedError`
finish openai endpoints 2023-10-01 16:04:53 -06:00			`elif mode == 'vllm':`
implement vllm backend 2023-09-11 20:47:19 -06:00			`from .vllm.generate import generate`
functional 2023-09-30 19:41:50 -06:00			`return generate(request_json_body, cluster_backend, timeout=timeout)`
add a queue system 2023-08-23 20:12:38 -06:00			`else:`
			`raise Exception`