local-llm-server/llm_server/llm/generator.py

from llm_server import globals
from llm_server.cluster.cluster_config import cluster_config


def generator(request_json_body, cluster_backend, timeout: int = None):
    mode = cluster_config.get_backend(cluster_backend)['mode']
    if mode == 'ooba':
        # from .oobabooga.generate import generate
        # return generate(request_json_body)
        raise NotImplementedError
    elif mode == 'vllm':
        from .vllm.generate import generate
        return generate(request_json_body, cluster_backend, timeout=timeout)
    else:
        raise Exception
refactor a lot of things, major cleanup, use postgresql 2024-05-07 17:03:41 -06:00			`from llm_server import globals`
Merge cluster to master (#3) Co-authored-by: Cyberes <cyberes@evulid.cc> Reviewed-on: https://git.evulid.cc/cyberes/local-llm-server/pulls/3 2023-10-27 19:19:22 -06:00			`from llm_server.cluster.cluster_config import cluster_config`
add a queue system 2023-08-23 20:12:38 -06:00

Merge cluster to master (#3) Co-authored-by: Cyberes <cyberes@evulid.cc> Reviewed-on: https://git.evulid.cc/cyberes/local-llm-server/pulls/3 2023-10-27 19:19:22 -06:00			`def generator(request_json_body, cluster_backend, timeout: int = None):`
			`mode = cluster_config.get_backend(cluster_backend)['mode']`
			`if mode == 'ooba':`
add ratelimiting to websocket streaming endpoint, fix queue not decrementing IP requests, add console printer 2023-09-27 21:15:54 -06:00			`# from .oobabooga.generate import generate`
			`# return generate(request_json_body)`
			`raise NotImplementedError`
Merge cluster to master (#3) Co-authored-by: Cyberes <cyberes@evulid.cc> Reviewed-on: https://git.evulid.cc/cyberes/local-llm-server/pulls/3 2023-10-27 19:19:22 -06:00			`elif mode == 'vllm':`
implement vllm backend 2023-09-11 20:47:19 -06:00			`from .vllm.generate import generate`
Merge cluster to master (#3) Co-authored-by: Cyberes <cyberes@evulid.cc> Reviewed-on: https://git.evulid.cc/cyberes/local-llm-server/pulls/3 2023-10-27 19:19:22 -06:00			`return generate(request_json_body, cluster_backend, timeout=timeout)`
add a queue system 2023-08-23 20:12:38 -06:00			`else:`
			`raise Exception`