local-llm-server/llm_server/llm/__init__.py

from llm_server.cluster.cluster_config import cluster_config
from llm_server.llm import oobabooga, vllm


def get_token_count(prompt: str, backend_url: str):
    assert isinstance(backend_url, str)

    if not prompt:
        # The tokenizers have issues when the prompt is None.
        return 0
    assert isinstance(prompt, str)

    backend_mode = cluster_config.get_backend(backend_url)['mode']
    if backend_mode == 'vllm':
        return vllm.tokenize(prompt, backend_url)
    elif backend_mode == 'ooba':
        return oobabooga.tokenize(prompt)
    else:
        raise Exception(backend_mode)
fix exception 2023-10-03 13:47:18 -06:00			`from llm_server.cluster.cluster_config import cluster_config`
rewrite tokenizer, restructure validation 2023-09-24 13:02:30 -06:00			`from llm_server.llm import oobabooga, vllm`


functional 2023-09-30 19:41:50 -06:00			`def get_token_count(prompt: str, backend_url: str):`
f 2023-10-05 18:07:59 -06:00			`assert isinstance(backend_url, str)`
t 2023-10-05 18:06:36 -06:00
f 2023-10-05 18:07:59 -06:00			`if not prompt:`
			`# The tokenizers have issues when the prompt is None.`
			`return 0`
fix processing not being decremented on streaming, fix confusion over queue, adjust stop sequences 2023-10-02 20:53:08 -06:00			`assert isinstance(prompt, str)`

fix exception 2023-10-03 13:47:18 -06:00			`backend_mode = cluster_config.get_backend(backend_url)['mode']`
rewrite tokenizer, restructure validation 2023-09-24 13:02:30 -06:00			`if backend_mode == 'vllm':`
functional 2023-09-30 19:41:50 -06:00			`return vllm.tokenize(prompt, backend_url)`
rewrite tokenizer, restructure validation 2023-09-24 13:02:30 -06:00			`elif backend_mode == 'ooba':`
			`return oobabooga.tokenize(prompt)`
			`else:`
			`raise Exception(backend_mode)`