local-llm-server/llm_server/threads.py

import time
from threading import Thread

from llm_server import opts
from llm_server.database.database import weighted_average_column_for_model
from llm_server.llm.info import get_running_model
from llm_server.routes.cache import redis
from llm_server.routes.v1.generate_stats import generate_stats


class MainBackgroundThread(Thread):
    backend_online = False

    # TODO: do I really need to put everything in Redis?
    # TODO: call generate_stats() every minute, cache the results, put results in a DB table, then have other parts of code call this cache

    def __init__(self):
        Thread.__init__(self)
        self.daemon = True
        redis.set('average_generation_elapsed_sec', 0)
        redis.set('estimated_avg_tps', 0)
        redis.set('average_output_tokens', 0)
        redis.set('backend_online', 0)
        redis.set_dict('backend_info', {})

    def run(self):
        while True:
            if opts.mode == 'oobabooga':
                model, err = get_running_model()
                if err:
                    print(err)
                    redis.set('backend_online', 0)
                else:
                    opts.running_model = model
                    redis.set('backend_online', 1)
            elif opts.mode == 'vllm':
                model, err = get_running_model()
                if err:
                    print(err)
                    redis.set('backend_online', 0)
                else:
                    opts.running_model = model
                    redis.set('backend_online', 1)
            else:
                raise Exception

            # exclude_zeros=True filters out rows where an error message was returned. Previously, if there was an error, 0
            # was entered into the column. The new code enters null instead but we need to be backwards compatible for now.
            average_generation_elapsed_sec = weighted_average_column_for_model('prompts', 'generation_time', opts.running_model, opts.mode, opts.backend_url, exclude_zeros=True) or 0
            if average_generation_elapsed_sec > -1:
                redis.set('average_generation_elapsed_sec', average_generation_elapsed_sec)

            # overall = average_column_for_model('prompts', 'generation_time', opts.running_model)
            # print(f'Weighted: {average_generation_elapsed_sec}, overall: {overall}')

            average_output_tokens = weighted_average_column_for_model('prompts', 'response_tokens', opts.running_model, opts.mode, opts.backend_url, exclude_zeros=True) or 0
            if average_generation_elapsed_sec > -1:
                redis.set('average_output_tokens', average_output_tokens)

            # overall = average_column_for_model('prompts', 'response_tokens', opts.running_model)
            # print(f'Weighted: {average_output_tokens}, overall: {overall}')

            estimated_avg_tps = round(average_output_tokens / average_generation_elapsed_sec, 2) if average_generation_elapsed_sec > 0 else 0  # Avoid division by zero
            redis.set('estimated_avg_tps', estimated_avg_tps)
            time.sleep(60)


def cache_stats():
    while True:
        # If opts.base_client_api is null that means no one has visited the site yet
        # and the base_client_api hasn't been set. Do nothing until then.
        if redis.get('base_client_api'):
            x = generate_stats()
        time.sleep(5)
add home template 2023-08-23 23:11:12 -06:00			`import time`
			`from threading import Thread`

			`from llm_server import opts`
port to mysql, use vllm tokenizer endpoint 2023-09-20 20:30:31 -06:00			`from llm_server.database.database import weighted_average_column_for_model`
implement vllm backend 2023-09-11 20:47:19 -06:00			`from llm_server.llm.info import get_running_model`
add home template 2023-08-23 23:11:12 -06:00			`from llm_server.routes.cache import redis`
cache stats in background 2023-09-17 18:55:36 -06:00			`from llm_server.routes.v1.generate_stats import generate_stats`
add home template 2023-08-23 23:11:12 -06:00

show total output tokens on stats 2023-08-24 20:43:11 -06:00			`class MainBackgroundThread(Thread):`
add home template 2023-08-23 23:11:12 -06:00			`backend_online = False`

show total output tokens on stats 2023-08-24 20:43:11 -06:00			`# TODO: do I really need to put everything in Redis?`
			`# TODO: call generate_stats() every minute, cache the results, put results in a DB table, then have other parts of code call this cache`

add home template 2023-08-23 23:11:12 -06:00			`def __init__(self):`
			`Thread.__init__(self)`
			`self.daemon = True`
update home, update readme, calculate estimated wait based on database stats 2023-08-24 16:47:14 -06:00			`redis.set('average_generation_elapsed_sec', 0)`
rename average_tps to estimated_avg_tps 2023-09-14 01:35:25 -06:00			`redis.set('estimated_avg_tps', 0)`
update home, update readme, calculate estimated wait based on database stats 2023-08-24 16:47:14 -06:00			`redis.set('average_output_tokens', 0)`
			`redis.set('backend_online', 0)`
add HF text-generation-inference backend 2023-08-29 13:46:41 -06:00			`redis.set_dict('backend_info', {})`
add home template 2023-08-23 23:11:12 -06:00
			`def run(self):`
			`while True:`
			`if opts.mode == 'oobabooga':`
implement vllm backend 2023-09-11 20:47:19 -06:00			`model, err = get_running_model()`
			`if err:`
			`print(err)`
add home template 2023-08-23 23:11:12 -06:00			`redis.set('backend_online', 0)`
implement vllm backend 2023-09-11 20:47:19 -06:00			`else:`
			`opts.running_model = model`
			`redis.set('backend_online', 1)`
			`elif opts.mode == 'vllm':`
			`model, err = get_running_model()`
			`if err:`
			`print(err)`
			`redis.set('backend_online', 0)`
			`else:`
			`opts.running_model = model`
			`redis.set('backend_online', 1)`
add home template 2023-08-23 23:11:12 -06:00			`else:`
			`raise Exception`
log model used in request so we can pull the correct averages when we change models 2023-08-26 00:30:59 -06:00
update weighted_average_column_for_model to account for when there was an error reported, insert null for response tokens when error, correctly parse x-forwarded-for, correctly convert model reported by hf-textgen 2023-08-29 15:46:56 -06:00			`# exclude_zeros=True filters out rows where an error message was returned. Previously, if there was an error, 0`
option to disable streaming, improve timeout on requests to backend, fix error handling. reduce duplicate code, misc other cleanup 2023-09-14 14:05:50 -06:00			`# was entered into the column. The new code enters null instead but we need to be backwards compatible for now.`
calculate time stats based on backend url 2023-09-13 12:34:14 -06:00			`average_generation_elapsed_sec = weighted_average_column_for_model('prompts', 'generation_time', opts.running_model, opts.mode, opts.backend_url, exclude_zeros=True) or 0`
fix two exceptions 2023-09-23 20:55:49 -06:00			`if average_generation_elapsed_sec > -1:`
			`redis.set('average_generation_elapsed_sec', average_generation_elapsed_sec)`
log model used in request so we can pull the correct averages when we change models 2023-08-26 00:30:59 -06:00
calculate weighted average for stat tracking 2023-08-27 19:58:04 -06:00			`# overall = average_column_for_model('prompts', 'generation_time', opts.running_model)`
			`# print(f'Weighted: {average_generation_elapsed_sec}, overall: {overall}')`

calculate time stats based on backend url 2023-09-13 12:34:14 -06:00			`average_output_tokens = weighted_average_column_for_model('prompts', 'response_tokens', opts.running_model, opts.mode, opts.backend_url, exclude_zeros=True) or 0`
fix two exceptions 2023-09-23 20:55:49 -06:00			`if average_generation_elapsed_sec > -1:`
			`redis.set('average_output_tokens', average_output_tokens)`
log model used in request so we can pull the correct averages when we change models 2023-08-26 00:30:59 -06:00
calculate weighted average for stat tracking 2023-08-27 19:58:04 -06:00			`# overall = average_column_for_model('prompts', 'response_tokens', opts.running_model)`
			`# print(f'Weighted: {average_output_tokens}, overall: {overall}')`

option to disable streaming, improve timeout on requests to backend, fix error handling. reduce duplicate code, misc other cleanup 2023-09-14 14:05:50 -06:00			`estimated_avg_tps = round(average_output_tokens / average_generation_elapsed_sec, 2) if average_generation_elapsed_sec > 0 else 0 # Avoid division by zero`
rename average_tps to estimated_avg_tps 2023-09-14 01:35:25 -06:00			`redis.set('estimated_avg_tps', estimated_avg_tps)`
remove debug code 2023-08-23 23:14:50 -06:00			`time.sleep(60)`
cache stats in background 2023-09-17 18:55:36 -06:00

			`def cache_stats():`
			`while True:`
			`# If opts.base_client_api is null that means no one has visited the site yet`
			`# and the base_client_api hasn't been set. Do nothing until then.`
			`if redis.get('base_client_api'):`
			`x = generate_stats()`
			`time.sleep(5)`