local-llm-server/llm_server/routes/v1/generate_stats.py

import time
from datetime import datetime

from llm_server import opts
from llm_server.cluster.backend import get_a_cluster_backend
from llm_server.cluster.cluster_config import cluster_config
from llm_server.cluster.model_choices import get_model_choices
from llm_server.custom_redis import redis
from llm_server.database.database import get_distinct_ips_24h, sum_column
from llm_server.helpers import deep_sort
from llm_server.routes.stats import get_total_proompts, server_start_time


def generate_stats(regen: bool = False):
    if not regen:
        c = redis.getp('proxy_stats')
        if c:
            return c

    default_backend_url = get_a_cluster_backend()
    default_backend_info = cluster_config.get_backend(default_backend_url)
    if not default_backend_info.get('mode'):
        return
    base_client_api = redis.get('base_client_api', dtype=str)
    proompters_5_min = len(redis.zrangebyscore('recent_prompters', time.time() - 5 * 60, '+inf'))

    output = {
        'default': {
            'model': default_backend_info['model'],
            'backend': default_backend_url,
        },
        'stats': {
            'proompters': {
                '5_min': proompters_5_min,
                '24_hrs': get_distinct_ips_24h(),
            },
            'proompts_total': get_total_proompts() if opts.show_num_prompts else None,
            'uptime': int((datetime.now() - server_start_time).total_seconds()) if opts.show_uptime else None,
            # 'estimated_avg_tps': estimated_avg_tps,
            'tokens_generated': sum_column('prompts', 'response_tokens') if opts.show_total_output_tokens else None,
            'num_backends': len(cluster_config.all()) if opts.show_backends else None,
        },
        'endpoints': {
            'blocking': f'https://{base_client_api}',
            'streaming': f'wss://{base_client_api}/v1/stream' if opts.enable_streaming else None,
        },
        'timestamp': int(time.time()),
        'config': {
            'gatekeeper': 'none' if opts.auth_required is False else 'token',
            'simultaneous_requests_per_ip': opts.simultaneous_requests_per_ip,
            'api_mode': opts.frontend_api_mode
        },
        'keys': {
            'openaiKeys': '∞',
            'anthropicKeys': '∞',
        },
        'backend_info': redis.get_dict('backend_info') if opts.show_backend_info else None,
    }

    # TODO: have get_model_choices() return all the info so we don't have to loop over the backends ourself

    if opts.show_backends:
        for backend_url, v in cluster_config.all().items():
            backend_info = cluster_config.get_backend(backend_url)
            if not backend_info['online']:
                continue
            backend_uptime = int((datetime.now() - datetime.fromtimestamp(backend_info['startup_time'])).total_seconds()) if opts.show_uptime else None
            output['backend_info'][backend_info['hash']] = {
                'uptime': backend_uptime,
                'max_tokens': backend_info['model_config']['max_position_embeddings'],
                'model': backend_info['model'],
                'mode': backend_info['mode'],
                'nvidia': backend_info['nvidia'],
                'priority': backend_info['priority'],
            }
    else:
        output['backend_info'] = {}

    output['default_model'] = get_model_choices(regen=True)[1]

    result = deep_sort(output)

    # It may take a bit to get the base client API, so don't cache until then.
    if base_client_api:
        redis.setp('proxy_stats', result)

    return result
add home template 2023-08-23 23:11:12 -06:00			`import time`
update readme 2023-08-24 12:19:59 -06:00			`from datetime import datetime`
add home template 2023-08-23 23:11:12 -06:00
			`from llm_server import opts`
functional 2023-09-30 19:41:50 -06:00			`from llm_server.cluster.backend import get_a_cluster_backend`
mvp 2023-09-29 00:09:44 -06:00			`from llm_server.cluster.cluster_config import cluster_config`
functional 2023-09-30 19:41:50 -06:00			`from llm_server.cluster.model_choices import get_model_choices`
mvp 2023-09-29 00:09:44 -06:00			`from llm_server.custom_redis import redis`
port to mysql, use vllm tokenizer endpoint 2023-09-20 20:30:31 -06:00			`from llm_server.database.database import get_distinct_ips_24h, sum_column`
functional 2023-09-30 19:41:50 -06:00			`from llm_server.helpers import deep_sort`
			`from llm_server.routes.stats import get_total_proompts, server_start_time`
calculate estimateed wate time better 2023-09-17 18:33:57 -06:00

fix homepage slowness, fix incorrect 24 hr prompters, fix redis wrapper, 2023-09-25 17:20:21 -06:00			`def generate_stats(regen: bool = False):`
			`if not regen:`
functional 2023-09-30 19:41:50 -06:00			`c = redis.getp('proxy_stats')`
fix homepage slowness, fix incorrect 24 hr prompters, fix redis wrapper, 2023-09-25 17:20:21 -06:00			`if c:`
			`return c`

mvp 2023-09-29 00:09:44 -06:00			`default_backend_url = get_a_cluster_backend()`
			`default_backend_info = cluster_config.get_backend(default_backend_url)`
			`if not default_backend_info.get('mode'):`
			`return`
			`base_client_api = redis.get('base_client_api', dtype=str)`
			`proompters_5_min = len(redis.zrangebyscore('recent_prompters', time.time() - 5 * 60, '+inf'))`
fix recent proompters to work with gunicorn 2023-09-17 19:06:53 -06:00
sort keys of stats dict 2023-08-24 18:59:52 -06:00			`output = {`
mvp 2023-09-29 00:09:44 -06:00			`'default': {`
functional 2023-09-30 19:41:50 -06:00			`'model': default_backend_info['model'],`
			`'backend': default_backend_url,`
mvp 2023-09-29 00:09:44 -06:00			`},`
add home template 2023-08-23 23:11:12 -06:00			`'stats': {`
reorganize stats, add 24 hr proompters, adjust logging when error 2023-08-25 12:20:16 -06:00			`'proompters': {`
change proompters 1 min to 5 min 2023-09-20 21:21:22 -06:00			`'5_min': proompters_5_min,`
reorganize stats, add 24 hr proompters, adjust logging when error 2023-08-25 12:20:16 -06:00			`'24_hrs': get_distinct_ips_24h(),`
			`},`
reorganize stats page again 2023-08-27 22:24:44 -06:00			`'proompts_total': get_total_proompts() if opts.show_num_prompts else None,`
add home template 2023-08-23 23:11:12 -06:00			`'uptime': int((datetime.now() - server_start_time).total_seconds()) if opts.show_uptime else None,`
set inference workers to daemon, add finally to inference worker, hide estimated avg tps 2023-09-27 18:36:51 -06:00			`# 'estimated_avg_tps': estimated_avg_tps,`
show total output tokens on stats 2023-08-24 20:43:11 -06:00			`'tokens_generated': sum_column('prompts', 'response_tokens') if opts.show_total_output_tokens else None,`
mvp 2023-09-29 00:09:44 -06:00			`'num_backends': len(cluster_config.all()) if opts.show_backends else None,`
add home template 2023-08-23 23:11:12 -06:00			`},`
			`'endpoints': {`
cache stats in background 2023-09-17 18:55:36 -06:00			`'blocking': f'https://{base_client_api}',`
			`'streaming': f'wss://{base_client_api}/v1/stream' if opts.enable_streaming else None,`
add home template 2023-08-23 23:11:12 -06:00			`},`
			`'timestamp': int(time.time()),`
			`'config': {`
			`'gatekeeper': 'none' if opts.auth_required is False else 'token',`
implement vllm backend 2023-09-11 20:47:19 -06:00			`'simultaneous_requests_per_ip': opts.simultaneous_requests_per_ip,`
do default model rather than default backend, adjust moderation endpoint logic and add timeout, exclude system tokens from recent proompters, calculate number of moderators from endpoint concurrent gens, adjust homepage 2023-10-03 13:40:08 -06:00			`'api_mode': opts.frontend_api_mode`
sort keys of stats dict 2023-08-24 18:59:52 -06:00			`},`
			`'keys': {`
			`'openaiKeys': '∞',`
			`'anthropicKeys': '∞',`
			`},`
add HF text-generation-inference backend 2023-08-29 13:46:41 -06:00			`'backend_info': redis.get_dict('backend_info') if opts.show_backend_info else None,`
add home template 2023-08-23 23:11:12 -06:00			`}`
mvp 2023-09-29 00:09:44 -06:00
functional 2023-09-30 19:41:50 -06:00			`# TODO: have get_model_choices() return all the info so we don't have to loop over the backends ourself`

mvp 2023-09-29 00:09:44 -06:00			`if opts.show_backends:`
			`for backend_url, v in cluster_config.all().items():`
			`backend_info = cluster_config.get_backend(backend_url)`
			`if not backend_info['online']:`
			`continue`
functional 2023-09-30 19:41:50 -06:00			`backend_uptime = int((datetime.now() - datetime.fromtimestamp(backend_info['startup_time'])).total_seconds()) if opts.show_uptime else None`
mvp 2023-09-29 00:09:44 -06:00			`output['backend_info'][backend_info['hash']] = {`
			`'uptime': backend_uptime,`
functional 2023-09-30 19:41:50 -06:00			`'max_tokens': backend_info['model_config']['max_position_embeddings'],`
			`'model': backend_info['model'],`
mvp 2023-09-29 00:09:44 -06:00			`'mode': backend_info['mode'],`
functional 2023-09-30 19:41:50 -06:00			`'nvidia': backend_info['nvidia'],`
update openai endpoints 2023-10-01 14:15:01 -06:00			`'priority': backend_info['priority'],`
mvp 2023-09-29 00:09:44 -06:00			`}`
			`else:`
			`output['backend_info'] = {}`

do default model rather than default backend, adjust moderation endpoint logic and add timeout, exclude system tokens from recent proompters, calculate number of moderators from endpoint concurrent gens, adjust homepage 2023-10-03 13:40:08 -06:00			`output['default_model'] = get_model_choices(regen=True)[1]`
functional 2023-09-30 19:41:50 -06:00
fix homepage slowness, fix incorrect 24 hr prompters, fix redis wrapper, 2023-09-25 17:20:21 -06:00			`result = deep_sort(output)`

			`# It may take a bit to get the base client API, so don't cache until then.`
			`if base_client_api:`
functional 2023-09-30 19:41:50 -06:00			`redis.setp('proxy_stats', result)`

fix homepage slowness, fix incorrect 24 hr prompters, fix redis wrapper, 2023-09-25 17:20:21 -06:00			`return result`