local-llm-server/llm_server/routes/openai/models.py

import traceback

import requests
from flask import jsonify

from llm_server.custom_redis import ONE_MONTH_SECONDS, flask_cache, redis
from . import openai_bp
from ..stats import server_start_time
from ...cluster.cluster_config import get_a_cluster_backend, cluster_config
from ...config.global_config import GlobalConfig
from ...helpers import jsonify_pretty
from ...llm.openai.transform import generate_oai_string


@openai_bp.route('/models', methods=['GET'])
@flask_cache.cached(timeout=60, query_string=True)
def openai_list_models():
    model_name = cluster_config.get_backend(get_a_cluster_backend()).get('model')
    if not model_name:
        response = jsonify({
            'code': 502,
            'msg': 'failed to reach backend',
        }), 500  # return 500 so Cloudflare doesn't intercept us
    else:
        running_model = redis.get('running_model', 'ERROR', dtype=str)
        oai = fetch_openai_models()
        r = {
            "object": "list",
            "data": oai
        }
        # TODO: verify this works
        if GlobalConfig.get().openai_expose_our_model:
            r["data"].insert(0, {
                "id": running_model,
                "object": "model",
                "created": int(server_start_time.timestamp()),
                "owned_by": GlobalConfig.get().llm_middleware_name,
                "permission": [
                    {
                        "id": running_model,
                        "object": "model_permission",
                        "created": int(server_start_time.timestamp()),
                        "allow_create_engine": False,
                        "allow_sampling": False,
                        "allow_logprobs": False,
                        "allow_search_indices": False,
                        "allow_view": True,
                        "allow_fine_tuning": False,
                        "organization": "*",
                        "group": None,
                        "is_blocking": False
                    }
                ],
                "root": None,
                "parent": None
            })
        response = jsonify_pretty(r), 200
    return response


@flask_cache.memoize(timeout=ONE_MONTH_SECONDS)
def fetch_openai_models():
    if GlobalConfig.get().openai_api_key:
        try:
            response = requests.get('https://api.openai.com/v1/models', headers={'Authorization': f"Bearer {GlobalConfig.get().openai_api_key}"}, timeout=10)
            j = response.json()['data']

            # The "modelperm" string appears to be user-specific, so we'll
            # randomize it just to be safe.
            for model in range(len(j)):
                for p in range(len(j[model]['permission'])):
                    j[model]['permission'][p]['id'] = f'modelperm-{generate_oai_string(24)}'
            return j
        except:
            traceback.print_exc()
            return []
    else:
        return []
improve openai endpoint, exclude system tokens more places 2023-09-25 09:32:23 -06:00			`import traceback`

			`import requests`
			`from flask import jsonify`
add openai-compatible backend 2023-09-12 16:40:09 -06:00
Merge cluster to master (#3) Co-authored-by: Cyberes <cyberes@evulid.cc> Reviewed-on: https://git.evulid.cc/cyberes/local-llm-server/pulls/3 2023-10-27 19:19:22 -06:00			`from llm_server.custom_redis import ONE_MONTH_SECONDS, flask_cache, redis`
add openai-compatible backend 2023-09-12 16:40:09 -06:00			`from . import openai_bp`
			`from ..stats import server_start_time`
clean some stuff up, bump VLLM version 2024-01-10 15:01:26 -07:00			`from ...cluster.cluster_config import get_a_cluster_backend, cluster_config`
redo config 2024-05-07 12:20:53 -06:00			`from ...config.global_config import GlobalConfig`
improve openai endpoint, exclude system tokens more places 2023-09-25 09:32:23 -06:00			`from ...helpers import jsonify_pretty`
Merge cluster to master (#3) Co-authored-by: Cyberes <cyberes@evulid.cc> Reviewed-on: https://git.evulid.cc/cyberes/local-llm-server/pulls/3 2023-10-27 19:19:22 -06:00			`from ...llm.openai.transform import generate_oai_string`
add openai-compatible backend 2023-09-12 16:40:09 -06:00

			`@openai_bp.route('/models', methods=['GET'])`
more work on openai endpoint 2023-09-26 22:09:11 -06:00			`@flask_cache.cached(timeout=60, query_string=True)`
add openai-compatible backend 2023-09-12 16:40:09 -06:00			`def openai_list_models():`
Merge cluster to master (#3) Co-authored-by: Cyberes <cyberes@evulid.cc> Reviewed-on: https://git.evulid.cc/cyberes/local-llm-server/pulls/3 2023-10-27 19:19:22 -06:00			`model_name = cluster_config.get_backend(get_a_cluster_backend()).get('model')`
			`if not model_name:`
add openai-compatible backend 2023-09-12 16:40:09 -06:00			`response = jsonify({`
			`'code': 502,`
			`'msg': 'failed to reach backend',`
			`}), 500 # return 500 so Cloudflare doesn't intercept us`
			`else:`
Merge cluster to master (#3) Co-authored-by: Cyberes <cyberes@evulid.cc> Reviewed-on: https://git.evulid.cc/cyberes/local-llm-server/pulls/3 2023-10-27 19:19:22 -06:00			`running_model = redis.get('running_model', 'ERROR', dtype=str)`
further align openai endpoint with expected responses 2023-09-24 21:45:30 -06:00			`oai = fetch_openai_models()`
Merge cluster to master (#3) Co-authored-by: Cyberes <cyberes@evulid.cc> Reviewed-on: https://git.evulid.cc/cyberes/local-llm-server/pulls/3 2023-10-27 19:19:22 -06:00			`r = {`
			`"object": "list",`
			`"data": oai`
			`}`
			`# TODO: verify this works`
redo config 2024-05-07 12:20:53 -06:00			`if GlobalConfig.get().openai_expose_our_model:`
Merge cluster to master (#3) Co-authored-by: Cyberes <cyberes@evulid.cc> Reviewed-on: https://git.evulid.cc/cyberes/local-llm-server/pulls/3 2023-10-27 19:19:22 -06:00			`r["data"].insert(0, {`
			`"id": running_model,`
			`"object": "model",`
			`"created": int(server_start_time.timestamp()),`
redo config 2024-05-07 12:20:53 -06:00			`"owned_by": GlobalConfig.get().llm_middleware_name,`
Merge cluster to master (#3) Co-authored-by: Cyberes <cyberes@evulid.cc> Reviewed-on: https://git.evulid.cc/cyberes/local-llm-server/pulls/3 2023-10-27 19:19:22 -06:00			`"permission": [`
improve openai endpoint, exclude system tokens more places 2023-09-25 09:32:23 -06:00			`{`
convert to gunicorn 2023-09-26 13:32:33 -06:00			`"id": running_model,`
Merge cluster to master (#3) Co-authored-by: Cyberes <cyberes@evulid.cc> Reviewed-on: https://git.evulid.cc/cyberes/local-llm-server/pulls/3 2023-10-27 19:19:22 -06:00			`"object": "model_permission",`
improve openai endpoint, exclude system tokens more places 2023-09-25 09:32:23 -06:00			`"created": int(server_start_time.timestamp()),`
Merge cluster to master (#3) Co-authored-by: Cyberes <cyberes@evulid.cc> Reviewed-on: https://git.evulid.cc/cyberes/local-llm-server/pulls/3 2023-10-27 19:19:22 -06:00			`"allow_create_engine": False,`
			`"allow_sampling": False,`
			`"allow_logprobs": False,`
			`"allow_search_indices": False,`
			`"allow_view": True,`
			`"allow_fine_tuning": False,`
			`"organization": "*",`
			`"group": None,`
			`"is_blocking": False`
improve openai endpoint, exclude system tokens more places 2023-09-25 09:32:23 -06:00			`}`
Merge cluster to master (#3) Co-authored-by: Cyberes <cyberes@evulid.cc> Reviewed-on: https://git.evulid.cc/cyberes/local-llm-server/pulls/3 2023-10-27 19:19:22 -06:00			`],`
			`"root": None,`
			`"parent": None`
			`})`
			`response = jsonify_pretty(r), 200`
add openai-compatible backend 2023-09-12 16:40:09 -06:00			`return response`
further align openai endpoint with expected responses 2023-09-24 21:45:30 -06:00

more work on openai endpoint 2023-09-26 22:09:11 -06:00			`@flask_cache.memoize(timeout=ONE_MONTH_SECONDS)`
further align openai endpoint with expected responses 2023-09-24 21:45:30 -06:00			`def fetch_openai_models():`
redo config 2024-05-07 12:20:53 -06:00			`if GlobalConfig.get().openai_api_key:`
improve openai endpoint, exclude system tokens more places 2023-09-25 09:32:23 -06:00			`try:`
redo config 2024-05-07 12:20:53 -06:00			`response = requests.get('https://api.openai.com/v1/models', headers={'Authorization': f"Bearer {GlobalConfig.get().openai_api_key}"}, timeout=10)`
Merge cluster to master (#3) Co-authored-by: Cyberes <cyberes@evulid.cc> Reviewed-on: https://git.evulid.cc/cyberes/local-llm-server/pulls/3 2023-10-27 19:19:22 -06:00			`j = response.json()['data']`

			`# The "modelperm" string appears to be user-specific, so we'll`
			`# randomize it just to be safe.`
			`for model in range(len(j)):`
			`for p in range(len(j[model]['permission'])):`
			`j[model]['permission'][p]['id'] = f'modelperm-{generate_oai_string(24)}'`
			`return j`
improve openai endpoint, exclude system tokens more places 2023-09-25 09:32:23 -06:00			`except:`
			`traceback.print_exc()`
			`return []`
			`else:`
			`return []`