local-llm-server/llm_server/routes/v1/generate.py

from flask import jsonify, request

from llm_server.routes.stats import concurrent_semaphore, proompts
from . import bp
from ..helpers.client import format_sillytavern_err
from ..helpers.http import cache_control, validate_json
from ... import opts
from ...database import log_prompt
from ...helpers import safe_list_get


def generator(request_json_body):
    if opts.mode == 'oobabooga':
        from ...llm.oobabooga.generate import generate
        return generate(request_json_body)
    elif opts.mode == 'hf-textgen':
        from ...llm.hf_textgen.generate import generate
        return generate(request_json_body)
    else:
        raise Exception


@bp.route('/generate', methods=['POST'])
@cache_control(-1)
def generate():
    request_valid_json, request_json_body = validate_json(request.data)
    if not request_valid_json:
        return jsonify({'code': 400, 'error': 'Invalid JSON'}), 400

    with concurrent_semaphore:
        if request.headers.get('cf-connecting-ip'):
            client_ip = request.headers.get('cf-connecting-ip')
        elif request.headers.get('x-forwarded-for'):
            client_ip = request.headers.get('x-forwarded-for')
        else:
            client_ip = request.remote_addr
        token = request.headers.get('X-Api-Key')

        parameters = request_json_body.copy()
        del parameters['prompt']

        success, response, error_msg = generator(request_json_body)
        if not success:
            if opts.mode == 'oobabooga':
                backend_response = format_sillytavern_err(f'Failed to reach the backend: {error_msg}', 'error')
                response_json_body = {
                    'results': [
                        {
                            'text': backend_response,
                        }
                    ],
                }
            else:
                raise Exception
            log_prompt(opts.database_path, client_ip, token, request_json_body['prompt'], backend_response, parameters, dict(request.headers), response.status_code)
            return jsonify({
                'code': 500,
                'error': 'failed to reach backend',
                **response_json_body
            }), 200
        response_valid_json, response_json_body = validate_json(response)
        if response_valid_json:
            proompts.increment()
            backend_response = safe_list_get(response_json_body.get('results', []), 0, {}).get('text')
            if not backend_response:
                if opts.mode == 'oobabooga':
                    backend_response = format_sillytavern_err(f'Backend returned an empty string. This can happen when your parameters are incorrect. Make sure your context size is no greater than {opts.token_limit}.', 'error')
                    response_json_body['results'][0]['text'] = backend_response
                else:
                    raise Exception

            log_prompt(opts.database_path, client_ip, token, request_json_body['prompt'], backend_response, parameters, dict(request.headers), response.status_code)

            print(response_json_body)

            return jsonify({
                **response_json_body
            }), 200
        else:
            if opts.mode == 'oobabooga':
                backend_response = format_sillytavern_err(f'The backend did not return valid JSON.', 'error')
                response_json_body = {
                    'results': [
                        {
                            'text': backend_response,
                        }
                    ],
                }
            else:
                raise Exception
            log_prompt(opts.database_path, client_ip, token, request_json_body['prompt'], backend_response, parameters, dict(request.headers), response.status_code)
            return jsonify({
                'code': 500,
                'error': 'the backend did not return valid JSON',
                **response_json_body
            }), 200

# @openai_bp.route('/chat/completions', methods=['POST'])
# def generate_openai():
#     print(request.data)
#     return '', 200
MVP 2023-08-21 21:28:52 -06:00			`from flask import jsonify, request`

			`from llm_server.routes.stats import concurrent_semaphore, proompts`
display error messages in sillytavern 2023-08-22 20:28:41 -06:00			`from . import bp`
			`from ..helpers.client import format_sillytavern_err`
minor adjustments 2023-08-21 22:49:44 -06:00			`from ..helpers.http import cache_control, validate_json`
MVP 2023-08-21 21:28:52 -06:00			`from ... import opts`
			`from ...database import log_prompt`
display error messages in sillytavern 2023-08-22 20:28:41 -06:00			`from ...helpers import safe_list_get`
MVP 2023-08-21 21:28:52 -06:00

prototype hf-textgen and adjust logging 2023-08-22 19:58:31 -06:00			`def generator(request_json_body):`
			`if opts.mode == 'oobabooga':`
			`from ...llm.oobabooga.generate import generate`
			`return generate(request_json_body)`
			`elif opts.mode == 'hf-textgen':`
			`from ...llm.hf_textgen.generate import generate`
			`return generate(request_json_body)`
			`else:`
			`raise Exception`
MVP 2023-08-21 21:28:52 -06:00

			`@bp.route('/generate', methods=['POST'])`
minor adjustments 2023-08-21 22:49:44 -06:00			`@cache_control(-1)`
MVP 2023-08-21 21:28:52 -06:00			`def generate():`
			`request_valid_json, request_json_body = validate_json(request.data)`
			`if not request_valid_json:`
			`return jsonify({'code': 400, 'error': 'Invalid JSON'}), 400`

			`with concurrent_semaphore:`
display error messages in sillytavern 2023-08-22 20:28:41 -06:00			`if request.headers.get('cf-connecting-ip'):`
			`client_ip = request.headers.get('cf-connecting-ip')`
			`elif request.headers.get('x-forwarded-for'):`
			`client_ip = request.headers.get('x-forwarded-for')`
			`else:`
			`client_ip = request.remote_addr`
			`token = request.headers.get('X-Api-Key')`

			`parameters = request_json_body.copy()`
			`del parameters['prompt']`

MVP 2023-08-21 21:28:52 -06:00			`success, response, error_msg = generator(request_json_body)`
			`if not success:`
display error messages in sillytavern 2023-08-22 20:28:41 -06:00			`if opts.mode == 'oobabooga':`
			`backend_response = format_sillytavern_err(f'Failed to reach the backend: {error_msg}', 'error')`
			`response_json_body = {`
			`'results': [`
			`{`
			`'text': backend_response,`
			`}`
			`],`
			`}`
			`else:`
			`raise Exception`
			`log_prompt(opts.database_path, client_ip, token, request_json_body['prompt'], backend_response, parameters, dict(request.headers), response.status_code)`
MVP 2023-08-21 21:28:52 -06:00			`return jsonify({`
			`'code': 500,`
display error messages in sillytavern 2023-08-22 20:28:41 -06:00			`'error': 'failed to reach backend',`
			`**response_json_body`
			`}), 200`
MVP 2023-08-21 21:28:52 -06:00			`response_valid_json, response_json_body = validate_json(response)`
			`if response_valid_json:`
			`proompts.increment()`
display error messages in sillytavern 2023-08-22 20:28:41 -06:00			`backend_response = safe_list_get(response_json_body.get('results', []), 0, {}).get('text')`
			`if not backend_response:`
			`if opts.mode == 'oobabooga':`
			`backend_response = format_sillytavern_err(f'Backend returned an empty string. This can happen when your parameters are incorrect. Make sure your context size is no greater than {opts.token_limit}.', 'error')`
			`response_json_body['results'][0]['text'] = backend_response`
			`else:`
			`raise Exception`
MVP 2023-08-21 21:28:52 -06:00
display error messages in sillytavern 2023-08-22 20:28:41 -06:00			`log_prompt(opts.database_path, client_ip, token, request_json_body['prompt'], backend_response, parameters, dict(request.headers), response.status_code)`
MVP 2023-08-21 21:28:52 -06:00
display error messages in sillytavern 2023-08-22 20:28:41 -06:00			`print(response_json_body)`
MVP 2023-08-21 21:28:52 -06:00
			`return jsonify({`
			`**response_json_body`
			`}), 200`
			`else:`
display error messages in sillytavern 2023-08-22 20:28:41 -06:00			`if opts.mode == 'oobabooga':`
			`backend_response = format_sillytavern_err(f'The backend did not return valid JSON.', 'error')`
			`response_json_body = {`
			`'results': [`
			`{`
			`'text': backend_response,`
			`}`
			`],`
			`}`
			`else:`
			`raise Exception`
			`log_prompt(opts.database_path, client_ip, token, request_json_body['prompt'], backend_response, parameters, dict(request.headers), response.status_code)`
MVP 2023-08-21 21:28:52 -06:00			`return jsonify({`
			`'code': 500,`
display error messages in sillytavern 2023-08-22 20:28:41 -06:00			`'error': 'the backend did not return valid JSON',`
			`**response_json_body`
			`}), 200`
MVP 2023-08-21 21:28:52 -06:00
			`# @openai_bp.route('/chat/completions', methods=['POST'])`
			`# def generate_openai():`
			`# print(request.data)`
			`# return '', 200`