hf_text-generation-inference/server/text_generation/cli.py

import os
import sys
import typer

from pathlib import Path
from loguru import logger
from typing import Optional

from text_generation import server, utils

app = typer.Typer()


@app.command()
def serve(
    model_id: str,
    revision: Optional[str] = None,
    sharded: bool = False,
    quantize: bool = False,
    uds_path: Path = "/tmp/text-generation",
    logger_level: str = "INFO",
    json_output: bool = False,
):
    # Remove default handler
    logger.remove()
    logger.add(
        sys.stdout,
        format="{message}",
        filter="text_generation",
        level=logger_level,
        serialize=json_output,
        backtrace=True,
        diagnose=False,
    )
    if sharded:
        assert (
            os.getenv("RANK", None) is not None
        ), "RANK must be set when sharded is True"
        assert (
            os.getenv("WORLD_SIZE", None) is not None
        ), "WORLD_SIZE must be set when sharded is True"
        assert (
            os.getenv("MASTER_ADDR", None) is not None
        ), "MASTER_ADDR must be set when sharded is True"
        assert (
            os.getenv("MASTER_PORT", None) is not None
        ), "MASTER_PORT must be set when sharded is True"

    server.serve(model_id, revision, sharded, quantize, uds_path)


@app.command()
def download_weights(
    model_id: str,
    revision: Optional[str] = None,
    extension: str = ".safetensors",
):
    utils.download_weights(model_id, revision, extension)


if __name__ == "__main__":
    app()
v0.1.0 2022-10-18 07:19:03 -06:00			`import os`
feat(launcher): Log server stdout (#19) Co-authored-by: Nick Hill <nickhill@us.ibm.com> 2023-01-05 04:01:23 -07:00			`import sys`
feat: Improve error handling 2022-10-17 06:59:00 -06:00			`import typer`

			`from pathlib import Path`
feat(launcher): Log server stdout (#19) Co-authored-by: Nick Hill <nickhill@us.ibm.com> 2023-01-05 04:01:23 -07:00			`from loguru import logger`
feat(server): Support GPT-Neox (#39) 2023-01-31 10:53:56 -07:00			`from typing import Optional`
feat: Improve error handling 2022-10-17 06:59:00 -06:00
feat(server): Support all AutoModelForCausalLM on a best effort basis 2022-10-28 11:24:00 -06:00			`from text_generation import server, utils`
feat: Improve error handling 2022-10-17 06:59:00 -06:00
			`app = typer.Typer()`


			`@app.command()`
v0.1.0 2022-10-18 07:19:03 -06:00			`def serve(`
feat(router): refactor API and add openAPI schemas (#53) 2023-02-03 04:43:37 -07:00			`model_id: str,`
feat(server): Support GPT-Neox (#39) 2023-01-31 10:53:56 -07:00			`revision: Optional[str] = None,`
v0.1.0 2022-10-18 07:19:03 -06:00			`sharded: bool = False,`
feat(server): Support bitsandbytes 2022-10-27 06:25:29 -06:00			`quantize: bool = False,`
feat(server): Support all AutoModelForCausalLM on a best effort basis 2022-10-28 11:24:00 -06:00			`uds_path: Path = "/tmp/text-generation",`
feat(launcher): Log server stdout (#19) Co-authored-by: Nick Hill <nickhill@us.ibm.com> 2023-01-05 04:01:23 -07:00			`logger_level: str = "INFO",`
			`json_output: bool = False,`
feat: Improve error handling 2022-10-17 06:59:00 -06:00			`):`
feat(launcher): Log server stdout (#19) Co-authored-by: Nick Hill <nickhill@us.ibm.com> 2023-01-05 04:01:23 -07:00			`# Remove default handler`
			`logger.remove()`
			`logger.add(`
			`sys.stdout,`
			`format="{message}",`
			`filter="text_generation",`
			`level=logger_level,`
			`serialize=json_output,`
			`backtrace=True,`
			`diagnose=False,`
			`)`
v0.1.0 2022-10-18 07:19:03 -06:00			`if sharded:`
			`assert (`
			`os.getenv("RANK", None) is not None`
			`), "RANK must be set when sharded is True"`
			`assert (`
			`os.getenv("WORLD_SIZE", None) is not None`
			`), "WORLD_SIZE must be set when sharded is True"`
			`assert (`
			`os.getenv("MASTER_ADDR", None) is not None`
			`), "MASTER_ADDR must be set when sharded is True"`
			`assert (`
			`os.getenv("MASTER_PORT", None) is not None`
			`), "MASTER_PORT must be set when sharded is True"`

feat(router): refactor API and add openAPI schemas (#53) 2023-02-03 04:43:37 -07:00			`server.serve(model_id, revision, sharded, quantize, uds_path)`
feat: Improve error handling 2022-10-17 06:59:00 -06:00

			`@app.command()`
feat(server): Use safetensors Co-authored-by: OlivierDehaene <23298448+OlivierDehaene@users.noreply.github.com> 2022-10-22 12:00:15 -06:00			`def download_weights(`
feat(router): refactor API and add openAPI schemas (#53) 2023-02-03 04:43:37 -07:00			`model_id: str,`
feat(server): Support GPT-Neox (#39) 2023-01-31 10:53:56 -07:00			`revision: Optional[str] = None,`
feat(server): Support all AutoModelForCausalLM on a best effort basis 2022-10-28 11:24:00 -06:00			`extension: str = ".safetensors",`
feat: Improve error handling 2022-10-17 06:59:00 -06:00			`):`
feat(router): refactor API and add openAPI schemas (#53) 2023-02-03 04:43:37 -07:00			`utils.download_weights(model_id, revision, extension)`
feat: Improve error handling 2022-10-17 06:59:00 -06:00

			`if __name__ == "__main__":`
			`app()`