hf_text-generation-inference/server/text_generation_server/models/model.py

import torch

from abc import ABC, abstractmethod
from typing import List, Tuple, Optional, TypeVar, Type
from transformers import PreTrainedTokenizerBase

from text_generation_server.models.types import Batch, GeneratedText
from text_generation_server.pb.generate_pb2 import InfoResponse

B = TypeVar("B", bound=Batch)


class Model(ABC):
    def __init__(
        self,
        tokenizer: PreTrainedTokenizerBase,
        requires_padding: bool,
        dtype: torch.dtype,
        device: torch.device,
        decode_buffer: int = 3,
    ):
        if decode_buffer < 1:
            raise ValueError("decode_buffer must be >= 1")

        self.tokenizer = tokenizer
        self.all_special_ids = set(tokenizer.all_special_ids)
        self.requires_padding = requires_padding
        self.dtype = dtype
        self.device = device
        self.decode_buffer = decode_buffer

    @property
    def info(self) -> InfoResponse:
        return InfoResponse(
            requires_padding=self.requires_padding,
            dtype=str(self.dtype),
            device_type=self.device.type,
        )

    @property
    @abstractmethod
    def batch_type(self) -> Type[B]:
        raise NotImplementedError

    @abstractmethod
    def generate_token(self, batch: B) -> Tuple[List[GeneratedText], Optional[B]]:
        raise NotImplementedError

    def decode_token(
        self,
        all_input_ids: List[int],
        offset: Optional[int] = None,
        token_offset: Optional[int] = None,
    ) -> Tuple[str, Optional[int], Optional[int]]:
        """Hack to hopefully support generate_stream for the maximum number of tokenizers"""
        if all_input_ids[-1] in self.all_special_ids:
            return (
                self.tokenizer.decode(all_input_ids[-1], skip_special_tokens=False),
                None,
                None,
            )

        if token_offset is None:
            token_offset = len(all_input_ids) - self.decode_buffer
            # left token buffer
            if self.decode_buffer > 1:
                # Decode token_offset token minus last one and token_offset tokens
                raw_texts = self.tokenizer.batch_decode(
                    [all_input_ids[token_offset:-1], all_input_ids[token_offset:]],
                    skip_special_tokens=False,
                )

                # default offset is only the last token
                offset = len(raw_texts[0])
                sequence_text = raw_texts[1]
            else:
                # Only decode the last token without using a token buffer
                sequence_text = self.tokenizer.decode(
                    all_input_ids[-1], skip_special_tokens=False
                )
                # no offset in this case
                offset = 0
        else:
            assert offset is not None
            sequence_text = self.tokenizer.decode(
                all_input_ids[token_offset:],
                skip_special_tokens=False,
            )

        # get text
        token_text = sequence_text[offset:]

        # if text is utf-8
        if token_text and token_text[-1] != "<EFBFBD>":
            return token_text, None, None
        else:
            return "", offset, token_offset
-												feat(server): Support generic AutoModelForCausalLM

											
										
										
											2022-11-04 07:22:47 -06:00
+								import torch
-												fix(models): Revert buggy support for AutoModel

											
										
										
											2022-11-03 09:07:54 -06:00
+								from abc import ABC, abstractmethod
-												feat(server): Support AutoModelForSeq2SeqLM

											
										
										
											2022-11-04 11:03:04 -06:00
+								from typing import List, Tuple, Optional, TypeVar, Type
-												fix(server): Minor refactorization using new_zeros (#24)

- Fix some type hints, in particular base tokenizer class
- Make use of `tensor.new_zero/empty` methods
- Simplify env var string parsing in launcher
											
										
										
											2023-01-17 01:10:22 -07:00
+								from transformers import PreTrainedTokenizerBase
-												feat(server): Support all AutoModelForCausalLM on a best effort basis

											
										
										
											2022-10-28 11:24:00 -06:00
-												feat(clients): Python client (#103)


											
										
										
											2023-03-07 10:52:22 -07:00
+								from text_generation_server.models.types import Batch, GeneratedText
-												feat(router): add device and dtype info (#215)


											
										
										
											2023-04-21 07:36:29 -06:00
+								from text_generation_server.pb.generate_pb2 import InfoResponse
-												feat(server): Support all AutoModelForCausalLM on a best effort basis

											
										
										
											2022-10-28 11:24:00 -06:00
-												feat(server): Support AutoModelForSeq2SeqLM

											
										
										
											2022-11-04 11:03:04 -06:00
+								B = TypeVar("B", bound=Batch)
-												feat(server): Support all AutoModelForCausalLM on a best effort basis

											
										
										
											2022-10-28 11:24:00 -06:00
-												fix(models): Revert buggy support for AutoModel

											
										
										
											2022-11-03 09:07:54 -06:00
+								class Model(ABC):
-												feat(server): optimize decode for sane tokenizers (#170)


											
										
										
											2023-04-12 04:03:10 -06:00
+								    def __init__(
 								        self,
 								        tokenizer: PreTrainedTokenizerBase,
-												feat(router): add device and dtype info (#215)


											
										
										
											2023-04-21 07:36:29 -06:00
+								        requires_padding: bool,
 								        dtype: torch.dtype,
-												feat(server): optimize decode for sane tokenizers (#170)


											
										
										
											2023-04-12 04:03:10 -06:00
+								        device: torch.device,
 								        decode_buffer: int = 3,
 								    ):
 								        if decode_buffer < 1:
 								            raise ValueError("decode_buffer must be >= 1")
-												feat(server): Support generic AutoModelForCausalLM

											
										
										
											2022-11-04 07:22:47 -06:00
+								        self.tokenizer = tokenizer
-												feat(server): add special token bool (#85)


											
										
										
											2023-02-24 07:55:57 -07:00
+								        self.all_special_ids = set(tokenizer.all_special_ids)
-												feat(router): add device and dtype info (#215)


											
										
										
											2023-04-21 07:36:29 -06:00
+								        self.requires_padding = requires_padding
 								        self.dtype = dtype
-												feat(server): Support generic AutoModelForCausalLM

											
										
										
											2022-11-04 07:22:47 -06:00
+								        self.device = device
-												feat(server): optimize decode for sane tokenizers (#170)


											
										
										
											2023-04-12 04:03:10 -06:00
+								        self.decode_buffer = decode_buffer
-												feat(server): Support generic AutoModelForCausalLM

											
										
										
											2022-11-04 07:22:47 -06:00
-												feat(router): add device and dtype info (#215)


											
										
										
											2023-04-21 07:36:29 -06:00
+								    @property
 								    def info(self) -> InfoResponse:
 								        return InfoResponse(
 								            requires_padding=self.requires_padding,
 								            dtype=str(self.dtype),
 								            device_type=self.device.type,
 								        )
-												feat(server): Support AutoModelForSeq2SeqLM

											
										
										
											2022-11-04 11:03:04 -06:00
+								    @property
-												fix(models): Revert buggy support for AutoModel

											
										
										
											2022-11-03 09:07:54 -06:00
+								    @abstractmethod
-												feat(server): Support AutoModelForSeq2SeqLM

											
										
										
											2022-11-04 11:03:04 -06:00
+								    def batch_type(self) -> Type[B]:
-												fix(models): Revert buggy support for AutoModel

											
										
										
											2022-11-03 09:07:54 -06:00
+								        raise NotImplementedError
-												feat(server): Support all AutoModelForCausalLM on a best effort basis

											
										
										
											2022-10-28 11:24:00 -06:00
-												feat(server): Support AutoModelForSeq2SeqLM

											
										
										
											2022-11-04 11:03:04 -06:00
+								    @abstractmethod
 								    def generate_token(self, batch: B) -> Tuple[List[GeneratedText], Optional[B]]:
 								        raise NotImplementedError
-												fix(server): fix generate_stream by forcing tokens to be decoded correctly (#100)


											
										
										
											2023-03-06 05:22:58 -07:00
-												feat(server): add flash attention llama (#144)


											
										
										
											2023-04-11 08:38:22 -06:00
+								    def decode_token(
 								        self,
 								        all_input_ids: List[int],
 								        offset: Optional[int] = None,
 								        token_offset: Optional[int] = None,
 								    ) -> Tuple[str, Optional[int], Optional[int]]:
-												fix(server): fix generate_stream by forcing tokens to be decoded correctly (#100)


											
										
										
											2023-03-06 05:22:58 -07:00
+								        """Hack to hopefully support generate_stream for the maximum number of tokenizers"""
-												feat(server): add flash attention llama (#144)


											
										
										
											2023-04-11 08:38:22 -06:00
+								        if all_input_ids[-1] in self.all_special_ids:
 								            return (
 								                self.tokenizer.decode(all_input_ids[-1], skip_special_tokens=False),
 								                None,
 								                None,
 								            )
 								        if token_offset is None:
-												feat(server): optimize decode for sane tokenizers (#170)


											
										
										
											2023-04-12 04:03:10 -06:00
+								            token_offset = len(all_input_ids) - self.decode_buffer
 								            # left token buffer
 								            if self.decode_buffer > 1:
 								                # Decode token_offset token minus last one and token_offset tokens
 								                raw_texts = self.tokenizer.batch_decode(
 								                    [all_input_ids[token_offset:-1], all_input_ids[token_offset:]],
 								                    skip_special_tokens=False,
 								                )
-												feat(server): add flash attention llama (#144)


											
										
										
											2023-04-11 08:38:22 -06:00
-												feat(server): optimize decode for sane tokenizers (#170)


											
										
										
											2023-04-12 04:03:10 -06:00
+								                # default offset is only the last token
 								                offset = len(raw_texts[0])
 								                sequence_text = raw_texts[1]
 								            else:
 								                # Only decode the last token without using a token buffer
 								                sequence_text = self.tokenizer.decode(
 								                    all_input_ids[-1], skip_special_tokens=False
 								                )
 								                # no offset in this case
 								                offset = 0
 								        else:
 								            assert offset is not None
 								            sequence_text = self.tokenizer.decode(
 								                all_input_ids[token_offset:],
 								                skip_special_tokens=False,
 								            )
-												feat(server): add flash attention llama (#144)


											
										
										
											2023-04-11 08:38:22 -06:00
 								        # get text
-												feat(server): optimize decode for sane tokenizers (#170)


											
										
										
											2023-04-12 04:03:10 -06:00
+								        token_text = sequence_text[offset:]
-												feat(server): add flash attention llama (#144)


											
										
										
											2023-04-11 08:38:22 -06:00
 								        # if text is utf-8
-												feat(server): optimize decode for sane tokenizers (#170)


											
										
										
											2023-04-12 04:03:10 -06:00
+								        if token_text and token_text[-1] != "<EFBFBD>":
 								            return token_text, None, None
-												feat(server): add flash attention llama (#144)


											
										
										
											2023-04-11 08:38:22 -06:00
+								        else:
 								            return "", offset, token_offset