hf_text-generation-inference/server/text_generation_server/cache.py

from typing import Dict, Optional, TypeVar

from text_generation_server.models.types import Batch

B = TypeVar("B", bound=Batch)


class Cache:
    def __init__(self):
        self.cache: Dict[int, B] = {}

    def pop(self, batch_id: int) -> Optional[B]:
        return self.cache.pop(batch_id, None)

    def set(self, entry: B):
        if entry is not None:
            self.cache[entry.batch_id] = entry

    def delete(self, batch_id: int):
        batch = self.pop(batch_id)
        if batch is not None:
            del batch

    def clear(self):
        keys = list(self.cache.keys())
        for k in keys:
            self.delete(k)

    def __len__(self):
        return len(self.cache.keys())
feat(server): Support AutoModelForSeq2SeqLM 2022-11-04 11:03:04 -06:00			`from typing import Dict, Optional, TypeVar`
Init 2022-10-08 04:30:12 -06:00
feat(clients): Python client (#103) 2023-03-07 10:52:22 -07:00			`from text_generation_server.models.types import Batch`
feat(server): Support all AutoModelForCausalLM on a best effort basis 2022-10-28 11:24:00 -06:00
feat(server): Support AutoModelForSeq2SeqLM 2022-11-04 11:03:04 -06:00			`B = TypeVar("B", bound=Batch)`

Init 2022-10-08 04:30:12 -06:00
			`class Cache:`
			`def __init__(self):`
feat(server): Support AutoModelForSeq2SeqLM 2022-11-04 11:03:04 -06:00			`self.cache: Dict[int, B] = {}`
Init 2022-10-08 04:30:12 -06:00
feat(server): Support AutoModelForSeq2SeqLM 2022-11-04 11:03:04 -06:00			`def pop(self, batch_id: int) -> Optional[B]:`
Init 2022-10-08 04:30:12 -06:00			`return self.cache.pop(batch_id, None)`

feat(server): Support AutoModelForSeq2SeqLM 2022-11-04 11:03:04 -06:00			`def set(self, entry: B):`
Init 2022-10-08 04:30:12 -06:00			`if entry is not None:`
			`self.cache[entry.batch_id] = entry`

Refactored gRPC interface Added validation logic 2022-10-11 08:50:54 -06:00			`def delete(self, batch_id: int):`
feat(server): clear cache on error (#143) 2023-03-28 03:29:35 -06:00			`batch = self.pop(batch_id)`
			`if batch is not None:`
			`del batch`
Init 2022-10-08 04:30:12 -06:00
			`def clear(self):`
feat(server): add paged attention to flash models (#516) Closes #478 2023-06-30 11:09:59 -06:00			`keys = list(self.cache.keys())`
			`for k in keys:`
			`self.delete(k)`
Init 2022-10-08 04:30:12 -06:00
			`def __len__(self):`
			`return len(self.cache.keys())`