hf_text-generation-inference/server/text_generation_server/cache.py

import torch

from typing import Dict, Optional, TypeVar

from text_generation_server.models.types import Batch

B = TypeVar("B", bound=Batch)


class Cache:
    def __init__(self):
        self.cache: Dict[int, B] = {}

    def pop(self, batch_id: int) -> Optional[B]:
        return self.cache.pop(batch_id, None)

    def set(self, entry: B):
        if entry is not None:
            self.cache[entry.batch_id] = entry

    def delete(self, batch_id: int):
        batch = self.pop(batch_id)
        if batch is not None:
            del batch
        if torch.cuda.is_available():
            torch.cuda.empty_cache()

    def clear(self):
        keys = list(self.cache.keys())
        for k in keys:
            self.delete(k)

    def __len__(self):
        return len(self.cache.keys())
fix(server): decrease memory fragmentation (#557) 2023-07-06 06:28:33 -06:00			`import torch`

feat(server): Support AutoModelForSeq2SeqLM 2022-11-04 11:03:04 -06:00			`from typing import Dict, Optional, TypeVar`
Init 2022-10-08 04:30:12 -06:00
feat(clients): Python client (#103) 2023-03-07 10:52:22 -07:00			`from text_generation_server.models.types import Batch`
feat(server): Support all AutoModelForCausalLM on a best effort basis 2022-10-28 11:24:00 -06:00
feat(server): Support AutoModelForSeq2SeqLM 2022-11-04 11:03:04 -06:00			`B = TypeVar("B", bound=Batch)`

Init 2022-10-08 04:30:12 -06:00
			`class Cache:`
			`def __init__(self):`
feat(server): Support AutoModelForSeq2SeqLM 2022-11-04 11:03:04 -06:00			`self.cache: Dict[int, B] = {}`
Init 2022-10-08 04:30:12 -06:00
feat(server): Support AutoModelForSeq2SeqLM 2022-11-04 11:03:04 -06:00			`def pop(self, batch_id: int) -> Optional[B]:`
Init 2022-10-08 04:30:12 -06:00			`return self.cache.pop(batch_id, None)`

feat(server): Support AutoModelForSeq2SeqLM 2022-11-04 11:03:04 -06:00			`def set(self, entry: B):`
Init 2022-10-08 04:30:12 -06:00			`if entry is not None:`
			`self.cache[entry.batch_id] = entry`

Refactored gRPC interface Added validation logic 2022-10-11 08:50:54 -06:00			`def delete(self, batch_id: int):`
feat(server): clear cache on error (#143) 2023-03-28 03:29:35 -06:00			`batch = self.pop(batch_id)`
			`if batch is not None:`
			`del batch`
fix(server): decrease memory fragmentation (#557) 2023-07-06 06:28:33 -06:00			`if torch.cuda.is_available():`
			`torch.cuda.empty_cache()`
Init 2022-10-08 04:30:12 -06:00
			`def clear(self):`
feat(server): add paged attention to flash models (#516) Closes #478 2023-06-30 11:09:59 -06:00			`keys = list(self.cache.keys())`
			`for k in keys:`
			`self.delete(k)`
Init 2022-10-08 04:30:12 -06:00
			`def __len__(self):`
			`return len(self.cache.keys())`