hf_text-generation-inference/server/text_generation_server/adapters/weights.py

# Origin:   https://github.com/predibase/lorax
# Path:     lorax/server/lorax_server/adapters/weights.py
# License:  Apache License Version 2.0, January 2004

from abc import ABC, abstractclassmethod
from collections import defaultdict
from dataclasses import dataclass
from typing import Dict, List, Optional, Set, Type

import torch


@dataclass
class AdapterBatchMetadata:
    # [batch_size]
    adapter_indices: torch.Tensor

    # [num_adapters]
    adapter_set: Set[int]

    # [num_segments + 1]
    adapter_segments: torch.Tensor

    # [num_segments]
    # maps from segment index to adapter index, i.e.:
    # segment_indices[s] == adapter_indices[i]
    segment_indices: List[int]


class AdapterWeights(ABC):
    @abstractclassmethod
    def get_batch_types(cls) -> List[Type["BatchAdapterWeights"]]:
        pass

    @property
    def speculative_tokens(self) -> int:
        return 0


class BatchAdapterWeights(ABC):
    @abstractclassmethod
    def has_adapter(self, adapter_index: int) -> bool:
        pass

    @abstractclassmethod
    def key(cls) -> str:
        pass

    @abstractclassmethod
    def load(
        cls,
        adapter_weights: Dict[int, AdapterWeights],
        meta: "AdapterBatchMetadata",
        prefill: bool,
        prefill_head_indices: torch.Tensor,
    ) -> Optional["BatchAdapterWeights"]:
        pass


class LayerAdapterWeights:
    """Adapter weights that apply to a particular layer."""

    def __init__(self):
        self.adapter_weights: Dict[int, AdapterWeights] = {}

    def add_adapter(self, adapter_idx: int, weights: AdapterWeights):
        self.adapter_weights[adapter_idx] = weights

    def remove_adapter(self, adapter_idx: int):
        if adapter_idx not in self.adapter_weights:
            return
        del self.adapter_weights[adapter_idx]

    @property
    def max_speculative_tokens(self) -> int:
        return max(
            adapter_weights.speculative_tokens
            for adapter_weights in self.adapter_weights.values()
        )

    def is_empty(self) -> bool:
        return len(self.adapter_weights) == 0

    def get_data(
        self,
        meta: AdapterBatchMetadata,
        prefill: bool,
        prefill_head_indices: Optional[torch.Tensor],
    ) -> Dict[str, BatchAdapterWeights]:
        # bucket adapters by batch class
        adapter_batch_types: Dict[
            Type[BatchAdapterWeights], Dict[int, AdapterWeights]
        ] = defaultdict(dict)
        for adapter_index, adapter_weights in self.adapter_weights.items():
            for batch_type in adapter_weights.get_batch_types():
                adapter_batch_types[batch_type][adapter_index] = adapter_weights

        batch_data = {}
        for batch_type, adapter_weights in adapter_batch_types.items():
            batched_weights = batch_type.load(
                adapter_weights, meta, prefill, prefill_head_indices
            )
            if batched_weights is not None:
                batch_data[batch_type.key()] = batched_weights
        return batch_data


@dataclass
class AdapterBatchData:
    meta: AdapterBatchMetadata

    # layer type -> adapter type -> batch weight data
    data: Dict[str, Dict[str, BatchAdapterWeights]]

    prefill: bool

    @staticmethod
    def from_meta(
        meta: AdapterBatchMetadata,
        weights: Dict[str, LayerAdapterWeights],
        prefill: bool,
        prefill_head_indices: Optional[torch.Tensor],
    ) -> "AdapterBatchData":
        data = {}
        for k, v in weights.items():
            if v.is_empty():
                continue
            data[k] = v.get_data(
                meta, prefill, prefill_head_indices if k == "lm_head" else None
            )
        return AdapterBatchData(meta=meta, data=data, prefill=prefill)

    def ranks(self) -> Set[int]:
        # TODO(travis): refactor to be less coupled to lora implementation
        ranks = set()
        for layer_data in self.data.values():
            lora_data = layer_data.get("lora")
            if lora_data is None:
                continue

            for rank_data in lora_data.rank_data.values():
                ranks.add(rank_data.rank)

        return ranks

    def layer_names(self) -> Set[str]:
        return set(self.data.keys())

    def adapter_keys(self) -> Set[str]:
        adapter_keys = set()
        for layer_data in self.data.values():
            adapter_keys.update(layer_data.keys())
        return adapter_keys

    @property
    def max_rank(self) -> int:
        ranks = self.ranks()
        return max(ranks) if len(ranks) > 0 else 0
Enable multiple LoRa adapters (#2010) * feat: first draft load multiple lora * feat: load weights within layer and refactor lora pass * fix: refactor and reduce lora math * feat: baseline impl single request multi lora support * feat: prefer lorax implementation and port loading logic * fix: prefer adapter_data and refactors * feat: perfer loraxs custom punica kernels and add mlp loras * fix: adjust batch for bgmv * fix: adjust adapter_segments logic when in batch * fix: refactor and move changes to v3 proto * fix: pass model_id for all flash causal lms * fix: pass model_id for all causal and seq2seq lms * fix: add model_id to model test * feat: add lora support to mistral and refactors * feat: prefer model id in request * fix: include rust code for adapter id * feat: bump launcher and add new lora docs * feat: support base model generation and refactors * fix: rename doc to retry ci build * feat: support if vlm models * fix: add adapter_data param and avoid missing layers * fix: add adapter_data param to phi and neox * fix: update all models forwards to include adapter_data * fix: add model_id to IdeficsCausalLM * Update lora.md Fixed a typo * Update lora.md Fixing spam image * fix: add lora kernel to dockerfile, support running without kernels and refactors * fix: avoid dockerfile conflict * fix: refactors and adjust flash llama lora logic * fix: skip llama test due to CI issue (temp) * fix: skip llama test CI (temp) 2 * fix: revert skips and prefer updated ci token for tests * fix: refactors and helpful comments * fix: add noop in TensorParallelAdapterRowLinear too * fix: refactor and move shard_lora_weights logic * fix: exit early if no adapter_data --------- Co-authored-by: Derek <datavistics@gmail.com> 2024-06-25 12:46:27 -06:00			`# Origin: https://github.com/predibase/lorax`
			`# Path: lorax/server/lorax_server/adapters/weights.py`
			`# License: Apache License Version 2.0, January 2004`

			`from abc import ABC, abstractclassmethod`
			`from collections import defaultdict`
			`from dataclasses import dataclass`
			`from typing import Dict, List, Optional, Set, Type`

			`import torch`


			`@dataclass`
			`class AdapterBatchMetadata:`
			`# [batch_size]`
			`adapter_indices: torch.Tensor`

			`# [num_adapters]`
			`adapter_set: Set[int]`

			`# [num_segments + 1]`
			`adapter_segments: torch.Tensor`

			`# [num_segments]`
			`# maps from segment index to adapter index, i.e.:`
			`# segment_indices[s] == adapter_indices[i]`
			`segment_indices: List[int]`


			`class AdapterWeights(ABC):`
			`@abstractclassmethod`
			`def get_batch_types(cls) -> List[Type["BatchAdapterWeights"]]:`
			`pass`

			`@property`
			`def speculative_tokens(self) -> int:`
			`return 0`


			`class BatchAdapterWeights(ABC):`
			`@abstractclassmethod`
			`def has_adapter(self, adapter_index: int) -> bool:`
			`pass`

			`@abstractclassmethod`
			`def key(cls) -> str:`
			`pass`

			`@abstractclassmethod`
			`def load(`
			`cls,`
			`adapter_weights: Dict[int, AdapterWeights],`
			`meta: "AdapterBatchMetadata",`
			`prefill: bool,`
			`prefill_head_indices: torch.Tensor,`
			`) -> Optional["BatchAdapterWeights"]:`
			`pass`


			`class LayerAdapterWeights:`
			`"""Adapter weights that apply to a particular layer."""`

			`def __init__(self):`
			`self.adapter_weights: Dict[int, AdapterWeights] = {}`

			`def add_adapter(self, adapter_idx: int, weights: AdapterWeights):`
			`self.adapter_weights[adapter_idx] = weights`

			`def remove_adapter(self, adapter_idx: int):`
			`if adapter_idx not in self.adapter_weights:`
			`return`
			`del self.adapter_weights[adapter_idx]`

			`@property`
			`def max_speculative_tokens(self) -> int:`
			`return max(`
			`adapter_weights.speculative_tokens`
			`for adapter_weights in self.adapter_weights.values()`
			`)`

			`def is_empty(self) -> bool:`
			`return len(self.adapter_weights) == 0`

			`def get_data(`
			`self,`
			`meta: AdapterBatchMetadata,`
			`prefill: bool,`
			`prefill_head_indices: Optional[torch.Tensor],`
			`) -> Dict[str, BatchAdapterWeights]:`
			`# bucket adapters by batch class`
			`adapter_batch_types: Dict[`
			`Type[BatchAdapterWeights], Dict[int, AdapterWeights]`
			`] = defaultdict(dict)`
			`for adapter_index, adapter_weights in self.adapter_weights.items():`
			`for batch_type in adapter_weights.get_batch_types():`
			`adapter_batch_types[batch_type][adapter_index] = adapter_weights`

			`batch_data = {}`
			`for batch_type, adapter_weights in adapter_batch_types.items():`
			`batched_weights = batch_type.load(`
			`adapter_weights, meta, prefill, prefill_head_indices`
			`)`
			`if batched_weights is not None:`
			`batch_data[batch_type.key()] = batched_weights`
			`return batch_data`


			`@dataclass`
			`class AdapterBatchData:`
			`meta: AdapterBatchMetadata`

			`# layer type -> adapter type -> batch weight data`
			`data: Dict[str, Dict[str, BatchAdapterWeights]]`

			`prefill: bool`

			`@staticmethod`
			`def from_meta(`
			`meta: AdapterBatchMetadata,`
			`weights: Dict[str, LayerAdapterWeights],`
			`prefill: bool,`
			`prefill_head_indices: Optional[torch.Tensor],`
			`) -> "AdapterBatchData":`
			`data = {}`
			`for k, v in weights.items():`
			`if v.is_empty():`
			`continue`
			`data[k] = v.get_data(`
			`meta, prefill, prefill_head_indices if k == "lm_head" else None`
			`)`
			`return AdapterBatchData(meta=meta, data=data, prefill=prefill)`

			`def ranks(self) -> Set[int]:`
			`# TODO(travis): refactor to be less coupled to lora implementation`
			`ranks = set()`
			`for layer_data in self.data.values():`
			`lora_data = layer_data.get("lora")`
			`if lora_data is None:`
			`continue`

			`for rank_data in lora_data.rank_data.values():`
			`ranks.add(rank_data.rank)`

			`return ranks`

			`def layer_names(self) -> Set[str]:`
			`return set(self.data.keys())`

			`def adapter_keys(self) -> Set[str]:`
			`adapter_keys = set()`
			`for layer_data in self.data.values():`
			`adapter_keys.update(layer_data.keys())`
			`return adapter_keys`

			`@property`
			`def max_rank(self) -> int:`
			`ranks = self.ranks()`
			`return max(ranks) if len(ranks) > 0 else 0`