hf_text-generation-inference/server/text_generation_server/models/flash_santacoder.py

import torch
import torch.distributed

from accelerate import init_empty_weights
from opentelemetry import trace
from safetensors import safe_open
from pathlib import Path
from transformers import AutoTokenizer, GPT2Config
from typing import Optional, List

from text_generation_server.models import FlashCausalLM
from text_generation_server.models.custom_modeling.flash_santacoder_modeling import (
    FlashSantacoderForCausalLM,
    TensorParallelRowLinear,
    TensorParallelColumnLinear,
    TensorParallelEmbedding,
)
from text_generation_server.utils import (
    initialize_torch_distributed,
    weight_files,
    download_weights,
    weight_hub_files,
    LocalEntryNotFoundError,
)

tracer = trace.get_tracer(__name__)


class FlashSantacoder(FlashCausalLM):
    def __init__(self, model_id: str, revision: Optional[str] = None, quantize=False):
        if torch.cuda.is_available():
            device = torch.device("cuda")
            dtype = torch.float16
        else:
            raise NotImplementedError("FlashSantacoder is only available on GPU")

        tokenizer = AutoTokenizer.from_pretrained(
            model_id, revision=revision, padding_side="left", truncation_side="left"
        )

        config = GPT2Config.from_pretrained(
            model_id,
            revision=revision,
        )

        # We do not use from_pretrained as we modified the model internal module layout
        try:
            filenames = weight_files(model_id, revision, ".bin")
        # Local files not found
        except LocalEntryNotFoundError:
            hub_files = weight_hub_files(model_id, revision, ".bin")
            filenames = download_weights(hub_files, model_id, revision)

        with init_empty_weights():
            model = FlashSantacoderForCausalLM(config)

        self.load_weights(
            model,
            filenames,
            quantize,
            device,
            dtype,
            config.architectures[0].startswith("GPT2"),
        )
        self.model = model.eval().to(device)

        super(FlashCausalLM, self).__init__(
            tokenizer=tokenizer,
            requires_padding=False,
            dtype=dtype,
            device=device,
            decode_buffer=1,
        )

    @staticmethod
    def load_weights(
        model: FlashSantacoderForCausalLM,
        filenames: List[Path],
        quantize: bool,
        device: torch.device,
        dtype: torch.dtype,
        transpose: bool,
    ):
        for filename in filenames:
            state_dict = torch.load(filename, map_location="cpu")
            for key, value in state_dict.items():
                value = value.to(device if not quantize else "cpu").to(dtype)

                layer_name = ".".join(key.split(".")[:4])

                # Fused qkv
                if "q_attn.weight" in key or "kv_attn.weight" in key:
                    final_key = layer_name + ".c_attn.weight"
                elif "q_attn.bias" in key or "kv_attn.bias" in key:
                    final_key = layer_name + ".c_attn.bias"

                else:
                    final_key = key

                module_name, param_name = final_key.rsplit(".", 1)
                module = model.get_submodule(module_name)

                try:
                    current_parameter_tensor = module._parameters[param_name]
                except KeyError:
                    current_parameter_tensor = None

                if current_parameter_tensor is not None:
                    if transpose and (
                        "c_fc.weight" in key
                        or "c_proj.weight" in key
                        or "q_attn.weight" in key
                        or "kv_attn.weight" in key
                        or "c_attn.weight" in key
                    ):
                        # Tranpose as we use nn.Linear instead of Conv1D
                        value = value.T

                    if current_parameter_tensor.device == torch.device("meta"):
                        # Init qkv
                        if "c_attn.weight" in final_key:
                            module._parameters[param_name] = value.new_empty(
                                (
                                    model.transformer.head_size
                                    * (model.transformer.num_heads + 2),
                                    value.shape[1],
                                )
                            )
                        elif "c_attn.bias" in final_key:
                            module._parameters[param_name] = value.new_empty(
                                (
                                    model.transformer.head_size
                                    * (model.transformer.num_heads + 2)
                                )
                            )

                    # Copy to correct slice
                    if "q_attn.weight" in key:
                        module._parameters[param_name][: value.shape[0]] = value
                    elif "q_attn.bias" in key:
                        module._parameters[param_name][: value.shape[0]] = value
                    elif "kv_attn.weight" in key:
                        module._parameters[param_name][
                            model.transformer.head_size * model.transformer.num_heads :
                        ] = value
                    elif "kv_attn.bias" in key:
                        module._parameters[param_name][
                            model.transformer.head_size * model.transformer.num_heads :
                        ] = value
                    else:
                        if current_parameter_tensor.shape != value.shape:
                            raise ValueError(
                                f"Name {final_key} -- Current {current_parameter_tensor.shape} and got {value.shape}"
                            )
                        module._parameters[param_name] = value
                else:
                    module._buffers[param_name] = value

                del value

        torch.cuda.empty_cache()
        model.post_load_weights(quantize)

    def decode(self, generated_ids: List[int]) -> str:
        # Do not skip special tokens as they are used for custom parsing rules of the generated text
        return self.tokenizer.decode(
            generated_ids, skip_special_tokens=False, clean_up_tokenization_spaces=False
        )


class FlashSantacoderSharded(FlashSantacoder):
    def __init__(
        self, model_id: str, revision: Optional[str] = None, quantize: bool = False
    ):
        self.process_group, rank, world_size = initialize_torch_distributed()
        if torch.cuda.is_available():
            device = torch.device(f"cuda:{rank}")
            dtype = torch.float16
        else:
            raise NotImplementedError("FlashSantacoderSharded is only available on GPU")

        tokenizer = AutoTokenizer.from_pretrained(
            model_id, revision=revision, padding_side="left", truncation_side="left"
        )

        config = GPT2Config.from_pretrained(
            model_id,
            revision=revision,
        )

        torch.distributed.barrier(group=self.process_group)
        filenames = weight_files(model_id, revision=revision, extension=".safetensors")

        with init_empty_weights():
            model = FlashSantacoderForCausalLM(config, self.process_group)

        torch.distributed.barrier(group=self.process_group)
        self.load_weights(
            model,
            filenames,
            quantize=quantize,
            device=device,
            dtype=dtype,
            rank=rank,
            world_size=world_size,
            transpose=config.architectures[0].startswith("GPT2"),
        )
        self.model = model.eval().to(device)
        torch.distributed.barrier(group=self.process_group)
        super(FlashCausalLM, self).__init__(
            tokenizer=tokenizer,
            requires_padding=False,
            dtype=dtype,
            device=device,
            rank=rank,
            world_size=world_size,
            decode_buffer=1,
        )

    @staticmethod
    def load_weights(
        model,
        filenames: List[str],
        quantize: bool,
        device: torch.device,
        dtype: torch.dtype,
        rank: int,
        world_size: int,
        transpose: bool,
    ):
        for file in filenames:
            with safe_open(
                file, framework="pt", device=str(device) if not quantize else "cpu"
            ) as f:
                for key in f.keys():
                    slice_ = f.get_slice(key)

                    layer_name = ".".join(key.split(".")[:4])

                    # Fused qkv
                    if "q_attn.weight" in key or "kv_attn.weight" in key:
                        final_key = layer_name + ".c_attn.weight"
                    elif "q_attn.bias" in key or "kv_attn.bias" in key:
                        final_key = layer_name + ".c_attn.bias"
                    else:
                        final_key = key

                    module_name, param_name = final_key.rsplit(".", 1)
                    module = model.get_submodule(module_name)

                    if isinstance(module, TensorParallelColumnLinear):
                        dim = 1 if transpose and "weight" in param_name else 0
                        size = slice_.get_shape()[dim]
                        block_size = size // world_size
                        start = rank * block_size
                        stop = (rank + 1) * block_size
                        tensor = (
                            slice_[start:stop] if dim == 0 else slice_[:, start:stop]
                        )
                    elif isinstance(module, TensorParallelRowLinear):
                        if param_name == "weight":
                            dim = 0 if transpose else 1
                            size = slice_.get_shape()[dim]
                            block_size = size // world_size
                            start = rank * block_size
                            stop = (rank + 1) * block_size
                            tensor = (
                                slice_[start:stop]
                                if dim == 0
                                else slice_[:, start:stop]
                            )
                        else:
                            tensor = slice_[:]
                            # XXX: Hack for Rowlinear to add the bias only once.
                            if rank != 0:
                                tensor = torch.zeros_like(tensor)
                    elif isinstance(module, TensorParallelEmbedding):
                        size = slice_.get_shape()[0]
                        block_size = size // world_size
                        start = rank * block_size
                        stop = (rank + 1) * block_size
                        tensor = slice_[start:stop]
                    elif key == "lm_head.weight" and model.transformer.tp_embeddings:
                        size = slice_.get_shape()[0]
                        block_size = size // world_size
                        start = rank * block_size
                        stop = (rank + 1) * block_size
                        tensor = slice_[start:stop]
                    else:
                        try:
                            tensor = slice_[:]
                        except:
                            tensor = f.get_tensor(key)

                    tensor = tensor.contiguous().to(dtype)

                    try:
                        current_parameter_tensor = module._parameters[param_name]
                    except KeyError:
                        current_parameter_tensor = None

                    if current_parameter_tensor is not None:
                        if transpose and (
                            "c_fc.weight" in key
                            or "c_proj.weight" in key
                            or "q_attn.weight" in key
                            or "kv_attn.weight" in key
                            or "c_attn.weight" in key
                        ):
                            # Tranpose as we use nn.Linear instead of Conv1D
                            tensor = tensor.T

                        if current_parameter_tensor.device == torch.device("meta"):
                            # Init qkv
                            if "c_attn.weight" in final_key:
                                module._parameters[param_name] = tensor.new_empty(
                                    (
                                        model.transformer.head_size
                                        * (model.transformer.num_heads + 2),
                                        tensor.shape[1],
                                    )
                                )
                            elif "c_attn.bias" in final_key:
                                module._parameters[param_name] = tensor.new_empty(
                                    (
                                        model.transformer.head_size
                                        * (model.transformer.num_heads + 2)
                                    )
                                )

                        # Copy to correct slice
                        if "q_attn" in key:
                            size = tensor.shape[0]
                            block_size = size // world_size
                            start = rank * block_size
                            stop = (rank + 1) * block_size
                            tensor = tensor[start:stop]
                            module._parameters[param_name][: tensor.shape[0]] = tensor
                        elif "kv_attn.weight" in key:
                            module._parameters[param_name][
                                model.transformer.head_size
                                * model.transformer.num_heads :
                            ] = tensor
                        elif "kv_attn.bias" in key:
                            module._parameters[param_name][
                                model.transformer.head_size
                                * model.transformer.num_heads :
                            ] = tensor
                        elif "c_attn" in key:
                            # Slice q_tensor by shard
                            q_tensor = tensor[: -2 * model.transformer.head_size]
                            block_size = q_tensor.shape[0] // world_size
                            start = rank * block_size
                            stop = (rank + 1) * block_size
                            q_tensor = q_tensor[start:stop]

                            module._parameters[param_name][
                                : q_tensor.shape[0]
                            ] = q_tensor

                            # Kv tensor is copied for every shard
                            kv_tensor = tensor[-2 * model.transformer.head_size :]
                            module._parameters[param_name][
                                q_tensor.shape[0] :
                            ] = kv_tensor
                        else:
                            if current_parameter_tensor.shape != tensor.shape:
                                raise ValueError(
                                    f"Name {key} -- Current {current_parameter_tensor.shape} and got {tensor.shape}"
                                )

                            module._parameters[param_name] = tensor
                    else:
                        module._buffers[param_name] = tensor

        model.lm_head.weight = torch.nn.Parameter(model.transformer.wte.weight)
        torch.cuda.empty_cache()
        model.post_load_weights(quantize)
feat(server): flash santacoder (#153) 2023-04-03 11:06:42 -06:00			`import torch`
			`import torch.distributed`

			`from accelerate import init_empty_weights`
			`from opentelemetry import trace`
feat(server): support sharded santacoder (#167) 2023-04-12 09:18:08 -06:00			`from safetensors import safe_open`
feat(server): flash santacoder (#153) 2023-04-03 11:06:42 -06:00			`from pathlib import Path`
feat(server): support sharded santacoder (#167) 2023-04-12 09:18:08 -06:00			`from transformers import AutoTokenizer, GPT2Config`
feat(server): flash santacoder (#153) 2023-04-03 11:06:42 -06:00			`from typing import Optional, List`

			`from text_generation_server.models import FlashCausalLM`
			`from text_generation_server.models.custom_modeling.flash_santacoder_modeling import (`
fix(server): fix escape characters in stop sequence (#155) 2023-04-05 11:37:41 -06:00			`FlashSantacoderForCausalLM,`
feat(server): support sharded santacoder (#167) 2023-04-12 09:18:08 -06:00			`TensorParallelRowLinear,`
			`TensorParallelColumnLinear,`
			`TensorParallelEmbedding,`
feat(server): flash santacoder (#153) 2023-04-03 11:06:42 -06:00			`)`
			`from text_generation_server.utils import (`
feat(server): support sharded santacoder (#167) 2023-04-12 09:18:08 -06:00			`initialize_torch_distributed,`
feat(server): flash santacoder (#153) 2023-04-03 11:06:42 -06:00			`weight_files,`
			`download_weights,`
			`weight_hub_files,`
			`LocalEntryNotFoundError,`
			`)`

			`tracer = trace.get_tracer(__name__)`


			`class FlashSantacoder(FlashCausalLM):`
			`def __init__(self, model_id: str, revision: Optional[str] = None, quantize=False):`
			`if torch.cuda.is_available():`
			`device = torch.device("cuda")`
feat(server): optim flash causal lm decode_token (#285) 2023-05-09 10:26:19 -06:00			`dtype = torch.float16`
feat(server): flash santacoder (#153) 2023-04-03 11:06:42 -06:00			`else:`
			`raise NotImplementedError("FlashSantacoder is only available on GPU")`

			`tokenizer = AutoTokenizer.from_pretrained(`
feat(router): make router input validation optional (#164) 2023-04-09 12:22:27 -06:00			`model_id, revision=revision, padding_side="left", truncation_side="left"`
feat(server): flash santacoder (#153) 2023-04-03 11:06:42 -06:00			`)`

feat(server): support sharded santacoder (#167) 2023-04-12 09:18:08 -06:00			`config = GPT2Config.from_pretrained(`
fix(server): fix escape characters in stop sequence (#155) 2023-04-05 11:37:41 -06:00			`model_id,`
			`revision=revision,`
feat(server): flash santacoder (#153) 2023-04-03 11:06:42 -06:00			`)`

			`# We do not use from_pretrained as we modified the model internal module layout`
			`try:`
			`filenames = weight_files(model_id, revision, ".bin")`
			`# Local files not found`
			`except LocalEntryNotFoundError:`
			`hub_files = weight_hub_files(model_id, revision, ".bin")`
			`filenames = download_weights(hub_files, model_id, revision)`

			`with init_empty_weights():`
			`model = FlashSantacoderForCausalLM(config)`

			`self.load_weights(`
feat(server): support quantization for flash models (#200) closes #197 2023-04-19 04:51:11 -06:00			`model,`
			`filenames,`
			`quantize,`
			`device,`
			`dtype,`
			`config.architectures[0].startswith("GPT2"),`
feat(server): flash santacoder (#153) 2023-04-03 11:06:42 -06:00			`)`
feat(server): support quantization for flash models (#200) closes #197 2023-04-19 04:51:11 -06:00			`self.model = model.eval().to(device)`
feat(server): flash santacoder (#153) 2023-04-03 11:06:42 -06:00
			`super(FlashCausalLM, self).__init__(`
feat(router): add device and dtype info (#215) 2023-04-21 07:36:29 -06:00			`tokenizer=tokenizer,`
			`requires_padding=False,`
			`dtype=dtype,`
			`device=device,`
			`decode_buffer=1,`
feat(server): flash santacoder (#153) 2023-04-03 11:06:42 -06:00			`)`

			`@staticmethod`
			`def load_weights(`
fix(server): fix escape characters in stop sequence (#155) 2023-04-05 11:37:41 -06:00			`model: FlashSantacoderForCausalLM,`
			`filenames: List[Path],`
feat(server): support quantization for flash models (#200) closes #197 2023-04-19 04:51:11 -06:00			`quantize: bool,`
feat(router): make router input validation optional (#164) 2023-04-09 12:22:27 -06:00			`device: torch.device,`
			`dtype: torch.dtype,`
feat(server): support sharded santacoder (#167) 2023-04-12 09:18:08 -06:00			`transpose: bool,`
feat(server): flash santacoder (#153) 2023-04-03 11:06:42 -06:00			`):`
			`for filename in filenames:`
			`state_dict = torch.load(filename, map_location="cpu")`
			`for key, value in state_dict.items():`
feat(server): support quantization for flash models (#200) closes #197 2023-04-19 04:51:11 -06:00			`value = value.to(device if not quantize else "cpu").to(dtype)`
feat(router): make router input validation optional (#164) 2023-04-09 12:22:27 -06:00
feat(server): flash santacoder (#153) 2023-04-03 11:06:42 -06:00			`layer_name = ".".join(key.split(".")[:4])`

			`# Fused qkv`
			`if "q_attn.weight" in key or "kv_attn.weight" in key:`
feat(server): support sharded santacoder (#167) 2023-04-12 09:18:08 -06:00			`final_key = layer_name + ".c_attn.weight"`
feat(server): flash santacoder (#153) 2023-04-03 11:06:42 -06:00			`elif "q_attn.bias" in key or "kv_attn.bias" in key:`
feat(server): support sharded santacoder (#167) 2023-04-12 09:18:08 -06:00			`final_key = layer_name + ".c_attn.bias"`
feat(server): flash santacoder (#153) 2023-04-03 11:06:42 -06:00
			`else:`
			`final_key = key`

			`module_name, param_name = final_key.rsplit(".", 1)`
			`module = model.get_submodule(module_name)`

			`try:`
			`current_parameter_tensor = module._parameters[param_name]`
			`except KeyError:`
			`current_parameter_tensor = None`

			`if current_parameter_tensor is not None:`
feat(server): support sharded santacoder (#167) 2023-04-12 09:18:08 -06:00			`if transpose and (`
fix(server): fix escape characters in stop sequence (#155) 2023-04-05 11:37:41 -06:00			`"c_fc.weight" in key`
			`or "c_proj.weight" in key`
			`or "q_attn.weight" in key`
			`or "kv_attn.weight" in key`
feat(server): support sharded santacoder (#167) 2023-04-12 09:18:08 -06:00			`or "c_attn.weight" in key`
fix(server): fix escape characters in stop sequence (#155) 2023-04-05 11:37:41 -06:00			`):`
feat(server): flash santacoder (#153) 2023-04-03 11:06:42 -06:00			`# Tranpose as we use nn.Linear instead of Conv1D`
			`value = value.T`

			`if current_parameter_tensor.device == torch.device("meta"):`
			`# Init qkv`
feat(server): support sharded santacoder (#167) 2023-04-12 09:18:08 -06:00			`if "c_attn.weight" in final_key:`
feat(server): flash santacoder (#153) 2023-04-03 11:06:42 -06:00			`module._parameters[param_name] = value.new_empty(`
fix(server): fix escape characters in stop sequence (#155) 2023-04-05 11:37:41 -06:00			`(`
			`model.transformer.head_size`
			`* (model.transformer.num_heads + 2),`
			`value.shape[1],`
			`)`
feat(server): flash santacoder (#153) 2023-04-03 11:06:42 -06:00			`)`
feat(server): support sharded santacoder (#167) 2023-04-12 09:18:08 -06:00			`elif "c_attn.bias" in final_key:`
feat(server): flash santacoder (#153) 2023-04-03 11:06:42 -06:00			`module._parameters[param_name] = value.new_empty(`
fix(server): fix escape characters in stop sequence (#155) 2023-04-05 11:37:41 -06:00			`(`
			`model.transformer.head_size`
			`* (model.transformer.num_heads + 2)`
			`)`
feat(server): flash santacoder (#153) 2023-04-03 11:06:42 -06:00			`)`

			`# Copy to correct slice`
			`if "q_attn.weight" in key:`
			`module._parameters[param_name][: value.shape[0]] = value`
			`elif "q_attn.bias" in key:`
			`module._parameters[param_name][: value.shape[0]] = value`
			`elif "kv_attn.weight" in key:`
			`module._parameters[param_name][`
fix(server): fix escape characters in stop sequence (#155) 2023-04-05 11:37:41 -06:00			`model.transformer.head_size * model.transformer.num_heads :`
feat(server): flash santacoder (#153) 2023-04-03 11:06:42 -06:00			`] = value`
			`elif "kv_attn.bias" in key:`
			`module._parameters[param_name][`
fix(server): fix escape characters in stop sequence (#155) 2023-04-05 11:37:41 -06:00			`model.transformer.head_size * model.transformer.num_heads :`
feat(server): flash santacoder (#153) 2023-04-03 11:06:42 -06:00			`] = value`
			`else:`
			`if current_parameter_tensor.shape != value.shape:`
			`raise ValueError(`
			`f"Name {final_key} -- Current {current_parameter_tensor.shape} and got {value.shape}"`
			`)`
			`module._parameters[param_name] = value`
			`else:`
			`module._buffers[param_name] = value`

feat(router): make router input validation optional (#164) 2023-04-09 12:22:27 -06:00			`del value`

feat(server): flash santacoder (#153) 2023-04-03 11:06:42 -06:00			`torch.cuda.empty_cache()`
feat(server): support quantization for flash models (#200) closes #197 2023-04-19 04:51:11 -06:00			`model.post_load_weights(quantize)`
feat(server): flash santacoder (#153) 2023-04-03 11:06:42 -06:00
			`def decode(self, generated_ids: List[int]) -> str:`
			`# Do not skip special tokens as they are used for custom parsing rules of the generated text`
			`return self.tokenizer.decode(`
fix(server): fix typo in tokenizers decode (#269) closes #268 2023-05-03 02:10:34 -06:00			`generated_ids, skip_special_tokens=False, clean_up_tokenization_spaces=False`
feat(server): flash santacoder (#153) 2023-04-03 11:06:42 -06:00			`)`
feat(server): support sharded santacoder (#167) 2023-04-12 09:18:08 -06:00

			`class FlashSantacoderSharded(FlashSantacoder):`
			`def __init__(`
			`self, model_id: str, revision: Optional[str] = None, quantize: bool = False`
			`):`
feat(server): shard token decode (#303) 2023-05-10 07:48:21 -06:00			`self.process_group, rank, world_size = initialize_torch_distributed()`
feat(server): support sharded santacoder (#167) 2023-04-12 09:18:08 -06:00			`if torch.cuda.is_available():`
feat(server): shard token decode (#303) 2023-05-10 07:48:21 -06:00			`device = torch.device(f"cuda:{rank}")`
feat(server): optim flash causal lm decode_token (#285) 2023-05-09 10:26:19 -06:00			`dtype = torch.float16`
feat(server): support sharded santacoder (#167) 2023-04-12 09:18:08 -06:00			`else:`
			`raise NotImplementedError("FlashSantacoderSharded is only available on GPU")`

			`tokenizer = AutoTokenizer.from_pretrained(`
			`model_id, revision=revision, padding_side="left", truncation_side="left"`
			`)`

			`config = GPT2Config.from_pretrained(`
			`model_id,`
			`revision=revision,`
			`)`

			`torch.distributed.barrier(group=self.process_group)`
			`filenames = weight_files(model_id, revision=revision, extension=".safetensors")`

			`with init_empty_weights():`
			`model = FlashSantacoderForCausalLM(config, self.process_group)`

			`torch.distributed.barrier(group=self.process_group)`
			`self.load_weights(`
			`model,`
			`filenames,`
feat(server): support quantization for flash models (#200) closes #197 2023-04-19 04:51:11 -06:00			`quantize=quantize,`
feat(server): support sharded santacoder (#167) 2023-04-12 09:18:08 -06:00			`device=device,`
			`dtype=dtype,`
feat(server): shard token decode (#303) 2023-05-10 07:48:21 -06:00			`rank=rank,`
			`world_size=world_size,`
feat(server): support sharded santacoder (#167) 2023-04-12 09:18:08 -06:00			`transpose=config.architectures[0].startswith("GPT2"),`
			`)`
feat(server): support quantization for flash models (#200) closes #197 2023-04-19 04:51:11 -06:00			`self.model = model.eval().to(device)`
feat(server): support sharded santacoder (#167) 2023-04-12 09:18:08 -06:00			`torch.distributed.barrier(group=self.process_group)`
			`super(FlashCausalLM, self).__init__(`
			`tokenizer=tokenizer,`
feat(router): add device and dtype info (#215) 2023-04-21 07:36:29 -06:00			`requires_padding=False,`
			`dtype=dtype,`
feat(server): support sharded santacoder (#167) 2023-04-12 09:18:08 -06:00			`device=device,`
feat(server): shard token decode (#303) 2023-05-10 07:48:21 -06:00			`rank=rank,`
			`world_size=world_size,`
chore(docker): use nvidia base image (#318) 2023-05-12 09:32:40 -06:00			`decode_buffer=1,`
feat(server): support sharded santacoder (#167) 2023-04-12 09:18:08 -06:00			`)`

			`@staticmethod`
			`def load_weights(`
			`model,`
			`filenames: List[str],`
feat(server): support quantization for flash models (#200) closes #197 2023-04-19 04:51:11 -06:00			`quantize: bool,`
feat(server): support sharded santacoder (#167) 2023-04-12 09:18:08 -06:00			`device: torch.device,`
			`dtype: torch.dtype,`
			`rank: int,`
			`world_size: int,`
			`transpose: bool,`
			`):`
			`for file in filenames:`
feat(server): support quantization for flash models (#200) closes #197 2023-04-19 04:51:11 -06:00			`with safe_open(`
			`file, framework="pt", device=str(device) if not quantize else "cpu"`
			`) as f:`
feat(server): support sharded santacoder (#167) 2023-04-12 09:18:08 -06:00			`for key in f.keys():`
			`slice_ = f.get_slice(key)`

			`layer_name = ".".join(key.split(".")[:4])`

			`# Fused qkv`
			`if "q_attn.weight" in key or "kv_attn.weight" in key:`
			`final_key = layer_name + ".c_attn.weight"`
			`elif "q_attn.bias" in key or "kv_attn.bias" in key:`
			`final_key = layer_name + ".c_attn.bias"`
			`else:`
			`final_key = key`

			`module_name, param_name = final_key.rsplit(".", 1)`
			`module = model.get_submodule(module_name)`

			`if isinstance(module, TensorParallelColumnLinear):`
			`dim = 1 if transpose and "weight" in param_name else 0`
			`size = slice_.get_shape()[dim]`
			`block_size = size // world_size`
			`start = rank * block_size`
			`stop = (rank + 1) * block_size`
			`tensor = (`
			`slice_[start:stop] if dim == 0 else slice_[:, start:stop]`
			`)`
			`elif isinstance(module, TensorParallelRowLinear):`
			`if param_name == "weight":`
			`dim = 0 if transpose else 1`
			`size = slice_.get_shape()[dim]`
			`block_size = size // world_size`
			`start = rank * block_size`
			`stop = (rank + 1) * block_size`
			`tensor = (`
			`slice_[start:stop]`
			`if dim == 0`
			`else slice_[:, start:stop]`
			`)`
			`else:`
			`tensor = slice_[:]`
			`# XXX: Hack for Rowlinear to add the bias only once.`
			`if rank != 0:`
			`tensor = torch.zeros_like(tensor)`
			`elif isinstance(module, TensorParallelEmbedding):`
			`size = slice_.get_shape()[0]`
			`block_size = size // world_size`
			`start = rank * block_size`
			`stop = (rank + 1) * block_size`
			`tensor = slice_[start:stop]`
			`elif key == "lm_head.weight" and model.transformer.tp_embeddings:`
			`size = slice_.get_shape()[0]`
			`block_size = size // world_size`
			`start = rank * block_size`
			`stop = (rank + 1) * block_size`
			`tensor = slice_[start:stop]`
			`else:`
			`try:`
			`tensor = slice_[:]`
			`except:`
			`tensor = f.get_tensor(key)`

			`tensor = tensor.contiguous().to(dtype)`

			`try:`
			`current_parameter_tensor = module._parameters[param_name]`
			`except KeyError:`
			`current_parameter_tensor = None`

			`if current_parameter_tensor is not None:`
			`if transpose and (`
			`"c_fc.weight" in key`
			`or "c_proj.weight" in key`
			`or "q_attn.weight" in key`
			`or "kv_attn.weight" in key`
			`or "c_attn.weight" in key`
			`):`
			`# Tranpose as we use nn.Linear instead of Conv1D`
			`tensor = tensor.T`

			`if current_parameter_tensor.device == torch.device("meta"):`
			`# Init qkv`
			`if "c_attn.weight" in final_key:`
			`module._parameters[param_name] = tensor.new_empty(`
			`(`
			`model.transformer.head_size`
			`* (model.transformer.num_heads + 2),`
			`tensor.shape[1],`
			`)`
			`)`
			`elif "c_attn.bias" in final_key:`
			`module._parameters[param_name] = tensor.new_empty(`
			`(`
			`model.transformer.head_size`
			`* (model.transformer.num_heads + 2)`
			`)`
			`)`

			`# Copy to correct slice`
			`if "q_attn" in key:`
			`size = tensor.shape[0]`
			`block_size = size // world_size`
			`start = rank * block_size`
			`stop = (rank + 1) * block_size`
			`tensor = tensor[start:stop]`
			`module._parameters[param_name][: tensor.shape[0]] = tensor`
			`elif "kv_attn.weight" in key:`
			`module._parameters[param_name][`
			`model.transformer.head_size`
			`* model.transformer.num_heads :`
			`] = tensor`
			`elif "kv_attn.bias" in key:`
			`module._parameters[param_name][`
			`model.transformer.head_size`
			`* model.transformer.num_heads :`
			`] = tensor`
			`elif "c_attn" in key:`
			`# Slice q_tensor by shard`
			`q_tensor = tensor[: -2 * model.transformer.head_size]`
			`block_size = q_tensor.shape[0] // world_size`
			`start = rank * block_size`
			`stop = (rank + 1) * block_size`
			`q_tensor = q_tensor[start:stop]`

			`module._parameters[param_name][`
			`: q_tensor.shape[0]`
			`] = q_tensor`

			`# Kv tensor is copied for every shard`
			`kv_tensor = tensor[-2 * model.transformer.head_size :]`
			`module._parameters[param_name][`
			`q_tensor.shape[0] :`
			`] = kv_tensor`
			`else:`
			`if current_parameter_tensor.shape != tensor.shape:`
			`raise ValueError(`
			`f"Name {key} -- Current {current_parameter_tensor.shape} and got {tensor.shape}"`
			`)`

			`module._parameters[param_name] = tensor`
			`else:`
			`module._buffers[param_name] = tensor`
feat(server): support hf endpoint weight layout (#266) 2023-05-03 03:36:24 -06:00
Hotfixes for santacoder/bigcode. (#294) # What does this PR do? Hotfixes: - Uses `model_type`=`gpt_bigcode` for more general usage. - Hotfixes linked lm_head vs wte_embedding (safetensors file do not contain the key, correctly when the file is sharded, where as pytorch copies the tensor) <!-- Congratulations! You've made it this far! You're not quite done yet though. Once merged, your PR is going to appear in the release notes with the title you set, so make sure it's a great title that fully reflects the extent of your awesome contribution. Then, please replace this with a description of the change and which issue is fixed (if applicable). Please also include relevant motivation and context. List any dependencies (if any) that are required for this change. Once you're done, someone will review your PR shortly (see the section "Who can review?" below to tag some potential reviewers). They may suggest changes to make the code even better. If no one reviewed your PR after a week has passed, don't hesitate to post a new comment @-mentioning the same persons---sometimes notifications get lost. --> <!-- Remove if not applicable --> Fixes # (issue) ## Before submitting - [ ] This PR fixes a typo or improves the docs (you can dismiss the other checks if that's the case). - [ ] Did you read the [contributor guideline](https://github.com/huggingface/transformers/blob/main/CONTRIBUTING.md#start-contributing-pull-requests), Pull Request section? - [ ] Was this discussed/approved via a Github issue or the [forum](https://discuss.huggingface.co/)? Please add a link to it if that's the case. - [ ] Did you make sure to update the documentation with your changes? Here are the [documentation guidelines](https://github.com/huggingface/transformers/tree/main/docs), and [here are tips on formatting docstrings](https://github.com/huggingface/transformers/tree/main/docs#writing-source-documentation). - [ ] Did you write any new necessary tests? ## Who can review? Anyone in the community is free to review the PR once the tests have passed. Feel free to tag members/contributors who may be interested in your PR. <!-- Your PR will be replied to more quickly if you can figure out the right person to tag with @ @OlivierDehaene OR @Narsil --> --------- Co-authored-by: Ubuntu <ubuntu@ip-172-31-41-161.ec2.internal> Co-authored-by: OlivierDehaene <olivier@huggingface.co> 2023-05-15 02:35:20 -06:00			`model.lm_head.weight = torch.nn.Parameter(model.transformer.wte.weight)`
feat(server): support sharded santacoder (#167) 2023-04-12 09:18:08 -06:00			`torch.cuda.empty_cache()`
feat(server): support quantization for flash models (#200) closes #197 2023-04-19 04:51:11 -06:00			`model.post_load_weights(quantize)`