Lifting check_unitialized. (#325)

# What does this PR do? Lifting check_unitialized.   Fixes # (issue) ## Before submitting - [ ] This PR fixes a typo or improves the docs (you can dismiss the other checks if that's the case). - [ ] Did you read the [contributor guideline](https://github.com/huggingface/transformers/blob/main/CONTRIBUTING.md#start-contributing-pull-requests), Pull Request section? - [ ] Was this discussed/approved via a Github issue or the [forum](https://discuss.huggingface.co/)? Please add a link to it if that's the case. - [ ] Did you make sure to update the documentation with your changes? Here are the [documentation guidelines](https://github.com/huggingface/transformers/tree/main/docs), and [here are tips on formatting docstrings](https://github.com/huggingface/transformers/tree/main/docs#writing-source-documentation). - [ ] Did you write any new necessary tests? ## Who can review? Anyone in the community is free to review the PR once the tests have passed. Feel free to tag members/contributors who may be interested in your PR.
2023-05-15 11:32:25 +02:00 · 2023-05-15 11:32:25 +02:00 · 91e674bb85
parent 73d84c6ee5
commit 91e674bb85
9 changed files with 11 additions and 83 deletions
--- a/server/text_generation_server/models/bloom.py
+++ b/server/text_generation_server/models/bloom.py
@ -238,15 +238,6 @@ class BLOOMSharded(BLOOM):
                    if name == "word_embeddings.weight":
                        model.lm_head._parameters["weight"] = tensor
        uninitialized_parameters = []
        for n, p in model.named_parameters():
            if p.data.device == torch.device("meta"):
                uninitialized_parameters.append(n)
        if uninitialized_parameters:
            raise RuntimeError(
                f"found uninitialized parameters in model: {uninitialized_parameters}"
            )
    def forward(
        self, input_ids, attention_mask, position_ids, past_key_values: Optional = None
    ):
--- a/server/text_generation_server/models/flash_llama.py
+++ b/server/text_generation_server/models/flash_llama.py
@ -139,15 +139,6 @@ class FlashLlama(FlashCausalLM):
                del value
        uninitialized_parameters = []
        for n, p in model.named_parameters():
            if p.data.device == torch.device("meta"):
                uninitialized_parameters.append(n)
        if uninitialized_parameters:
            raise RuntimeError(
                f"found uninitialized parameters in model: {uninitialized_parameters}"
            )
        torch.cuda.empty_cache()
        model.post_load_weights(quantize)
@ -315,14 +306,5 @@ class FlashLlamaSharded(FlashLlama):
                    else:
                        module._buffers[param_name] = tensor
        uninitialized_parameters = []
        for n, p in model.named_parameters():
            if p.data.device == torch.device("meta"):
                uninitialized_parameters.append(n)
        if uninitialized_parameters:
            raise RuntimeError(
                f"found uninitialized parameters in model: {uninitialized_parameters}"
            )
        torch.cuda.empty_cache()
        model.post_load_weights(quantize)
--- a/server/text_generation_server/models/flash_neox.py
+++ b/server/text_generation_server/models/flash_neox.py
@ -152,13 +152,4 @@ class FlashNeoXSharded(FlashNeoX):
                    else:
                        module._buffers[param_name] = tensor
        uninitialized_parameters = []
        for n, p in model.named_parameters():
            if p.data.device == torch.device("meta"):
                uninitialized_parameters.append(n)
        if uninitialized_parameters:
            raise RuntimeError(
                f"found uninitialized parameters in model: {uninitialized_parameters}"
            )
        model.post_load_weights(quantize)
--- a/server/text_generation_server/models/flash_santacoder.py
+++ b/server/text_generation_server/models/flash_santacoder.py
@ -376,17 +376,6 @@ class FlashSantacoderSharded(FlashSantacoder):
                    else:
                        module._buffers[param_name] = tensor
        model.lm_head.weight = torch.nn.Parameter(model.transformer.wte.weight)
        uninitialized_parameters = []
        for n, p in model.named_parameters():
            if p.data.device == torch.device("meta"):
                uninitialized_parameters.append(n)
        if uninitialized_parameters:
            raise RuntimeError(
                f"found uninitialized parameters in model: {uninitialized_parameters}"
            )
        torch.cuda.empty_cache()
        model.post_load_weights(quantize)
--- a/server/text_generation_server/models/galactica.py
+++ b/server/text_generation_server/models/galactica.py
@ -365,15 +365,6 @@ class GalacticaSharded(Galactica):
                    if name == "model.decoder.embed_tokens.weight":
                        model.lm_head._parameters["weight"] = tensor
        uninitialized_parameters = []
        for n, p in model.named_parameters():
            if p.data.device == torch.device("meta"):
                uninitialized_parameters.append(n)
        if uninitialized_parameters:
            raise RuntimeError(
                f"found uninitialized parameters in model: {uninitialized_parameters}"
            )
    def forward(
        self, input_ids, attention_mask, position_ids, past_key_values: Optional = None
    ):
--- a/server/text_generation_server/models/gpt_neox.py
+++ b/server/text_generation_server/models/gpt_neox.py
@ -215,15 +215,6 @@ class GPTNeoxSharded(CausalLM):
                    else:
                        module._buffers[param_name] = tensor
        uninitialized_parameters = []
        for n, p in model.named_parameters():
            if p.data.device == torch.device("meta"):
                uninitialized_parameters.append(n)
        if uninitialized_parameters:
            raise RuntimeError(
                f"found uninitialized parameters in model: {uninitialized_parameters}"
            )
    def forward(
        self, input_ids, attention_mask, position_ids, past_key_values: Optional = None
    ):
--- a/server/text_generation_server/models/model.py
+++ b/server/text_generation_server/models/model.py
@ -32,6 +32,7 @@ class Model(ABC):
        self.decode_buffer = decode_buffer
        self.rank = rank
        self.world_size = world_size
        self.check_initialized()
    @property
    def info(self) -> InfoResponse:
@ -99,3 +100,13 @@ class Model(ABC):
            return token_text, None, None
        else:
            return "", offset, token_offset
    def check_initialized(self):
        uninitialized_parameters = []
        for n, p in self.model.named_parameters():
            if p.data.device == torch.device("meta"):
                uninitialized_parameters.append(n)
        if uninitialized_parameters:
            raise RuntimeError(
                f"found uninitialized parameters in model {self.__class__.__name__}: {uninitialized_parameters}"
            )
--- a/server/text_generation_server/models/opt.py
+++ b/server/text_generation_server/models/opt.py
@ -212,15 +212,6 @@ class OPTSharded(OPT):
                    if name == "model.decoder.embed_tokens.weight":
                        model.lm_head._parameters["weight"] = tensor
        uninitialized_parameters = []
        for n, p in model.named_parameters():
            if p.data.device == torch.device("meta"):
                uninitialized_parameters.append(n)
        if uninitialized_parameters:
            raise RuntimeError(
                f"found uninitialized parameters in model: {uninitialized_parameters}"
            )
    def forward(
        self, input_ids, attention_mask, position_ids, past_key_values: Optional = None
    ):
--- a/server/text_generation_server/models/t5.py
+++ b/server/text_generation_server/models/t5.py
@ -222,15 +222,6 @@ class T5Sharded(Seq2SeqLM):
                    else:
                        module._buffers[param_name] = tensor
        uninitialized_parameters = []
        for n, p in model.named_parameters():
            if p.data.device == torch.device("meta"):
                uninitialized_parameters.append(n)
        if uninitialized_parameters:
            raise RuntimeError(
                f"found uninitialized parameters in model: {uninitialized_parameters}"
            )
    def forward(
        self,
        input_ids,