fix: include create_exllama_buffers and set_device for exllama (#2407)

2024-08-12 17:59:37 -04:00 · 2024-08-12 17:59:37 -04:00 · 8a7749b8fb
parent 9a7830bd28
commit 8a7749b8fb
1 changed files with 4 additions and 0 deletions
--- a/server/text_generation_server/layers/gptq/init.py
+++ b/server/text_generation_server/layers/gptq/init.py
@ -422,12 +422,16 @@ elif CAN_EXLLAMA:
        if V2:
            from text_generation_server.layers.gptq.exllamav2 import (
                QuantLinear as ExllamaQuantLinear,  # noqa: F401
                create_exllama_buffers,  # noqa: F401
                set_device,  # noqa: F401
            )
            HAS_EXLLAMA = "2"
        else:
            from text_generation_server.layers.gptq.exllama import (
                Ex4bitLinear as ExllamaQuantLinear,  # noqa: F401
                create_exllama_buffers,  # noqa: F401
                set_device,  # noqa: F401
            )
            HAS_EXLLAMA = "1"