hf_text-generation-inference/server/tests/models/test_santacoder.py

import pytest

from text_generation_server.pb import generate_pb2
from text_generation_server.models.causal_lm import CausalLMBatch
from text_generation_server.models.santacoder import SantaCoder


@pytest.fixture(scope="session")
def default_santacoder():
    return SantaCoder("bigcode/santacoder")


@pytest.fixture
def default_pb_request(default_pb_parameters, default_pb_stop_parameters):
    return generate_pb2.Request(
        id=0,
        inputs="def",
        prefill_logprobs=True,
        truncate=100,
        parameters=default_pb_parameters,
        stopping_parameters=default_pb_stop_parameters,
    )


@pytest.fixture
def default_pb_batch(default_pb_request):
    return generate_pb2.Batch(id=0, requests=[default_pb_request], size=1)


@pytest.fixture
def default_fim_pb_request(default_pb_parameters, default_pb_stop_parameters):
    return generate_pb2.Request(
        id=0,
        inputs="<fim-prefix>def<fim-suffix>world<fim-middle>",
        prefill_logprobs=True,
        truncate=100,
        parameters=default_pb_parameters,
        stopping_parameters=default_pb_stop_parameters,
    )


@pytest.fixture
def default_fim_pb_batch(default_fim_pb_request):
    return generate_pb2.Batch(id=0, requests=[default_fim_pb_request], size=1)


@pytest.mark.skip
def test_santacoder_generate_token_completion(default_santacoder, default_pb_batch):
    batch = CausalLMBatch.from_pb(
        default_pb_batch,
        default_santacoder.tokenizer,
        default_santacoder.dtype,
        default_santacoder.device,
    )
    next_batch = batch

    for _ in range(batch.stopping_criterias[0].max_new_tokens - 1):
        generations, next_batch, _ = default_santacoder.generate_token(next_batch)
        assert len(generations) == len(next_batch)

    generations, next_batch, _ = default_santacoder.generate_token(next_batch)
    assert next_batch is None

    assert len(generations) == 1
    assert generations[0].generated_text.text == " test_get_all_users_with_"
    assert generations[0].request_id == batch.requests[0].id
    assert (
        generations[0].generated_text.generated_tokens
        == batch.stopping_criterias[0].max_new_tokens
    )


@pytest.mark.skip
def test_fim_santacoder_generate_token_completion(
    default_santacoder, default_fim_pb_batch
):
    batch = CausalLMBatch.from_pb(
        default_fim_pb_batch,
        default_santacoder.tokenizer,
        default_santacoder.dtype,
        default_santacoder.device,
    )
    next_batch = batch

    for _ in range(batch.stopping_criterias[0].max_new_tokens - 1):
        generations, next_batch, _ = default_santacoder.generate_token(next_batch)
        assert len(generations) == len(next_batch)

    generations, next_batch, _ = default_santacoder.generate_token(next_batch)
    assert next_batch is None

    assert len(generations) == 1
    assert (
        generations[0].generated_text.text
        == """ineProperty(exports, "__esModule", { value"""
    )
    assert generations[0].request_id == batch.requests[0].id
    assert (
        generations[0].generated_text.generated_tokens
        == batch.stopping_criterias[0].max_new_tokens
    )
feat(server): Support SantaCoder (#26) 2023-01-20 04:24:39 -07:00			`import pytest`

feat(clients): Python client (#103) 2023-03-07 10:52:22 -07:00			`from text_generation_server.pb import generate_pb2`
			`from text_generation_server.models.causal_lm import CausalLMBatch`
			`from text_generation_server.models.santacoder import SantaCoder`
feat(server): Support SantaCoder (#26) 2023-01-20 04:24:39 -07:00

			`@pytest.fixture(scope="session")`
			`def default_santacoder():`
			`return SantaCoder("bigcode/santacoder")`


			`@pytest.fixture`
			`def default_pb_request(default_pb_parameters, default_pb_stop_parameters):`
			`return generate_pb2.Request(`
			`id=0,`
			`inputs="def",`
feat(server): only compute prefill logprobs when asked (#406) Close #288 2023-06-02 09:12:30 -06:00			`prefill_logprobs=True,`
feat(router): make router input validation optional (#164) 2023-04-09 12:22:27 -06:00			`truncate=100,`
feat(server): Support SantaCoder (#26) 2023-01-20 04:24:39 -07:00			`parameters=default_pb_parameters,`
			`stopping_parameters=default_pb_stop_parameters,`
			`)`


			`@pytest.fixture`
			`def default_pb_batch(default_pb_request):`
			`return generate_pb2.Batch(id=0, requests=[default_pb_request], size=1)`


			`@pytest.fixture`
			`def default_fim_pb_request(default_pb_parameters, default_pb_stop_parameters):`
			`return generate_pb2.Request(`
			`id=0,`
			`inputs="<fim-prefix>def<fim-suffix>world<fim-middle>",`
feat(server): only compute prefill logprobs when asked (#406) Close #288 2023-06-02 09:12:30 -06:00			`prefill_logprobs=True,`
feat(router): make router input validation optional (#164) 2023-04-09 12:22:27 -06:00			`truncate=100,`
feat(server): Support SantaCoder (#26) 2023-01-20 04:24:39 -07:00			`parameters=default_pb_parameters,`
			`stopping_parameters=default_pb_stop_parameters,`
			`)`


			`@pytest.fixture`
			`def default_fim_pb_batch(default_fim_pb_request):`
			`return generate_pb2.Batch(id=0, requests=[default_fim_pb_request], size=1)`


fix(server): Fix position ids (#28) 2023-01-20 07:35:22 -07:00			`@pytest.mark.skip`
feat(server): Support SantaCoder (#26) 2023-01-20 04:24:39 -07:00			`def test_santacoder_generate_token_completion(default_santacoder, default_pb_batch):`
			`batch = CausalLMBatch.from_pb(`
feat(server): support vectorized warpers in flash causal lm (#317) Co-authored-by: Joel Lamy-Poirier <joel.lamy-poirier@servicenow.com> 2023-05-26 04:30:27 -06:00			`default_pb_batch,`
			`default_santacoder.tokenizer,`
			`default_santacoder.dtype,`
			`default_santacoder.device,`
feat(server): Support SantaCoder (#26) 2023-01-20 04:24:39 -07:00			`)`
			`next_batch = batch`

			`for _ in range(batch.stopping_criterias[0].max_new_tokens - 1):`
feat: add more latency metrics in forward (#1346) 2023-12-14 07:59:38 -07:00			`generations, next_batch, _ = default_santacoder.generate_token(next_batch)`
feat: Add token streaming using ServerSideEvents support (#41) 2023-01-31 09:04:00 -07:00			`assert len(generations) == len(next_batch)`
feat(server): Support SantaCoder (#26) 2023-01-20 04:24:39 -07:00
feat: add more latency metrics in forward (#1346) 2023-12-14 07:59:38 -07:00			`generations, next_batch, _ = default_santacoder.generate_token(next_batch)`
feat(server): Support SantaCoder (#26) 2023-01-20 04:24:39 -07:00			`assert next_batch is None`

feat: Add token streaming using ServerSideEvents support (#41) 2023-01-31 09:04:00 -07:00			`assert len(generations) == 1`
breaking(router): modify /generate API to only return generated text (#50) @njhill, @yk FYI generated_text was concatenated to the user prompt for legacy reason. We want to remove this behaviour as we don't think it is useful and even detrimonial to usability. We also remove the unused Vec. 2023-02-02 07:02:04 -07:00			`assert generations[0].generated_text.text == " test_get_all_users_with_"`
feat: Add token streaming using ServerSideEvents support (#41) 2023-01-31 09:04:00 -07:00			`assert generations[0].request_id == batch.requests[0].id`
feat(server): Support SantaCoder (#26) 2023-01-20 04:24:39 -07:00			`assert (`
feat: Add token streaming using ServerSideEvents support (#41) 2023-01-31 09:04:00 -07:00			`generations[0].generated_text.generated_tokens`
feat(server): Support SantaCoder (#26) 2023-01-20 04:24:39 -07:00			`== batch.stopping_criterias[0].max_new_tokens`
			`)`


fix(server): Fix position ids (#28) 2023-01-20 07:35:22 -07:00			`@pytest.mark.skip`
feat(server): Support SantaCoder (#26) 2023-01-20 04:24:39 -07:00			`def test_fim_santacoder_generate_token_completion(`
			`default_santacoder, default_fim_pb_batch`
			`):`
			`batch = CausalLMBatch.from_pb(`
feat(server): support vectorized warpers in flash causal lm (#317) Co-authored-by: Joel Lamy-Poirier <joel.lamy-poirier@servicenow.com> 2023-05-26 04:30:27 -06:00			`default_fim_pb_batch,`
			`default_santacoder.tokenizer,`
			`default_santacoder.dtype,`
			`default_santacoder.device,`
feat(server): Support SantaCoder (#26) 2023-01-20 04:24:39 -07:00			`)`
			`next_batch = batch`

			`for _ in range(batch.stopping_criterias[0].max_new_tokens - 1):`
feat: add more latency metrics in forward (#1346) 2023-12-14 07:59:38 -07:00			`generations, next_batch, _ = default_santacoder.generate_token(next_batch)`
feat: Add token streaming using ServerSideEvents support (#41) 2023-01-31 09:04:00 -07:00			`assert len(generations) == len(next_batch)`
feat(server): Support SantaCoder (#26) 2023-01-20 04:24:39 -07:00
feat: add more latency metrics in forward (#1346) 2023-12-14 07:59:38 -07:00			`generations, next_batch, _ = default_santacoder.generate_token(next_batch)`
feat(server): Support SantaCoder (#26) 2023-01-20 04:24:39 -07:00			`assert next_batch is None`

feat: Add token streaming using ServerSideEvents support (#41) 2023-01-31 09:04:00 -07:00			`assert len(generations) == 1`
feat(server): Support SantaCoder (#26) 2023-01-20 04:24:39 -07:00			`assert (`
feat: Add token streaming using ServerSideEvents support (#41) 2023-01-31 09:04:00 -07:00			`generations[0].generated_text.text`
breaking(router): modify /generate API to only return generated text (#50) @njhill, @yk FYI generated_text was concatenated to the user prompt for legacy reason. We want to remove this behaviour as we don't think it is useful and even detrimonial to usability. We also remove the unused Vec. 2023-02-02 07:02:04 -07:00			`== """ineProperty(exports, "__esModule", { value"""`
feat(server): Support SantaCoder (#26) 2023-01-20 04:24:39 -07:00			`)`
feat: Add token streaming using ServerSideEvents support (#41) 2023-01-31 09:04:00 -07:00			`assert generations[0].request_id == batch.requests[0].id`
feat(server): Support SantaCoder (#26) 2023-01-20 04:24:39 -07:00			`assert (`
feat: Add token streaming using ServerSideEvents support (#41) 2023-01-31 09:04:00 -07:00			`generations[0].generated_text.generated_tokens`
feat(server): Support SantaCoder (#26) 2023-01-20 04:24:39 -07:00			`== batch.stopping_criterias[0].max_new_tokens`
			`)`