hf_text-generation-inference

History

OlivierDehaene c6e8b9442b fix(server): fix quantization for sharded models (#45 )		2023-01-31 17:40:38 +01:00
..
models	fix(server): fix quantization for sharded models (#45 )	2023-01-31 17:40:38 +01:00
pb	feat(server): Support all AutoModelForCausalLM on a best effort basis	2022-10-28 19:24:00 +02:00
__init__.py	feat(server): Support all AutoModelForCausalLM on a best effort basis	2022-10-28 19:24:00 +02:00
cache.py	feat(server): Support AutoModelForSeq2SeqLM	2022-11-04 18:03:04 +01:00
cli.py	feat(launcher): Log server stdout (#19 )	2023-01-05 12:01:23 +01:00
interceptor.py	feat(launcher): Log server stdout (#19 )	2023-01-05 12:01:23 +01:00
server.py	feat: Add token streaming using ServerSideEvents support (#41 )	2023-01-31 17:04:00 +01:00
utils.py	fix(server): fix seeding with multiple shards (#44 )	2023-01-31 16:01:15 +01:00