Large Language Model Text Generation Inference

Go to file

Olivier Dehaene 5e5d8766a2 feat: Improve error handling		2022-10-17 14:59:00 +02:00
aml	feat: Improve error handling	2022-10-17 14:59:00 +02:00
k6	Add load testing	2022-10-11 10:36:51 +02:00
proto	Refactored gRPC interface	2022-10-11 16:50:54 +02:00
router	feat: Improve error handling	2022-10-17 14:59:00 +02:00
server	feat: Improve error handling	2022-10-17 14:59:00 +02:00
.dockerignore	feat: Add AML deployment	2022-10-15 20:21:50 +02:00
.gitignore	Add load testing	2022-10-11 10:36:51 +02:00
Dockerfile	feat: Improve error handling	2022-10-17 14:59:00 +02:00
README.md	feat: Improve error handling	2022-10-17 14:59:00 +02:00
run.sh	feat: Improve error handling	2022-10-17 14:59:00 +02:00

Text Generation Inference

A Rust and gRPC server for text generation inference.

Load Tests

See k6/load_test.js We send the default examples with a 1 second delay between each request.

Stages:

	avg	min	med	max	p(90)	p(95)	RPS
Original code	8.9s	1s	9.12s	16.69s	13.7s	14.26s	5.9
ISO with original code	8.88s	959.53ms	8.89s	17.08s	13.34s	14.12s	5.94
New batching logic	5.44s	1.27s	5.28s	13.12s	7.78s	8.92s	9.08

cd server
pip install .

cd router
cargo build --release

python server/bloom_inference/main.py bigscience/bloom --num-gpus 8 --shard-directory /dev/shm/models

./router/target/release/router