Start.

2023-09-11 18:25:49 +00:00 · 2023-09-11 18:25:49 +00:00 · 33958e0989
parent 4cce84301b
commit 33958e0989
7 changed files with 48 additions and 4 deletions
--- a/Cargo.lock
+++ b/Cargo.lock
@ -2866,7 +2866,7 @@ dependencies = [

 [[package]]
 name = "text-generation-benchmark"
-version = "1.0.1"
+version = "1.0.3"
 dependencies = [
 "average",
 "clap",
@ -2886,7 +2886,7 @@ dependencies = [

 [[package]]
 name = "text-generation-client"
-version = "1.0.1"
+version = "1.0.3"
 dependencies = [
 "futures",
 "grpc-metadata",
@ -2902,7 +2902,7 @@ dependencies = [

 [[package]]
 name = "text-generation-launcher"
-version = "1.0.1"
+version = "1.0.3"
 dependencies = [
 "clap",
 "ctrlc",
@ -2918,7 +2918,7 @@ dependencies = [

 [[package]]
 name = "text-generation-router"
-version = "1.0.1"
+version = "1.0.3"
 dependencies = [
 "async-stream",
 "axum",
--- a/launcher/src/main.rs
+++ b/launcher/src/main.rs
@ -336,6 +336,10 @@ struct Args {
    /// Display a lot of information about your runtime environment
    #[clap(long, short, action)]
    env: bool,
+
+    /// Use speculation on a given model_id
+    #[clap(long, short)]
+    speculate_model_id: Option<String>,
 }

 #[derive(Debug)]
--- a/proto/generate.proto
+++ b/proto/generate.proto
@ -17,6 +17,8 @@ service TextGenerationService {
    rpc Prefill (PrefillRequest) returns (PrefillResponse);
    /// Decode token for a list of prefilled batches
    rpc Decode (DecodeRequest) returns (DecodeResponse);
+    /// Add to speculative ids to the given requests
+    rpc Speculate (SpeculateRequest) returns (SpeculateResponse);
    /// Health check
    rpc Health (HealthRequest) returns (HealthResponse);
 }
@ -93,6 +95,17 @@ message Request {
    bool prefill_logprobs = 6;
    /// Return most likely n tokens
    uint32 top_n_tokens = 7;
+    /// The speculative generation
+    optional string speculate = 8;
+}
+
+message Speculate {
+    /// Request ID to speculate on
+    uint64 id = 1;
+    /// The generation context
+    string inputs = 2;
+    /// Context truncation
+    string speculation = 3;
 }

 message Batch {
@ -210,6 +223,17 @@ message DecodeResponse {
    optional CachedBatch batch = 2;
 }

+message SpeculateRequest {
+    /// Cached batches
+    repeated Speculate speculations = 1;
+}
+
+message SpeculateResponse {
+    // Next batch (cached)
+    // optional CachedBatch batch = 2;
+}
+
+
 message WarmupRequest {
    /// Batch to warmup on
    Batch batch = 1;
--- a/router/client/src/client.rs
+++ b/router/client/src/client.rs
@ -132,6 +132,7 @@ impl Client {
                }),
                prefill_logprobs: true,
                top_n_tokens: 20,
+                speculate: None
            });
            n_tokens += max_input_length;
        }
@ -162,6 +163,18 @@ impl Client {
        Ok((response.generations, response.batch))
    }

+    /// Add speculation proposal to existing requests
+    ///
+    #[instrument(skip_all)]
+    pub async fn speculate(
+        &mut self,
+        speculations: Vec<Speculate>,
+    ) -> Result<()> {
+        let request = tonic::Request::new(SpeculateRequest { speculations }).inject_context();
+        let _response = self.stub.speculate(request).await?.into_inner();
+        Ok(())
+    }
+
    /// Generate one token for each request in the given cached batches
    ///
    /// Returns Generation for each request in batches
--- a/router/req.json
+++ b/router/req.json
--- a/router/src/health.rs
+++ b/router/src/health.rs
@ -51,6 +51,7 @@ impl Health {
                    ignore_eos_token: false,
                }),
                top_n_tokens: 0,
+                speculate: None
            };
            let batch = Batch {
                id: BATCH_ID,
--- a/router/src/queue.rs
+++ b/router/src/queue.rs
@ -236,6 +236,7 @@ impl State {
                parameters: Some(entry.request.parameters.clone()),
                stopping_parameters: Some(entry.request.stopping_parameters.clone()),
                top_n_tokens: entry.request.top_n_tokens,
+                speculate: None
            });
            // Set batch_time
            entry.batch_time = Some(Instant::now());