adjust vllm info

2023-09-21 20:13:29 -06:00 · 2023-09-21 20:13:29 -06:00 · 81452ec643
parent f9a80f3028
commit 81452ec643
2 changed files with 3 additions and 2 deletions
--- a/llm_server/llm/vllm/info.py
+++ b/llm_server/llm/vllm/info.py
@ -1,8 +1,10 @@
-vllm_info = """<p><strong>Important:</strong> This endpoint is running <a href="https://github.com/chu-tianxiang/vllm-gptq" target="_blank">vllm-gptq</a> and not all Oobabooga parameters are supported.</p>
+vllm_info = """<p><strong>Important:</strong> This endpoint is running <a href="https://github.com/vllm-project/vllm" target="_blank">vllm</a> and not all Oobabooga parameters are supported.</p>
 <strong>Supported Parameters:</strong>
 <ul>
 <li><kbd>temperature</kbd></li>
 <li><kbd>top_p</kbd></li>
 <li><kbd>top_k</kbd></li>
 <li><kbd>max_new_tokens</kbd></li>
+<li><kbd>num_beams</kbd> <span style="font-size:9pt">(setting to greater than 1 enables beam search)</span></li>
+<li><kbd>ban_eos_token</kbd></li>
 </ul>"""
--- a/llm_server/llm/vllm/tokenize.py
+++ b/llm_server/llm/vllm/tokenize.py
@ -14,6 +14,5 @@ def tokenize(prompt: str) -> int:
        j = r.json()
        return j['length']
    except:
-        # Fall back to whatever the superclass is doing.
        print(traceback.format_exc())
        return len(tokenizer.encode(prompt)) + 10