adds option to disable multimodal prompts

2024-03-23 14:30:08 -05:00 · 2024-03-23 14:30:08 -05:00 · 34a673a80a
parent 8cb960e174
commit 34a673a80a
7 changed files with 73 additions and 12 deletions
--- a/src/config.ts
+++ b/src/config.ts
@ -249,6 +249,14 @@ type Config = {
   * risk.
   */
  allowOpenAIToolUsage?: boolean;
+  /**
+   * Whether to allow prompts containing images, for use with multimodal models.
+   * Avoid giving this to untrusted users, as they can submit illegal content.
+   *
+   * Applies to GPT-4 Vision and Claude Vision. Users with `special` role are
+   * exempt from this restriction.
+   */
+  allowImagePrompts?: boolean;
  /**
   * Allows overriding the default proxy endpoint route. Defaults to /proxy.
   * A leading slash is required.
@ -348,6 +356,7 @@ export const config: Config = {
  staticServiceInfo: getEnvWithDefault("STATIC_SERVICE_INFO", false),
  trustedProxies: getEnvWithDefault("TRUSTED_PROXIES", 1),
  allowOpenAIToolUsage: getEnvWithDefault("ALLOW_OPENAI_TOOL_USAGE", false),
+  allowImagePrompts: getEnvWithDefault("ALLOW_IMAGE_PROMPTS", false),
  proxyEndpointRoute: getEnvWithDefault("PROXY_ENDPOINT_ROUTE", "/proxy"),
 } as const;

--- a/src/proxy/middleware/request/index.ts
+++ b/src/proxy/middleware/request/index.ts
@ -11,16 +11,17 @@ export {
 // Express middleware (runs before http-proxy-middleware, can be async)
 export { addAzureKey } from "./preprocessors/add-azure-key";
 export { applyQuotaLimits } from "./preprocessors/apply-quota-limits";
-export { validateContextSize } from "./preprocessors/validate-context-size";
 export { countPromptTokens } from "./preprocessors/count-prompt-tokens";
 export { languageFilter } from "./preprocessors/language-filter";
 export { setApiFormat } from "./preprocessors/set-api-format";
 export { signAwsRequest } from "./preprocessors/sign-aws-request";
 export { transformOutboundPayload } from "./preprocessors/transform-outbound-payload";
+export { validateContextSize } from "./preprocessors/validate-context-size";
+export { validateVision } from "./preprocessors/validate-vision";

 // http-proxy-middleware callbacks (runs on onProxyReq, cannot be async)
-export { addKey, addKeyForEmbeddingsRequest } from "./onproxyreq/add-key";
 export { addAnthropicPreamble } from "./onproxyreq/add-anthropic-preamble";
+export { addKey, addKeyForEmbeddingsRequest } from "./onproxyreq/add-key";
 export { blockZoomerOrigins } from "./onproxyreq/block-zoomer-origins";
 export { checkModelFamily } from "./onproxyreq/check-model-family";
 export { finalizeBody } from "./onproxyreq/finalize-body";
--- a/src/proxy/middleware/request/onproxyreq/add-key.ts
+++ b/src/proxy/middleware/request/onproxyreq/add-key.ts
@ -1,4 +1,5 @@
 import { AnthropicChatMessage } from "../../../../shared/api-schemas";
+import { containsImageContent } from "../../../../shared/api-schemas/anthropic";
 import { Key, OpenAIKey, keyPool } from "../../../../shared/key-management";
 import { isEmbeddingsRequest } from "../../common";
 import { HPMRequestCallback } from "../index";
@ -22,7 +23,7 @@ export const addKey: HPMRequestCallback = (proxyReq, req) => {

  let needsMultimodal = false;
  if (outboundApi === "anthropic-chat") {
-    needsMultimodal = needsMultimodalKey(
+    needsMultimodal = containsImageContent(
      body.messages as AnthropicChatMessage[]
    );
  }
@ -122,10 +123,3 @@ export const addKeyForEmbeddingsRequest: HPMRequestCallback = (
    proxyReq.setHeader("OpenAI-Organization", key.organizationId);
  }
 };
-
-function needsMultimodalKey(messages: AnthropicChatMessage[]) {
-  return messages.some(
-    ({ content }) =>
-      typeof content !== "string" && content.some((c) => c.type === "image")
-  );
-}
--- a/src/proxy/middleware/request/preprocessor-factory.ts
+++ b/src/proxy/middleware/request/preprocessor-factory.ts
@ -4,11 +4,12 @@ import { initializeSseStream } from "../../../shared/streaming";
 import { classifyErrorAndSend } from "../common";
 import {
  RequestPreprocessor,
-  validateContextSize,
  countPromptTokens,
+  languageFilter,
  setApiFormat,
  transformOutboundPayload,
-  languageFilter,
+  validateContextSize,
+  validateVision,
 } from ".";

 type RequestPreprocessorOptions = {
@ -50,6 +51,7 @@ export const createPreprocessorMiddleware = (
    languageFilter,
    ...(afterTransform ?? []),
    validateContextSize,
+    validateVision,
  ];
  return async (...args) => executePreprocessors(preprocessors, args);
 };
--- a/src/proxy/middleware/request/preprocessors/validate-vision.ts
+++ b/src/proxy/middleware/request/preprocessors/validate-vision.ts
@ -0,0 +1,38 @@
+import { config } from "../../../../config";
+import { assertNever } from "../../../../shared/utils";
+import { RequestPreprocessor } from "../index";
+import { containsImageContent as containsImageContentOpenAI } from "../../../../shared/api-schemas/openai";
+import { containsImageContent as containsImageContentAnthropic } from "../../../../shared/api-schemas/anthropic";
+import { ForbiddenError } from "../../../../shared/errors";
+
+/**
+ * Rejects prompts containing images if multimodal prompts are disabled.
+ */
+export const validateVision: RequestPreprocessor = async (req) => {
+  if (config.allowImagePrompts) return;
+  if (req.user?.type === "special") return;
+
+  let hasImage = false;
+  switch (req.outboundApi) {
+    case "openai":
+      hasImage = containsImageContentOpenAI(req.body.messages);
+      break;
+    case "anthropic-chat":
+      hasImage = containsImageContentAnthropic(req.body.messages);
+      break;
+    case "anthropic-text":
+    case "google-ai":
+    case "mistral-ai":
+    case "openai-image":
+    case "openai-text":
+      return;
+    default:
+      assertNever(req.outboundApi);
+  }
+
+  if (hasImage) {
+    throw new ForbiddenError(
+      "Prompts containing images are not permitted. Disable 'Send Inline Images' in your client and try again."
+    );
+  }
+};
--- a/src/shared/api-schemas/anthropic.ts
+++ b/src/shared/api-schemas/anthropic.ts
@ -438,3 +438,10 @@ function convertOpenAIContent(
    }
  });
 }
+
+export function containsImageContent(messages: AnthropicChatMessage[]) {
+  return messages.some(
+    ({ content }) =>
+      typeof content !== "string" && content.some((c) => c.type === "image")
+  );
+}
--- a/src/shared/api-schemas/openai.ts
+++ b/src/shared/api-schemas/openai.ts
@ -131,3 +131,13 @@ export function flattenOpenAIChatMessages(messages: OpenAIChatMessage[]) {
      throw new Error(`Unknown prompt version: ${PROMPT_VERSION}`);
  }
 }
+
+export function containsImageContent(
+  messages: OpenAIChatMessage[]
+): boolean {
+  return messages.some((m) =>
+    Array.isArray(m.content)
+      ? m.content.some((contentItem) => "image_url" in contentItem)
+      : false
+  );
+}