Spaces:

Wauplin
/

responses.js

Running

App Files Files Community

Wauplin HF Staff commited on Aug 6

Commit

613001f

verified ·

1 Parent(s): dce90f2

Upload folder using huggingface_hub

Browse files

Files changed (1) hide show

src/routes/responses.ts +27 -3

src/routes/responses.ts CHANGED Viewed

@@ -35,6 +35,23 @@ class StreamingError extends Error {
 type IncompleteResponse = Omit<Response, "incomplete_details" | "output_text" | "parallel_tool_calls">;
 const SEQUENCE_NUMBER_PLACEHOLDER = -1;
 export const postCreateResponse = async (
 	req: ValidatedRequest<CreateResponseParams>,
 	res: ExpressResponse
@@ -169,6 +186,11 @@ async function* innerRunStream(
 		return;
 	}
 	// Return early if not supported param
 	if (req.body.reasoning?.summary && req.body.reasoning?.summary !== "auto") {
 		throw new Error(`Not implemented: only 'auto' summary is supported. Got '${req.body.reasoning?.summary}'`);
@@ -429,7 +451,7 @@ async function* innerRunStream(
 	do {
 		previousMessageCount = currentMessageCount;
-		for await (const event of handleOneTurnStream(apiKey, payload, responseObject, mcpToolsMapping)) {
 			yield event;
 		}
@@ -499,14 +521,16 @@ async function* handleOneTurnStream(
 	apiKey: string | undefined,
 	payload: ChatCompletionCreateParamsStreaming,
 	responseObject: IncompleteResponse,
-	mcpToolsMapping: Record<string, McpServerParams>
 ): AsyncGenerator<PatchedResponseStreamEvent> {
 	const client = new OpenAI({
 		baseURL: process.env.OPENAI_BASE_URL ?? "https://router.huggingface.co/v1",
 		apiKey: apiKey,
 	});
-	console.log(payload);
 	console.log("payload as JSON", JSON.stringify(payload, null, 2));
 	const stream = await client.chat.completions.create(payload);
 	let previousInputTokens = responseObject.usage?.input_tokens ?? 0;
 	let previousOutputTokens = responseObject.usage?.output_tokens ?? 0;

 type IncompleteResponse = Omit<Response, "incomplete_details" | "output_text" | "parallel_tool_calls">;
 const SEQUENCE_NUMBER_PLACEHOLDER = -1;
+// All headers are forwarded by default, except these ones.
+const NOT_FORWARDED_HEADERS = new Set([
+	"accept",
+	"accept-encoding",
+	"authorization",
+	"connection",
+	"content-length",
+	"content-type",
+	"host",
+	"keep-alive",
+	"te",
+	"trailer",
+	"trailers",
+	"transfer-encoding",
+	"upgrade",
+]);
 export const postCreateResponse = async (
 	req: ValidatedRequest<CreateResponseParams>,
 	res: ExpressResponse
 		return;
 	}
+	// Forward headers (except authorization handled separately)
+	const defaultHeaders = Object.fromEntries(
+		Object.entries(req.headers).filter(([key]) => !NOT_FORWARDED_HEADERS.has(key.toLowerCase()))
+	) as Record<string, string>;
 	// Return early if not supported param
 	if (req.body.reasoning?.summary && req.body.reasoning?.summary !== "auto") {
 		throw new Error(`Not implemented: only 'auto' summary is supported. Got '${req.body.reasoning?.summary}'`);
 	do {
 		previousMessageCount = currentMessageCount;
+		for await (const event of handleOneTurnStream(apiKey, payload, responseObject, mcpToolsMapping, defaultHeaders)) {
 			yield event;
 		}
 	apiKey: string | undefined,
 	payload: ChatCompletionCreateParamsStreaming,
 	responseObject: IncompleteResponse,
+	mcpToolsMapping: Record<string, McpServerParams>,
+	defaultHeaders: Record<string, string>
 ): AsyncGenerator<PatchedResponseStreamEvent> {
 	const client = new OpenAI({
 		baseURL: process.env.OPENAI_BASE_URL ?? "https://router.huggingface.co/v1",
 		apiKey: apiKey,
+		defaultHeaders,
 	});
 	console.log("payload as JSON", JSON.stringify(payload, null, 2));
+	console.log("defaultHeaders", defaultHeaders);
 	const stream = await client.chat.completions.create(payload);
 	let previousInputTokens = responseObject.usage?.input_tokens ?? 0;
 	let previousOutputTokens = responseObject.usage?.output_tokens ?? 0;