Spaces:

davanstrien
/

hub-semantic-search-mcp

Runtime error

App Files Files Community

hub-semantic-search-mcp / app.py

davanstrien HF Staff

try local version

c4a50c6 5 months ago

raw

history blame contribute delete

24.7 kB

	#!/usr/bin/env python3
	"""
	MCP Server for Hugging Face Dataset and Model Search API
	"""

	import asyncio
	import json
	import logging
	import os
	from typing import Any, Dict, List, Optional
	from urllib.parse import urlencode

	import httpx
	from mcp.server import Server
	from mcp.server.stdio import stdio_server
	from mcp.types import (
	Tool,
	TextContent,
	CallToolResult,
	CallToolRequest,
	ListToolsResult,
	)

	# Configure logging
	logging.basicConfig(level=logging.INFO)
	logger = logging.getLogger(__name__)

	class HFSearchServer:
	def __init__(self, base_url: str = "https://davanstrien-huggingface-datasets-search-v2.hf.space"):
	self.base_url = base_url
	self.client = httpx.AsyncClient(timeout=60.0)

	async def close(self):
	await self.client.aclose()

	async def search_datasets(
	self,
	query: str,
	k: int = 5,
	sort_by: str = "similarity",
	min_likes: int = 0,
	min_downloads: int = 0
	) -> Dict[str, Any]:
	"""Search for datasets based on a text query"""
	params = {
	"query": query,
	"k": k,
	"sort_by": sort_by,
	"min_likes": min_likes,
	"min_downloads": min_downloads
	}

	response = await self.client.get(
	f"{self.base_url}/search/datasets",
	params=params
	)
	response.raise_for_status()
	return response.json()

	async def find_similar_datasets(
	self,
	dataset_id: str,
	k: int = 5,
	sort_by: str = "similarity",
	min_likes: int = 0,
	min_downloads: int = 0
	) -> Dict[str, Any]:
	"""Find similar datasets to a specified dataset"""
	params = {
	"dataset_id": dataset_id,
	"k": k,
	"sort_by": sort_by,
	"min_likes": min_likes,
	"min_downloads": min_downloads
	}

	response = await self.client.get(
	f"{self.base_url}/similarity/datasets",
	params=params
	)
	response.raise_for_status()
	return response.json()

	async def search_models(
	self,
	query: str,
	k: int = 5,
	sort_by: str = "similarity",
	min_likes: int = 0,
	min_downloads: int = 0,
	min_param_count: int = 0,
	max_param_count: Optional[int] = None
	) -> Dict[str, Any]:
	"""Search for models based on a text query"""
	params = {
	"query": query,
	"k": k,
	"sort_by": sort_by,
	"min_likes": min_likes,
	"min_downloads": min_downloads,
	"min_param_count": min_param_count
	}
	if max_param_count is not None:
	params["max_param_count"] = max_param_count

	response = await self.client.get(
	f"{self.base_url}/search/models",
	params=params
	)
	response.raise_for_status()
	return response.json()

	async def find_similar_models(
	self,
	model_id: str,
	k: int = 5,
	sort_by: str = "similarity",
	min_likes: int = 0,
	min_downloads: int = 0,
	min_param_count: int = 0,
	max_param_count: Optional[int] = None
	) -> Dict[str, Any]:
	"""Find similar models to a specified model"""
	params = {
	"model_id": model_id,
	"k": k,
	"sort_by": sort_by,
	"min_likes": min_likes,
	"min_downloads": min_downloads,
	"min_param_count": min_param_count
	}
	if max_param_count is not None:
	params["max_param_count"] = max_param_count

	response = await self.client.get(
	f"{self.base_url}/similarity/models",
	params=params
	)
	response.raise_for_status()
	return response.json()

	async def get_trending_models(
	self,
	limit: int = 10,
	min_likes: int = 0,
	min_downloads: int = 0,
	min_param_count: int = 0,
	max_param_count: Optional[int] = None
	) -> Dict[str, Any]:
	"""Get trending models with their summaries"""
	params = {
	"limit": limit,
	"min_likes": min_likes,
	"min_downloads": min_downloads,
	"min_param_count": min_param_count
	}
	if max_param_count is not None:
	params["max_param_count"] = max_param_count

	response = await self.client.get(
	f"{self.base_url}/trending/models",
	params=params
	)
	response.raise_for_status()
	return response.json()

	async def get_trending_datasets(
	self,
	limit: int = 10,
	min_likes: int = 0,
	min_downloads: int = 0
	) -> Dict[str, Any]:
	"""Get trending datasets with their summaries"""
	params = {
	"limit": limit,
	"min_likes": min_likes,
	"min_downloads": min_downloads
	}

	response = await self.client.get(
	f"{self.base_url}/trending/datasets",
	params=params
	)
	response.raise_for_status()
	return response.json()

	async def download_model_card(self, model_id: str) -> str:
	"""Download the README card for a HuggingFace model"""
	url = f"https://huggingface.co/{model_id}/raw/main/README.md"
	response = await self.client.get(url)
	response.raise_for_status()
	return response.text

	async def download_dataset_card(self, dataset_id: str) -> str:
	"""Download the README card for a HuggingFace dataset"""
	url = f"https://huggingface.co/datasets/{dataset_id}/raw/main/README.md"
	response = await self.client.get(url)
	response.raise_for_status()
	return response.text

	# Initialize server and API client
	server = Server("hf-search")
	api_client: Optional[HFSearchServer] = None

	@server.list_tools()
	async def list_tools() -> ListToolsResult:
	"""List available tools"""
	return ListToolsResult(
	tools=[
	Tool(
	name="search_datasets",
	description="Search for datasets using semantic/similarity search based on a text query",
	inputSchema={
	"type": "object",
	"properties": {
	"query": {
	"type": "string",
	"description": "Search query text (natural language description of what you're looking for)"
	},
	"k": {
	"type": "integer",
	"description": "Number of results to return (1-100)",
	"minimum": 1,
	"maximum": 100,
	"default": 5
	},
	"sort_by": {
	"type": "string",
	"description": "Sort method for results",
	"enum": ["similarity", "likes", "downloads", "trending"],
	"default": "similarity"
	},
	"min_likes": {
	"type": "integer",
	"description": "Minimum likes filter",
	"minimum": 0,
	"default": 0
	},
	"min_downloads": {
	"type": "integer",
	"description": "Minimum downloads filter",
	"minimum": 0,
	"default": 0
	}
	},
	"required": ["query"]
	}
	),
	Tool(
	name="find_similar_datasets",
	description="Find datasets similar to a specified dataset",
	inputSchema={
	"type": "object",
	"properties": {
	"dataset_id": {
	"type": "string",
	"description": "Dataset ID to find similar datasets for"
	},
	"k": {
	"type": "integer",
	"description": "Number of results to return (1-100)",
	"minimum": 1,
	"maximum": 100,
	"default": 5
	},
	"sort_by": {
	"type": "string",
	"description": "Sort method for results",
	"enum": ["similarity", "likes", "downloads", "trending"],
	"default": "similarity"
	},
	"min_likes": {
	"type": "integer",
	"description": "Minimum likes filter",
	"minimum": 0,
	"default": 0
	},
	"min_downloads": {
	"type": "integer",
	"description": "Minimum downloads filter",
	"minimum": 0,
	"default": 0
	}
	},
	"required": ["dataset_id"]
	}
	),
	Tool(
	name="search_models",
	description="Search for models using semantic/similarity search based on a text query with optional parameter count filtering",
	inputSchema={
	"type": "object",
	"properties": {
	"query": {
	"type": "string",
	"description": "Search query text (natural language description of what you're looking for)"
	},
	"k": {
	"type": "integer",
	"description": "Number of results to return (1-100)",
	"minimum": 1,
	"maximum": 100,
	"default": 5
	},
	"sort_by": {
	"type": "string",
	"description": "Sort method for results",
	"enum": ["similarity", "likes", "downloads", "trending"],
	"default": "similarity"
	},
	"min_likes": {
	"type": "integer",
	"description": "Minimum likes filter",
	"minimum": 0,
	"default": 0
	},
	"min_downloads": {
	"type": "integer",
	"description": "Minimum downloads filter",
	"minimum": 0,
	"default": 0
	},
	"min_param_count": {
	"type": "integer",
	"description": "Minimum parameter count (excludes models with unknown params)",
	"minimum": 0,
	"default": 0
	},
	"max_param_count": {
	"type": ["integer", "null"],
	"description": "Maximum parameter count (null for no limit)",
	"minimum": 0,
	"default": None
	}
	},
	"required": ["query"]
	}
	),
	Tool(
	name="find_similar_models",
	description="Find models similar to a specified model",
	inputSchema={
	"type": "object",
	"properties": {
	"model_id": {
	"type": "string",
	"description": "Model ID to find similar models for"
	},
	"k": {
	"type": "integer",
	"description": "Number of results to return (1-100)",
	"minimum": 1,
	"maximum": 100,
	"default": 5
	},
	"sort_by": {
	"type": "string",
	"description": "Sort method for results",
	"enum": ["similarity", "likes", "downloads", "trending"],
	"default": "similarity"
	},
	"min_likes": {
	"type": "integer",
	"description": "Minimum likes filter",
	"minimum": 0,
	"default": 0
	},
	"min_downloads": {
	"type": "integer",
	"description": "Minimum downloads filter",
	"minimum": 0,
	"default": 0
	},
	"min_param_count": {
	"type": "integer",
	"description": "Minimum parameter count (excludes models with unknown params)",
	"minimum": 0,
	"default": 0
	},
	"max_param_count": {
	"type": ["integer", "null"],
	"description": "Maximum parameter count (null for no limit)",
	"minimum": 0,
	"default": None
	}
	},
	"required": ["model_id"]
	}
	),
	Tool(
	name="get_trending_models",
	description="Get trending models with their summaries and optional filtering",
	inputSchema={
	"type": "object",
	"properties": {
	"limit": {
	"type": "integer",
	"description": "Number of results to return (1-100)",
	"minimum": 1,
	"maximum": 100,
	"default": 10
	},
	"min_likes": {
	"type": "integer",
	"description": "Minimum likes filter",
	"minimum": 0,
	"default": 0
	},
	"min_downloads": {
	"type": "integer",
	"description": "Minimum downloads filter",
	"minimum": 0,
	"default": 0
	},
	"min_param_count": {
	"type": "integer",
	"description": "Minimum parameter count (excludes models with unknown params)",
	"minimum": 0,
	"default": 0
	},
	"max_param_count": {
	"type": ["integer", "null"],
	"description": "Maximum parameter count (null for no limit)",
	"minimum": 0,
	"default": None
	}
	}
	}
	),
	Tool(
	name="get_trending_datasets",
	description="Get trending datasets with their summaries",
	inputSchema={
	"type": "object",
	"properties": {
	"limit": {
	"type": "integer",
	"description": "Number of results to return (1-100)",
	"minimum": 1,
	"maximum": 100,
	"default": 10
	},
	"min_likes": {
	"type": "integer",
	"description": "Minimum likes filter",
	"minimum": 0,
	"default": 0
	},
	"min_downloads": {
	"type": "integer",
	"description": "Minimum downloads filter",
	"minimum": 0,
	"default": 0
	}
	}
	}
	),
	Tool(
	name="download_model_card",
	description="Download the README card for a HuggingFace model",
	inputSchema={
	"type": "object",
	"properties": {
	"model_id": {
	"type": "string",
	"description": "The model ID (e.g., 'username/model-name')"
	}
	},
	"required": ["model_id"]
	}
	),
	Tool(
	name="download_dataset_card",
	description="Download the README card for a HuggingFace dataset",
	inputSchema={
	"type": "object",
	"properties": {
	"dataset_id": {
	"type": "string",
	"description": "The dataset ID (e.g., 'username/dataset-name')"
	}
	},
	"required": ["dataset_id"]
	}
	)
	]
	)

	@server.call_tool()
	async def call_tool(request: CallToolRequest) -> CallToolResult:
	"""Handle tool calls"""
	global api_client

	if api_client is None:
	# Initialize API client with base URL from environment or default
	base_url = os.getenv("HF_SEARCH_API_URL", "https://davanstrien-huggingface-datasets-search-v2.hf.space")
	api_client = HFSearchServer(base_url)

	try:
	# Parse arguments
	args = request.params.arguments if hasattr(request.params, 'arguments') else {}

	# Format results helper
	def format_dataset_results(data: Dict[str, Any]) -> str:
	results = data.get("results", [])
	if not results:
	return "No datasets found."

	output = []
	for i, result in enumerate(results, 1):
	output.append(f"{i}. {result['dataset_id']}")
	output.append(f" - Summary: {result['summary']}")
	output.append(f" - Similarity: {result['similarity']:.3f}")
	output.append(f" - Likes: {result['likes']:,} \| Downloads: {result['downloads']:,}")
	output.append("")

	return "\n".join(output)

	def format_model_results(data: Dict[str, Any]) -> str:
	results = data.get("results", [])
	if not results:
	return "No models found."

	output = []
	for i, result in enumerate(results, 1):
	output.append(f"{i}. {result['model_id']}")
	output.append(f" - Summary: {result['summary']}")
	output.append(f" - Similarity: {result['similarity']:.3f}")
	output.append(f" - Likes: {result['likes']:,} \| Downloads: {result['downloads']:,}")
	if result.get('param_count') is not None and result['param_count'] > 0:
	# Format parameter count nicely
	param_count = result['param_count']
	if param_count >= 1_000_000_000:
	param_str = f"{param_count / 1_000_000_000:.1f}B"
	elif param_count >= 1_000_000:
	param_str = f"{param_count / 1_000_000:.1f}M"
	elif param_count >= 1_000:
	param_str = f"{param_count / 1_000:.1f}K"
	else:
	param_str = str(param_count)
	output.append(f" - Parameters: {param_str}")
	output.append("")

	return "\n".join(output)

	# Route to appropriate method
	if request.params.name == "search_datasets":
	result = await api_client.search_datasets(**args)
	formatted = format_dataset_results(result)
	return CallToolResult(
	content=[TextContent(text=formatted)],
	isError=False
	)

	elif request.params.name == "find_similar_datasets":
	result = await api_client.find_similar_datasets(**args)
	formatted = format_dataset_results(result)
	return CallToolResult(
	content=[TextContent(text=formatted)],
	isError=False
	)

	elif request.params.name == "search_models":
	result = await api_client.search_models(**args)
	formatted = format_model_results(result)
	return CallToolResult(
	content=[TextContent(text=formatted)],
	isError=False
	)

	elif request.params.name == "find_similar_models":
	result = await api_client.find_similar_models(**args)
	formatted = format_model_results(result)
	return CallToolResult(
	content=[TextContent(text=formatted)],
	isError=False
	)

	elif request.params.name == "get_trending_models":
	result = await api_client.get_trending_models(**args)
	formatted = format_model_results(result)
	return CallToolResult(
	content=[TextContent(text=formatted)],
	isError=False
	)

	elif request.params.name == "get_trending_datasets":
	result = await api_client.get_trending_datasets(**args)
	formatted = format_dataset_results(result)
	return CallToolResult(
	content=[TextContent(text=formatted)],
	isError=False
	)

	elif request.params.name == "download_model_card":
	result = await api_client.download_model_card(**args)
	return CallToolResult(
	content=[TextContent(text=result)],
	isError=False
	)

	elif request.params.name == "download_dataset_card":
	result = await api_client.download_dataset_card(**args)
	return CallToolResult(
	content=[TextContent(text=result)],
	isError=False
	)

	else:
	return CallToolResult(
	content=[TextContent(text=f"Unknown tool: {request.params.name}")],
	isError=True
	)

	except httpx.HTTPStatusError as e:
	error_msg = f"API request failed with status {e.response.status_code}: {e.response.text}"
	logger.error(error_msg)
	return CallToolResult(
	content=[TextContent(text=error_msg)],
	isError=True
	)
	except Exception as e:
	error_msg = f"Error calling tool {request.params.name}: {str(e)}"
	logger.error(error_msg, exc_info=True)
	return CallToolResult(
	content=[TextContent(text=error_msg)],
	isError=True
	)

	async def main():
	"""Main entry point"""
	async with stdio_server() as (read_stream, write_stream):
	await server.run(
	read_stream,
	write_stream,
	server.create_initialization_options()
	)

	# Cleanup
	if api_client:
	await api_client.close()

	if __name__ == "__main__":
	asyncio.run(main())