Spaces:

wjbmattingly
/

LLM-LOD

Running

App Files Files Community

LLM-LOD / app.py

wjbmattingly

Upload 4 files

71303dd verified about 2 months ago

raw

history blame contribute delete

15.4 kB

	from flask import Flask, render_template, request, jsonify
	import spacy
	import json
	import requests
	from gliner import GLiNER

	app = Flask(__name__)

	# Load a blank English spaCy pipeline for tokenization
	nlp = spacy.blank("en")

	# GLiNER pipeline (will be configured on first use)
	gliner_nlp = None

	# GLiNER multitask model for relationships
	gliner_multitask = None

	def get_or_create_multitask_model():
	"""
	Get or create GLiNER multitask model for relationship extraction
	"""
	global gliner_multitask

	if gliner_multitask is None:
	try:
	gliner_multitask = GLiNER.from_pretrained("knowledgator/gliner-multitask-large-v0.5")
	except Exception as e:
	print(f"Error loading GLiNER multitask model: {e}")
	return None

	return gliner_multitask

	@app.route('/')
	def index():
	return render_template('index.html')

	@app.route('/tokenize', methods=['POST'])
	def tokenize_text():
	"""
	Tokenize the input text and return token boundaries
	"""
	data = request.get_json()
	text = data.get('text', '')

	if not text:
	return jsonify({'error': 'No text provided'}), 400

	# Process text with spaCy
	doc = nlp(text)

	# Extract token information
	tokens = []
	for token in doc:
	tokens.append({
	'text': token.text,
	'start': token.idx,
	'end': token.idx + len(token.text)
	})

	return jsonify({
	'tokens': tokens,
	'text': text
	})

	@app.route('/find_token_boundaries', methods=['POST'])
	def find_token_boundaries():
	"""
	Given a text selection, find the token boundaries that encompass it
	"""
	data = request.get_json()
	text = data.get('text', '')
	start = data.get('start', 0)
	end = data.get('end', 0)
	label = data.get('label', 'UNLABELED')

	if not text:
	return jsonify({'error': 'No text provided'}), 400

	# Process text with spaCy
	doc = nlp(text)

	# Find tokens that overlap with the selection
	token_start = None
	token_end = None

	for token in doc:
	# Check if token overlaps with selection
	if token.idx < end and token.idx + len(token.text) > start:
	if token_start is None:
	token_start = token.idx
	token_end = token.idx + len(token.text)

	# If no tokens found, return original boundaries
	if token_start is None:
	token_start = start
	token_end = end

	return jsonify({
	'start': token_start,
	'end': token_end,
	'selected_text': text[token_start:token_end],
	'label': label
	})

	@app.route('/get_default_labels', methods=['GET'])
	def get_default_labels():
	"""
	Return the default annotation labels with their colors
	"""
	default_labels = [
	{'name': 'PERSON', 'color': '#fef3c7', 'border': '#f59e0b'},
	{'name': 'LOCATION', 'color': '#dbeafe', 'border': '#3b82f6'},
	{'name': 'ORGANIZATION', 'color': '#dcfce7', 'border': '#10b981'}
	]

	return jsonify({'labels': default_labels})

	@app.route('/get_default_relationship_labels', methods=['GET'])
	def get_default_relationship_labels():
	"""
	Return the default relationship labels with their colors
	"""
	default_relationship_labels = [
	{'name': 'worked at', 'color': '#fce7f3', 'border': '#ec4899'},
	{'name': 'visited', 'color': '#f3e8ff', 'border': '#a855f7'}
	]

	return jsonify({'relationship_labels': default_relationship_labels})

	def get_or_create_gliner_pipeline(labels):
	"""
	Get or create GLiNER pipeline with specified labels
	"""
	global gliner_nlp

	# Convert labels to lowercase for GLiNER
	gliner_labels = [label.lower() for label in labels]

	try:
	# Create new pipeline if it doesn't exist or labels changed
	custom_spacy_config = {
	"gliner_model": "gliner-community/gliner_small-v2.5",
	"chunk_size": 250,
	"labels": gliner_labels,
	"style": "ent"
	}

	gliner_nlp = spacy.blank("en")
	gliner_nlp.add_pipe("gliner_spacy", config=custom_spacy_config)

	return gliner_nlp
	except Exception as e:
	print(f"Error creating GLiNER pipeline: {e}")
	return None

	@app.route('/run_gliner', methods=['POST'])
	def run_gliner():
	"""
	Run GLiNER entity extraction on the provided text with specified labels
	"""
	data = request.get_json()
	text = data.get('text', '')
	labels = data.get('labels', [])

	if not text:
	return jsonify({'error': 'No text provided'}), 400

	if not labels:
	return jsonify({'error': 'No labels provided'}), 400

	try:
	# Get or create GLiNER pipeline
	pipeline = get_or_create_gliner_pipeline(labels)

	if pipeline is None:
	return jsonify({'error': 'Failed to initialize GLiNER pipeline'}), 500

	# Process text with GLiNER
	doc = pipeline(text)

	# Extract entities with token boundaries
	entities = []
	for ent in doc.ents:
	# Map GLiNER label back to user's label format
	original_label = None
	for label in labels:
	if label.lower() == ent.label_.lower():
	original_label = label
	break

	if original_label:
	entities.append({
	'text': ent.text,
	'start': ent.start_char,
	'end': ent.end_char,
	'label': original_label,
	'confidence': getattr(ent, 'score', 1.0) if hasattr(ent, 'score') else 1.0
	})

	return jsonify({
	'entities': entities,
	'total_found': len(entities)
	})

	except Exception as e:
	print(f"GLiNER processing error: {e}")
	return jsonify({'error': f'GLiNER processing failed: {str(e)}'}), 500

	@app.route('/run_gliner_relationships', methods=['POST'])
	def run_gliner_relationships():
	"""
	Run GLiNER relationship extraction on the provided text with specified relationship labels
	"""
	data = request.get_json()
	text = data.get('text', '')
	relationship_labels = data.get('relationship_labels', [])
	entity_labels = data.get('entity_labels', ["person", "organization", "location", "date", "place"])

	if not text:
	return jsonify({'error': 'No text provided'}), 400

	if not relationship_labels:
	return jsonify({'error': 'No relationship labels provided'}), 400

	try:
	# Get GLiNER multitask model
	model = get_or_create_multitask_model()

	if model is None:
	return jsonify({'error': 'Failed to initialize GLiNER multitask model'}), 500

	# First extract entities using the provided entity labels
	print(f"Using entity labels: {entity_labels}")
	entities = model.predict_entities(text, entity_labels, threshold=0.3)
	print(entities)

	# Then extract relationships using the specific format
	formatted_labels = []
	for label in relationship_labels:
	for entity_label in entity_labels:
	formatted_labels.append(f"{entity_label} <> {label}")

	print(f"Formatted relationship labels: {formatted_labels}")

	relation_entities = model.predict_entities(text, formatted_labels, threshold=0.3)

	# Process results into relationship triplets
	relationships = []

	# Group relation entities by their relation type and try to find entity pairs
	for rel_entity in relation_entities:
	print(rel_entity)
	label_parts = rel_entity['label'].split(' <> ')
	if len(label_parts) == 2:
	entity_type, relation_type = label_parts

	# Find potential subject and object entities near this relation
	rel_start = rel_entity['start']
	rel_end = rel_entity['end']

	# Look for entities before and after the relation mention
	subject_candidates = [e for e in entities if e['end'] <= rel_start and abs(e['end'] - rel_start) < 100]
	object_candidates = [e for e in entities if e['start'] >= rel_end and abs(e['start'] - rel_end) < 100]

	# Also look for entities that contain or are contained by the relation text
	overlapping_entities = [e for e in entities if
	(e['start'] <= rel_start and e['end'] >= rel_end) or # entity contains relation
	(rel_start <= e['start'] and rel_end >= e['end']) # relation contains entity
	]

	if subject_candidates and object_candidates:
	# Take the closest entities
	subject = max(subject_candidates, key=lambda x: x['end'])
	object_entity = min(object_candidates, key=lambda x: x['start'])

	relationships.append({
	'subject': subject['text'],
	'subject_start': subject['start'],
	'subject_end': subject['end'],
	'relation_type': relation_type,
	'relation_text': rel_entity['text'],
	'relation_start': rel_entity['start'],
	'relation_end': rel_entity['end'],
	'object': object_entity['text'],
	'object_start': object_entity['start'],
	'object_end': object_entity['end'],
	'confidence': rel_entity['score'],
	'full_text': f"{subject['text']} {relation_type} {object_entity['text']}"
	})
	elif overlapping_entities:
	# Handle cases where the relation text spans or overlaps with entities
	for ent in overlapping_entities:
	relationships.append({
	'subject': ent['text'],
	'subject_start': ent['start'],
	'subject_end': ent['end'],
	'relation_type': relation_type,
	'relation_text': rel_entity['text'],
	'relation_start': rel_entity['start'],
	'relation_end': rel_entity['end'],
	'object': '', # Will be filled by user or further processing
	'object_start': -1,
	'object_end': -1,
	'confidence': rel_entity['score'],
	'full_text': f"{ent['text']} {relation_type} [object]"
	})

	return jsonify({
	'relationships': relationships,
	'total_found': len(relationships)
	})

	except Exception as e:
	print(f"GLiNER relationship processing error: {e}")
	return jsonify({'error': f'GLiNER relationship processing failed: {str(e)}'}), 500

	@app.route('/search_wikidata', methods=['POST'])
	def search_wikidata():
	"""
	Search Wikidata for entities matching the query
	"""
	data = request.get_json()
	query = data.get('query', '').strip()
	limit = data.get('limit', 10)

	if not query:
	return jsonify({'error': 'No query provided'}), 400

	try:
	# Wikidata search API endpoint
	url = 'https://www.wikidata.org/w/api.php'

	params = {
	'action': 'wbsearchentities',
	'search': query,
	'language': 'en',
	'format': 'json',
	'limit': limit,
	'type': 'item'
	}

	headers = {
	'User-Agent': 'AnnotationTool/1.0 (https://github.com/user/annotation-tool) Python/requests'
	}

	response = requests.get(url, params=params, headers=headers, timeout=10)
	response.raise_for_status()

	data = response.json()

	# Extract relevant information
	results = []
	if 'search' in data:
	for item in data['search']:
	result = {
	'id': item.get('id', ''),
	'label': item.get('label', ''),
	'description': item.get('description', ''),
	'url': f"https://www.wikidata.org/wiki/{item.get('id', '')}"
	}
	results.append(result)

	return jsonify({
	'results': results,
	'total': len(results)
	})

	except requests.exceptions.RequestException as e:
	print(f"Wikidata API error: {e}")
	return jsonify({'error': 'Failed to search Wikidata'}), 500
	except Exception as e:
	print(f"Wikidata search error: {e}")
	return jsonify({'error': f'Search failed: {str(e)}'}), 500

	@app.route('/get_wikidata_entity', methods=['POST'])
	def get_wikidata_entity():
	"""
	Get Wikidata entity information by Q-code
	"""
	data = request.get_json()
	qcode = data.get('qcode', '').strip()

	if not qcode:
	return jsonify({'error': 'No Q-code provided'}), 400

	# Ensure Q-code format
	if not qcode.startswith('Q'):
	qcode = 'Q' + qcode.lstrip('Q')

	try:
	# Wikidata entity API endpoint
	url = 'https://www.wikidata.org/w/api.php'

	params = {
	'action': 'wbgetentities',
	'ids': qcode,
	'languages': 'en',
	'format': 'json'
	}

	headers = {
	'User-Agent': 'AnnotationTool/1.0 (https://github.com/user/annotation-tool) Python/requests'
	}

	response = requests.get(url, params=params, headers=headers, timeout=10)
	response.raise_for_status()

	data = response.json()

	if 'entities' in data and qcode in data['entities']:
	entity = data['entities'][qcode]

	if 'missing' in entity:
	return jsonify({'error': f'Entity {qcode} not found'}), 404

	# Extract information
	result = {
	'id': qcode,
	'label': entity.get('labels', {}).get('en', {}).get('value', ''),
	'description': entity.get('descriptions', {}).get('en', {}).get('value', ''),
	'url': f"https://www.wikidata.org/wiki/{qcode}"
	}

	return jsonify({'entity': result})
	else:
	return jsonify({'error': f'Entity {qcode} not found'}), 404

	except requests.exceptions.RequestException as e:
	print(f"Wikidata API error: {e}")
	return jsonify({'error': 'Failed to get Wikidata entity'}), 500
	except Exception as e:
	print(f"Wikidata entity error: {e}")
	return jsonify({'error': f'Request failed: {str(e)}'}), 500

	if __name__ == '__main__':
	import os
	port = int(os.environ.get('PORT', 7860))
	app.run(host='0.0.0.0', port=port, debug=False)