Spaces:

Gatescrispy
/

phytoai-assistant

Running

TANTCHEU Noussi Cédric

Initial space upload: Interactive PhytoAI Assistant

7603b2e 9 days ago

8.82 kB

	import streamlit as st
	import json
	import pandas as pd
	from huggingface_hub import hf_hub_download
	import plotly.express as px

	st.set_page_config(
	page_title="PhytoAI Assistant",
	page_icon="🌿",
	layout="wide"
	)

	@st.cache_data
	def load_phytoai_data():
	"""Load PhytoAI data from HF dataset"""
	try:
	dataset_path = hf_hub_download(
	repo_id="Gatescrispy/phytoai-mega-dataset",
	filename="mega_final_dataset.json",
	repo_type="dataset"
	)
	with open(dataset_path, 'r') as f:
	return json.load(f)
	except Exception as e:
	st.error(f"Data loading error: {e}")
	return None

	def main():
	st.title("🌿 PhytoAI Assistant")
	st.markdown("### AI Assistant for Phytotherapy Research")
	st.markdown("---")

	# Load data
	with st.spinner("Loading PhytoAI data..."):
	data = load_phytoai_data()

	if data is None:
	st.error("❌ Unable to load PhytoAI data")
	st.info("The dataset will be available once uploaded to Hugging Face")

	# Demo data
	st.subheader("📊 PhytoAI Dataset Preview")
	st.write("Dataset content:")
	st.write("• 352 unique natural compounds")
	st.write("• 1,314 documented bioactivities")
	st.write("• Sources: PubChem, ChEMBL, scientific literature")

	return

	# Search interface
	st.sidebar.header("🔍 Compound Search")

	search_type = st.sidebar.selectbox(
	"Search type:",
	["Compound name", "Therapeutic activity"]
	)

	if search_type == "Compound name":
	compound_search = st.sidebar.text_input(
	"Compound name",
	placeholder="curcumin, resveratrol, quercetin..."
	)

	if compound_search:
	search_compounds_by_name(data, compound_search)

	elif search_type == "Therapeutic activity":
	activity_search = st.sidebar.selectbox(
	"Select an activity:",
	["", "anti-inflammatory", "antioxidant", "cardiovascular",
	"neuroprotective", "anti-cancer", "antimicrobial"]
	)

	if activity_search:
	search_by_therapeutic_activity(data, activity_search)

	# Main statistics
	display_main_statistics(data)

	# Visualizations
	create_visualizations(data)

	# Footer
	st.markdown("---")
	st.markdown("🌿 PhytoAI - AI Assistant for Phytotherapy Research")
	st.markdown("📊 [PhytoAI Dataset](https://huggingface.co/datasets/Gatescrispy/phytoai-mega-dataset) \| 🔬 Research & Development")

	def search_compounds_by_name(data, search_term):
	"""Search by compound name"""
	st.subheader(f"🔍 Results for '{search_term}'")

	results = []
	for compound_id, compound_data in data.items():
	compound_name = compound_data.get('compound_name', '').lower()
	if search_term.lower() in compound_name:
	results.append((compound_id, compound_data))

	if results:
	for compound_id, compound_data in results[:5]:
	with st.expander(f"🧬 {compound_data.get('compound_name', 'Unknown compound')}"):
	col1, col2 = st.columns(2)

	with col1:
	st.write("Molecular Properties:")
	st.write(f"• Formula: `{compound_data.get('molecular_formula', 'N/A')}`")
	st.write(f"• SMILES: `{compound_data.get('smiles', 'N/A')}`")
	st.write(f"• PubChem CID: `{compound_data.get('pubchem_cid', 'N/A')}`")

	with col2:
	st.write("Bioactivities:")
	bioactivities = compound_data.get('bioactivities', [])
	for i, activity in enumerate(bioactivities[:5]):
	st.write(f"• {activity.get('activity_type', 'N/A')}")
	if i >= 4 and len(bioactivities) > 5:
	st.write(f"... and {len(bioactivities) - 5} others")
	break
	else:
	st.info("No compounds found for this search")

	def search_by_therapeutic_activity(data, activity_type):
	"""Search by therapeutic activity"""
	st.subheader(f"🎯 Compounds with activity: {activity_type}")

	matching_compounds = []
	for compound_id, compound_data in data.items():
	bioactivities = compound_data.get('bioactivities', [])
	for activity in bioactivities:
	if activity_type.lower() in activity.get('activity_type', '').lower():
	matching_compounds.append({
	'Compound': compound_data.get('compound_name', 'N/A'),
	'Formula': compound_data.get('molecular_formula', 'N/A'),
	'Activity': activity.get('activity_type', 'N/A'),
	'CID': compound_data.get('pubchem_cid', 'N/A')
	})
	break

	if matching_compounds:
	df = pd.DataFrame(matching_compounds)
	st.dataframe(df, use_container_width=True)
	st.info(f"📊 {len(matching_compounds)} compounds found with this activity")
	else:
	st.warning("No compounds found for this activity")

	def display_main_statistics(data):
	"""Display main statistics"""
	st.header("📈 PhytoAI Dataset Statistics")

	col1, col2, col3, col4 = st.columns(4)

	with col1:
	st.metric("🧬 Total compounds", len(data))

	with col2:
	total_bioactivities = sum(len(comp.get('bioactivities', [])) for comp in data.values())
	st.metric("🔬 Total bioactivities", f"{total_bioactivities:,}")

	with col3:
	therapeutic_areas = set()
	for compound_data in data.values():
	for activity in compound_data.get('bioactivities', []):
	activity_type = activity.get('activity_type', '').lower()
	if any(term in activity_type for term in ['anti-inflammatory', 'antioxidant', 'cardiovascular', 'neuroprotective', 'anti-cancer', 'antimicrobial']):
	therapeutic_areas.add(activity_type.split()[0] if activity_type else 'unknown')
	st.metric("🎯 Therapeutic areas", len(therapeutic_areas))

	with col4:
	compounds_with_pubchem = sum(1 for comp in data.values() if comp.get('pubchem_cid'))
	coverage = (compounds_with_pubchem / len(data)) * 100
	st.metric("📊 PubChem coverage", f"{coverage:.1f}%")

	def create_visualizations(data):
	"""Create interactive visualizations"""
	st.header("📊 Interactive Visualizations")

	# Therapeutic activity analysis
	activity_counts = {}
	for compound_data in data.values():
	for activity in compound_data.get('bioactivities', []):
	activity_type = activity.get('activity_type', '').lower()
	# Categorize activities
	if 'anti-inflammatory' in activity_type:
	activity_counts['Anti-inflammatory'] = activity_counts.get('Anti-inflammatory', 0) + 1
	elif 'antioxidant' in activity_type:
	activity_counts['Antioxidant'] = activity_counts.get('Antioxidant', 0) + 1
	elif 'cardiovascular' in activity_type:
	activity_counts['Cardiovascular'] = activity_counts.get('Cardiovascular', 0) + 1
	elif 'neuroprotective' in activity_type:
	activity_counts['Neuroprotective'] = activity_counts.get('Neuroprotective', 0) + 1
	elif 'anti-cancer' in activity_type or 'anticancer' in activity_type:
	activity_counts['Anti-cancer'] = activity_counts.get('Anti-cancer', 0) + 1
	elif 'antimicrobial' in activity_type:
	activity_counts['Antimicrobial'] = activity_counts.get('Antimicrobial', 0) + 1

	if activity_counts:
	col1, col2 = st.columns(2)

	with col1:
	# Bar chart
	fig_bar = px.bar(
	x=list(activity_counts.keys()),
	y=list(activity_counts.values()),
	title="Distribution of Therapeutic Activities",
	labels={'x': 'Activity Type', 'y': 'Number of Compounds'},
	color=list(activity_counts.values()),
	color_continuous_scale="Viridis"
	)
	fig_bar.update_layout(showlegend=False)
	st.plotly_chart(fig_bar, use_container_width=True)

	with col2:
	# Pie chart
	fig_pie = px.pie(
	values=list(activity_counts.values()),
	names=list(activity_counts.keys()),
	title="Therapeutic Areas Distribution"
	)
	st.plotly_chart(fig_pie, use_container_width=True)

	if __name__ == "__main__":
	main()