Spaces:

820nam
/

Test

Sleeping

App Files Files Community

Test / app.py

820nam

Update app.py

80a6db2 verified 9 months ago

raw

history blame

7.73 kB

	import streamlit as st
	import requests
	import matplotlib.pyplot as plt
	import seaborn as sns
	from transformers import pipeline
	import openai
	import os
	from sklearn.feature_extraction.text import TfidfVectorizer
	from sklearn.linear_model import LogisticRegression
	from sklearn.model_selection import train_test_split
	from sklearn.metrics import accuracy_score
	import joblib

	# Streamlit 페이지 설정을 가장 먼저 호출
	st.set_page_config(page_title="정치적 관점 분석", page_icon="📰", layout="wide")

	# OpenAI API 키 설정 (환경변수에서 가져오는 방법)
	openai.api_key = os.getenv("OPENAI_API_KEY")

	# 한글 폰트 설정 (Streamlit에서 적용하기 위해 CSS 추가)
	st.markdown(
	"""
	<style>
	body {
	font-family: 'Nanum Gothic', sans-serif;
	}
	</style>
	""",
	unsafe_allow_html=True
	)

	# matplotlib 한글 폰트 설정
	import matplotlib
	matplotlib.rcParams['font.family'] = 'NanumGothic' # 한글 폰트를 설정합니다.
	matplotlib.rcParams['axes.unicode_minus'] = False # 마이너스 기호 깨짐 방지

	# 네이버 뉴스 API를 통해 실제 뉴스 기사 가져오기
	def fetch_naver_news(query, display=5):
	client_id = "I_8koTJh3R5l4wLurQbG" # 네이버 개발자 센터에서 발급받은 Client ID
	client_secret = "W5oWYlAgur" # 네이버 개발자 센터에서 발급받은 Client Secret

	url = "https://openapi.naver.com/v1/search/news.json"
	headers = {
	"X-Naver-Client-Id": client_id,
	"X-Naver-Client-Secret": client_secret,
	}
	params = {
	"query": query,
	"display": display,
	"start": 1,
	"sort": "date", # 최신순으로 정렬
	}

	response = requests.get(url, headers=headers, params=params)
	if response.status_code == 200:
	news_data = response.json()
	return news_data['items'] # 뉴스 기사 리스트 반환
	else:
	st.error("뉴스 데이터를 불러오는 데 실패했습니다.")
	return []

	# 머신러닝 모델 로드 및 학습
	def train_ml_model():
	# 여기서는 샘플 데이터를 사용하여 학습
	# 실제 데이터를 이용한 학습 과정이 필요합니다.
	data = [
	("진보적인 정부 정책을 강화해야 한다", "LEFT"),
	("보수적인 경제 정책이 필요하다", "RIGHT"),
	("중립적인 입장에서 상황을 평가한다", "NEUTRAL")
	]
	texts, labels = zip(*data)

	# TF-IDF 벡터화
	vectorizer = TfidfVectorizer(max_features=1000)
	X = vectorizer.fit_transform(texts)
	y = labels

	# 훈련 및 테스트 데이터 나누기
	X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

	# 로지스틱 회귀 모델 학습
	model = LogisticRegression()
	model.fit(X_train, y_train)

	# 모델 성능 평가
	y_pred = model.predict(X_test)
	accuracy = accuracy_score(y_test, y_pred)
	st.write(f"모델 정확도: {accuracy:.2f}")

	# 모델 저장
	joblib.dump(model, 'political_bias_model.pkl')
	joblib.dump(vectorizer, 'tfidf_vectorizer.pkl')

	return model, vectorizer

	# 로드된 머신러닝 모델로 성향 분석
	def analyze_article_sentiment_ml(text, model, vectorizer):
	X = vectorizer.transform([text])
	prediction = model.predict(X)[0]

	# 성향에 따른 레이블 반환
	if prediction == "LEFT":
	return "진보"
	elif prediction == "RIGHT":
	return "보수"
	else:
	return "중립"

	# GPT-4를 이용해 반대 관점 기사 생성
	def generate_article_gpt4(prompt):
	try:
	# GPT-4 모델을 이용해 반대 관점 기사를 생성
	response = openai.ChatCompletion.create(
	model="gpt-4", # GPT-4 모델을 사용
	messages=[
	{"role": "system", "content": "You are a helpful assistant that generates articles."},
	{"role": "user", "content": prompt} # 사용자가 제공한 프롬프트
	],
	max_tokens=1024, # 글자 수 제한 해제 (최대 1024 토큰)
	temperature=0.7 # 창의성 정도
	)
	return response['choices'][0]['message']['content'] # GPT의 응답 텍스트 반환
	except Exception as e:
	return f"Error generating text: {e}"

	# 정치적 관점 비교 및 반대 관점 생성
	def analyze_news_political_viewpoint(query, model, vectorizer):
	# 뉴스 데이터 가져오기
	news_items = fetch_naver_news(query)
	if not news_items:
	return [], {}

	results = []
	sentiment_counts = {"진보": 0, "보수": 0, "중립": 0} # 매핑된 라벨에 맞게 초기화

	for item in news_items:
	title = item["title"]
	description = item["description"]
	link = item["link"] # 뉴스 링크 가져오기
	combined_text = f"{title}. {description}"

	# 머신러닝 모델을 이용한 성향 분석
	sentiment = analyze_article_sentiment_ml(combined_text, model, vectorizer)
	sentiment_counts[sentiment] += 1 # 매핑된 키로 카운트 증가

	# 반대 관점 기사 생성
	opposite_perspective = "보수적" if sentiment == "진보" else "진보적"
	prompt = f"{combined_text}를 기반으로 {opposite_perspective} 관점의 기사를 작성해주세요."
	opposite_article = generate_article_gpt4(prompt)

	results.append({
	"제목": title,
	"원본 기사": description,
	"성향": sentiment,
	"대조 관점 기사": opposite_article,
	"뉴스 링크": link # 링크 추가
	})

	return results, sentiment_counts

	# 성향 분포 시각화 (막대 그래프)
	def visualize_sentiment_distribution(sentiment_counts):
	fig, ax = plt.subplots(figsize=(8, 5))
	labels = list(sentiment_counts.keys())
	sizes = list(sentiment_counts.values())

	# 색상 설정 (부드러운 팔레트)
	color_palette = sns.color_palette("pastel")[0:len(sizes)]

	ax.bar(labels, sizes, color=color_palette)
	ax.set_xlabel('성향', fontsize=14)
	ax.set_ylabel('건수', fontsize=14)
	ax.set_title('뉴스 성향 분포', fontsize=16)
	st.pyplot(fig)

	# Streamlit 애플리케이션
	st.title("📰 정치적 관점 비교 분석 도구")
	st.markdown("뉴스 기사의 정치 성향 분석과 반대 관점 기사를 생성하여 비교합니다.")

	# 머신러닝 모델 로드
	if not os.path.exists('political_bias_model.pkl'):
	model, vectorizer = train_ml_model()
	else:
	model = joblib.load('political_bias_model.pkl')
	vectorizer = joblib.load('tfidf_vectorizer.pkl')

	# 사용자로부터 검색어 입력 받기
	query = st.text_input("검색 키워드를 입력하세요", value="정치")

	# 분석 시작 버튼
	if st.button("🔍 분석 시작"):
	with st.spinner("분석 중..."):
	analysis_results, sentiment_counts = analyze_news_political_viewpoint(query, model, vectorizer)

	if analysis_results:
	st.success("뉴스 분석이 완료되었습니다.")

	# 뉴스 기사 목록 표시
	for result in analysis_results:
	st.subheader(result["제목"])
	st.write(f"성향: {result['성향']}")
	st.write(f"기사: {result['원본 기사']}")
	st.write(f"[원본 기사 보기]({result['뉴스 링크']})")
	st.write(f"대조 관점 기사: {result['대조 관점 기사']}")
	st.markdown("---")

	# 성향 분포 시각화
	visualize_sentiment_distribution(sentiment_counts)
	else:
	st.warning("검색된 뉴스가 없습니다.")