Spaces:

doropiza
/

extractive_summary

Sleeping

App Files Files Community

doropiza commited on Jun 4

Commit

4ef51a5

1 Parent(s): f947c80

v2

Browse files

Files changed (2) hide show

app.py +321 -34
requirements.txt +40 -5

app.py CHANGED Viewed

@@ -1,42 +1,329 @@
-import os
 import gradio as gr
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline
-# モデル名またはローカルに保存したモデルのパスを指定
-MODEL_NAME = "google/pegasus-xsum"
-HUGGINGFACE_TOKEN = os.getenv("HUGGINGFACE_TOKEN")
-# トークナイザーとモデルのロード
-print("Loading tokenizer and model...")
-tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, token=HUGGINGFACE_TOKEN)
-model = AutoModelForSeq2SeqLM.from_pretrained(MODEL_NAME, token=HUGGINGFACE_TOKEN)
-# 要約パイプラインの作成
-summarizer = pipeline(
-    task="summarization",
-    model=model,
-    tokenizer=tokenizer,
-    device=-1  # GPU を使いたい場合は device=0 に変更
-)
-# 要約関数
-def summarize_text(text: str) -> str:
-    # 長いテキストを要約
-    result = summarizer(
-        text,
-        # max_length=150,  # 要約後の最大トークン長
-        min_length=30,   # 要約後の最小トークン長
-        do_sample=False  # ビームサーチによる決定的要約
-    )
-    return result[0]["summary_text"]
-# Gradio インターフェースの構築
-interface = gr.Interface(
-    fn=summarize_text,
-    inputs=gr.Textbox(lines=10, placeholder="要約したいテキストを入力してください..."),
-    outputs=gr.Textbox(lines=5, label="要約結果"),
-    title="ローカルLLM 要約",
-    description="Transformers ベースの要約モデル。"
-)
 if __name__ == "__main__":
-    interface.launch(share=False)  # share=True にすると外部公開用リンクを生成します

 import gradio as gr
+import torch
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline
+import PyPDF2
+import requests
+from bs4 import BeautifulSoup
+import re
+import warnings
+warnings.filterwarnings("ignore")
+class TextSummarizer:
+    def __init__(self):
+        # GPUが利用可能かチェック
+        self.device = "cuda" if torch.cuda.is_available() else "cpu"
+        print(f"使用デバイス: {self.device}")
+        # 日本語対応の要約モデルを初期化
+        # 軽量で高性能なモデルを使用
+        model_name = "facebook/bart-large-cnn"  # 英語用
+        # 日本語の場合は "rinna/japanese-gpt2-medium" や "cyberagent/open-calm-7b" などを検討
+        try:
+            self.tokenizer = AutoTokenizer.from_pretrained(model_name)
+            self.model = AutoModelForSeq2SeqLM.from_pretrained(model_name).to(self.device)
+            self.summarizer = pipeline(
+                "summarization",
+                model=self.model,
+                tokenizer=self.tokenizer,
+                device=0 if self.device == "cuda" else -1
+            )
+            print("モデルの読み込みが完了しました")
+        except Exception as e:
+            print(f"モデル読み込みエラー: {e}")
+            # フォールバック用の軽量モデル
+            self.summarizer = pipeline("summarization", device=0 if self.device == "cuda" else -1)
+    def clean_text(self, text):
+        """テキストの前処理"""
+        # 不要な文字や改行を整理
+        text = re.sub(r'\n+', '\n', text)
+        text = re.sub(r'\s+', ' ', text)
+        text = text.strip()
+        return text
+    def chunk_text(self, text, max_length=1000):
+        """長いテキストをチャンクに分割"""
+        sentences = text.split('.')
+        chunks = []
+        current_chunk = ""
+        for sentence in sentences:
+            if len(current_chunk + sentence) < max_length:
+                current_chunk += sentence + "."
+            else:
+                if current_chunk:
+                    chunks.append(current_chunk.strip())
+                current_chunk = sentence + "."
+        if current_chunk:
+            chunks.append(current_chunk.strip())
+        return chunks
+    def summarize_text(self, text, max_length=150, min_length=50):
+        """テキストを要約"""
+        try:
+            cleaned_text = self.clean_text(text)
+            if len(cleaned_text) < 100:
+                return "テキストが短すぎるため、要約できません。"
+            # テキストが長い場合はチャンクに分割
+            if len(cleaned_text) > 1000:
+                chunks = self.chunk_text(cleaned_text)
+                summaries = []
+                for chunk in chunks:
+                    try:
+                        result = self.summarizer(
+                            chunk,
+                            max_length=max_length,
+                            min_length=min_length,
+                            do_sample=False
+                        )
+                        summaries.append(result[0]['summary_text'])
+                    except Exception as e:
+                        print(f"チャンク要約エラー: {e}")
+                        continue
+                # チャンクの要約を統合
+                combined_summary = " ".join(summaries)
+                if len(combined_summary) > max_length * 2:
+                    # 再度要約
+                    final_result = self.summarizer(
+                        combined_summary,
+                        max_length=max_length,
+                        min_length=min_length,
+                        do_sample=False
+                    )
+                    return final_result[0]['summary_text']
+                else:
+                    return combined_summary
+            else:
+                result = self.summarizer(
+                    cleaned_text,
+                    max_length=max_length,
+                    min_length=min_length,
+                    do_sample=False
+                )
+                return result[0]['summary_text']
+        except Exception as e:
+            return f"要約処理でエラーが発生しました: {str(e)}"
+    def structure_summary(self, summary_text):
+        """要約を構造化"""
+        # 簡単な構造化ロジック（実際のプロジェクトではより高度な処理が��要）
+        sentences = summary_text.split('.')
+        structured_output = "## 📋 要約結果\n\n"
+        if len(sentences) >= 3:
+            structured_output += "### 🎯 主要ポイント\n"
+            structured_output += f"- {sentences[0].strip()}\n\n"
+            structured_output += "### 📊 詳細内容\n"
+            for i, sentence in enumerate(sentences[1:-1], 1):
+                if sentence.strip():
+                    structured_output += f"{i}. {sentence.strip()}\n"
+            if sentences[-1].strip():
+                structured_output += f"\n### 💡 結論\n"
+                structured_output += f"- {sentences[-1].strip()}\n"
+        else:
+            structured_output += f"### 📄 要約内容\n{summary_text}\n"
+        return structured_output
+    def extract_text_from_pdf(self, pdf_file):
+        """PDFからテキストを抽出"""
+        try:
+            reader = PyPDF2.PdfReader(pdf_file)
+            text = ""
+            for page in reader.pages:
+                text += page.extract_text() + "\n"
+            return text
+        except Exception as e:
+            return f"PDFの読み込みでエラーが発生しました: {str(e)}"
+    def extract_text_from_url(self, url):
+        """Webサイトからテキストを抽出"""
+        try:
+            headers = {
+                'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
+            }
+            response = requests.get(url, headers=headers, timeout=10)
+            response.encoding = response.apparent_encoding
+            soup = BeautifulSoup(response.text, 'html.parser')
+            # 不要なタグを削除
+            for tag in soup(['script', 'style', 'nav', 'header', 'footer']):
+                tag.decompose()
+            # テキストを抽出
+            text = soup.get_text()
+            return self.clean_text(text)
+        except Exception as e:
+            return f"Webサイトの読み込みでエラーが発生しました: {str(e)}"
+# グローバルインスタンス
+summarizer = TextSummarizer()
+def process_text_input(text, max_length, min_length):
+    """テキスト入力の処理"""
+    if not text.strip():
+        return "テキストを入力してください。"
+    summary = summarizer.summarize_text(text, max_length, min_length)
+    return summarizer.structure_summary(summary)
+def process_pdf_input(pdf_file, max_length, min_length):
+    """PDF入力の処理"""
+    if pdf_file is None:
+        return "PDFファイルを選択してください。"
+    text = summarizer.extract_text_from_pdf(pdf_file)
+    if text.startswith("PDFの読み込みで"):
+        return text
+    summary = summarizer.summarize_text(text, max_length, min_length)
+    return summarizer.structure_summary(summary)
+def process_url_input(url, max_length, min_length):
+    """URL入力の処理"""
+    if not url.strip():
+        return "URLを入力してください。"
+    if not url.startswith(('http://', 'https://')):
+        url = 'https://' + url
+    text = summarizer.extract_text_from_url(url)
+    if text.startswith("Webサイトの読み込みで"):
+        return text
+    summary = summarizer.summarize_text(text, max_length, min_length)
+    return summarizer.structure_summary(summary)
+# Gradioインターフェース作成
+def create_interface():
+    with gr.Blocks(title="🤖 ローカルLLM テキスト要約ツール", theme=gr.themes.Soft()) as app:
+        gr.Markdown("""
+        # 🤖 ローカルLLM テキスト要約ツール
+        このツールは、ローカルで動作するLLMを使用してテキストを要約し、構造化された形式で出力します。
+        ## 📝 対応入力形式
+        - **テキスト直接入力**
+        - **PDFファイル**
+        - **Webサイト URL**
+        """)
+        # 要約設定
+        with gr.Row():
+            max_length = gr.Slider(
+                minimum=50, maximum=500, value=150, step=10,
+                label="最大要約長", info="要約の最大文字数"
+            )
+            min_length = gr.Slider(
+                minimum=20, maximum=200, value=50, step=10,
+                label="最小要約長", info="要約の最小文字数"
+            )
+        # タブインターフェース
+        with gr.Tabs():
+            # テキスト入力タブ
+            with gr.TabItem("📝 テキスト入力"):
+                with gr.Row():
+                    with gr.Column():
+                        text_input = gr.Textbox(
+                            lines=10,
+                            placeholder="要約したいテキストを入力してください...",
+                            label="入力テキスト"
+                        )
+                        text_btn = gr.Button("🔍 要約実行", variant="primary")
+                    with gr.Column():
+                        text_output = gr.Markdown(label="要約結果")
+                text_btn.click(
+                    process_text_input,
+                    inputs=[text_input, max_length, min_length],
+                    outputs=text_output
+                )
+            # PDF入力タブ
+            with gr.TabItem("📄 PDF入力"):
+                with gr.Row():
+                    with gr.Column():
+                        pdf_input = gr.File(
+                            file_types=[".pdf"],
+                            label="PDFファイルを選択"
+                        )
+                        pdf_btn = gr.Button("🔍 PDF要約実行", variant="primary")
+                    with gr.Column():
+                        pdf_output = gr.Markdown(label="要約結果")
+                pdf_btn.click(
+                    process_pdf_input,
+                    inputs=[pdf_input, max_length, min_length],
+                    outputs=pdf_output
+                )
+            # URL入力タブ
+            with gr.TabItem("🌐 Website URL"):
+                with gr.Row():
+                    with gr.Column():
+                        url_input = gr.Textbox(
+                            placeholder="https://example.com",
+                            label="ウェブサイトURL"
+                        )
+                        url_btn = gr.Button("🔍 Web要約実行", variant="primary")
+                    with gr.Column():
+                        url_output = gr.Markdown(label="要約結果")
+                url_btn.click(
+                    process_url_input,
+                    inputs=[url_input, max_length, min_length],
+                    outputs=url_output
+                )
+        # 使用方法
+        gr.Markdown("""
+        ## 🔧 使用方法
+        1. **要約設定**: 最大・最小要約長を調整
+        2. **入力方法選択**: テキスト直接入力、PDFアップロード、URL入力から選択
+        3. **実行**: 対応する実行ボタンをクリック
+        4. **結果確認**: 構造化された要約結果を確認
+        ## ⚙️ 技術仕様
+        - **モデル**: Facebook BART (ローカル実行)
+        - **GPU加速**: CUDA対応
+        - **出力形式**: 構造化Markdown
+        """)
+    return app
 if __name__ == "__main__":
+    # 必要なライブラリのインストールメッセージ
+    print("""
+    必要なライブラリをインストールしてください:
+    pip install torch transformers gradio PyPDF2 requests beautifulsoup4
+    GPU使用の場合は適切なPyTorchバージョンをインストールしてください。
+    """)
+    # アプリケーション起動
+    app = create_interface()
+    app.launch(
+        server_name="0.0.0.0",  # 外部アクセス許可
+        server_port=7860,
+        share=True,  # パブリックURL生成
+        debug=True
+    )

requirements.txt CHANGED Viewed

@@ -1,5 +1,40 @@
-torch
-torchvision
-torchaudio
-transformers
-gradio

+# Core ML Libraries
+torch>=2.0.0
+transformers>=4.30.0
+tokenizers>=0.13.0
+# Web Interface
+gradio>=3.35.0
+# PDF Processing
+PyPDF2>=3.0.0
+# Web Scraping
+requests>=2.31.0
+beautifulsoup4>=4.12.0
+# Data Processing
+numpy>=1.24.0
+pandas>=2.0.0
+# Text Processing
+nltk>=3.8.0
+regex>=2023.6.3
+# Optional: Japanese Text Processing
+# fugashi>=1.3.0
+# unidic-lite>=1.0.8
+# mecab-python3>=1.0.6
+# Optional: GPU Support (uncomment if using CUDA)
+# torch-audio>=2.0.0+cu118 --extra-index-url https://download.pytorch.org/whl/cu118
+# torchvision>=0.15.0+cu118 --extra-index-url https://download.pytorch.org/whl/cu118
+# Development Tools (optional)
+# jupyter>=1.0.0
+# matplotlib>=3.7.0
+# seaborn>=0.12.0
+# Security
+certifi>=2023.5.7
+urllib3>=2.0.3