Spaces:

Sodagraph
/

YouTube_Transcript_Extraction

Build error

App Files Files Community

Sodagraph commited on Jul 3

Commit

efb5a4e

1 Parent(s): 7be6cd6

cli버전

Browse files

Files changed (6) hide show

Dockerfile +4 -17
backend/app/__init__.py +1 -0
backend/app/proxy_manager.py +31 -54
backend/app/youtube_parser.py +2 -10
backend/requirements.txt +10 -12
install_ollama.sh +29 -0

Dockerfile CHANGED Viewed

@@ -41,22 +41,9 @@ COPY backend/ ./backend/
 ENV TRANSFORMERS_CACHE="/tmp/hf_cache"
 ENV HF_HOME="/tmp/hf_cache"
-# ✨ Ollama 설치 및 모델 다운로드 단계 제거 ✨
-# 이 부분은 Hugging Face Spaces 환경에서 관리됩니다.
-# RUN curl -fsSL https://ollama.com/install.sh | sh
-# RUN sh -c "ollama serve & \
-#     ATTEMPTS=0; \
-#     while ! curl -s http://localhost:11434 > /dev/null && ATTEMPTS < 30; do \
-#         ATTEMPTS=$((ATTEMPTS+1)); \
-#         echo 'Waiting for Ollama server to start... (Attempt '$ATTEMPTS'/30)'; \
-#         sleep 2; \
-#     done; \
-#     if [ $ATTEMPTS -eq 30 ]; then \
-#         echo 'Ollama server did not start in time. Exiting.'; \
-#         exit 1; \
-#     fi; \
-#     echo 'Ollama server started. Pulling model...'; \
-#     ollama pull hf.co/DevQuasar/naver-hyperclovax.HyperCLOVAX-SEED-Text-Instruct-0.5B-GGUF:F16"
 # 프론트엔드 빌드 결과물을 백엔드 앱이 접근할 수 있는 경로로 복사합니다.
 # /app/static 폴더를 만들고 그 안에 Vue.js 빌드 결과물을 넣습니다.
@@ -72,4 +59,4 @@ EXPOSE 7860
 # 백엔드 main.py의 `OLLAMA_API_BASE_URL` 환경 변수가 `http://127.0.0.1:11434`로 설정되어 있는지 확인하세요.
 # (Hugging Face Spaces에서 Ollama SDK를 사용하면 보통 이 주소로 접근 가능합니다.)
 # 수정: ${PORT:-7860} 대신 7860을 직접 사용하거나, sh -c로 쉘이 환경 변수를 해석하도록 합니다.
-CMD ["sh", "-c", "uvicorn main:app --host 0.0.0.0 --port ${PORT:-7860} --app-dir backend/app"]

 ENV TRANSFORMERS_CACHE="/tmp/hf_cache"
 ENV HF_HOME="/tmp/hf_cache"
+COPY install_ollama.sh /usr/local/bin/
+RUN chmod +x /usr/local/bin/install_ollama.sh
+RUN install_ollama.sh
 # 프론트엔드 빌드 결과물을 백엔드 앱이 접근할 수 있는 경로로 복사합니다.
 # /app/static 폴더를 만들고 그 안에 Vue.js 빌드 결과물을 넣습니다.
 # 백엔드 main.py의 `OLLAMA_API_BASE_URL` 환경 변수가 `http://127.0.0.1:11434`로 설정되어 있는지 확인하세요.
 # (Hugging Face Spaces에서 Ollama SDK를 사용하면 보통 이 주소로 접근 가능합니다.)
 # 수정: ${PORT:-7860} 대신 7860을 직접 사용하거나, sh -c로 쉘이 환경 변수를 해석하도록 합니다.
+CMD ["sh", "-c", "ollama serve & uvicorn main:app --host 0.0.0.0 --port ${PORT:-7860} --app-dir backend/app"]

backend/app/__init__.py CHANGED Viewed

	@@ -0,0 +1 @@


1	+ __version__ = "0.1.0"

backend/app/proxy_manager.py CHANGED Viewed

@@ -1,54 +1,31 @@
-# ./backend/app/proxy_manager.py
-import os
-import requests # requests는 FreeProxy 테스트나 ScrapingBee API 직접 호출 시 유용
-from loguru import logger
-from dotenv import load_dotenv
-# .env 파일에서 환경 변수 로드
-load_dotenv()
-# ScrapingBee API 키 (Proxy Mode를 사용한다면 필요 없을 수 있음)
-SCRAPINGBEE_API_KEY = os.getenv("SCRAPINGBEE_API_KEY")
-# ScrapingBee Proxy Mode 주소 (대시보드에서 확인한 실제 프록시 서버 주소)
-SCRAPINGBEE_PROXY_ADDRESS = os.getenv("SCRAPINGBEE_PROXY_ADDRESS")
-# FreeProxy 라이브러리 (필요하다면 주석 해제)
-# from fp.fp import FreeProxy
-# import asyncio # FreeProxy가 비동기로 동작한다면 필요
-async def get_proxy_url() -> str | None:
-    """
-    현재 설정된 프록시 제공자로부터 프록시 URL을 가져옵니다.
-    나중에 다른 프록시 제공자로 변경 시 이 함수 내부만 수정하면 됩니다.
-    """
-    # ----------------------------------------------------
-    # ScrapingBee Proxy Mode 사용 예시 (추천)
-    # ScrapingBee 대시보드에서 얻은 프록시 주소를 사용합니다.
-    # .env 파일에 SCRAPINGBEE_PROXY_ADDRESS="us.scrapingbee.com:8880" 형태로 설정
-    if SCRAPINGBEE_PROXY_ADDRESS:
-        logger.info(f"ScrapingBee Proxy Mode 프록시 사용 시도: {SCRAPINGBEE_PROXY_ADDRESS}")
-        return SCRAPINGBEE_PROXY_ADDRESS
-    # ----------------------------------------------------
-    # ----------------------------------------------------
-    # FreeProxy 사용 예시 (폴백 또는 다른 선택지)
-    # 위에서 ScrapingBee 프록시를 찾지 못했거나 사용하지 않으려는 경우
-    # 주석을 해제하고 FreeProxy를 사용하도록 설정할 수 있습니다.
-    # try:
-    #     logger.info("FreeProxy를 사용하여 무료 프록시 가져오기 시도...")
-    #     # Hugging Face Spaces 허용 포트 (80, 443, 8080)만 필터링
-    #     proxy_address = FreeProxy(timeout=1, port=[80, 443, 8080], https=True, rand=True).get()
-    #     if proxy_address:
-    #         logger.info(f"FreeProxy 사용: {proxy_address}")
-    #         return proxy_address
-    #     else:
-    #         logger.warning("사용 가능한 FreeProxy를 찾을 수 없습니다.")
-    # except Exception as e:
-    #     logger.warning(f"FreeProxy 가져오기 실패: {e}")
-    # ----------------------------------------------------
-    # 어떤 프록시도 설정되지 않았거나 가져오지 못한 경우
-    logger.warning("어떤 유효한 프록시도 구성되거나 가져올 수 없습니다. 프록시 없이 진행합니다.")
-    return None

+import random
+import asyncio
+class ProxyManager:
+    def __init__(self, proxies):
+        if not proxies:
+            raise ValueError("Proxy list cannot be empty")
+        self.proxies = proxies
+    async def get_proxy_url(self):
+        """
+        Get a random proxy URL from the list.
+        """
+        if not self.proxies:
+            return None
+        return random.choice(self.proxies)
+# Example proxy list (replace with your actual proxies)
+# It's recommended to use environment variables to store proxies
+# For example: proxies = os.getenv("HTTP_PROXIES", "").split(",")
+proxies = [
+    "http://user:pass@host1:port",
+    "http://user:pass@host2:port",
+    "http://user:pass@host3:port",
+]
+proxy_manager = ProxyManager(proxies)
+# For backward compatibility, if needed
+async def get_proxy_url():
+    return await proxy_manager.get_proxy_url()

backend/app/youtube_parser.py CHANGED Viewed

@@ -10,7 +10,7 @@ from urllib.parse import urlparse, parse_qs
 from loguru import logger
 from yt_dlp import YoutubeDL
-from proxy_manager import get_proxy_url
 from dotenv import load_dotenv
 # 환경 변수 로드 (코드의 가장 위에 위치)
@@ -71,8 +71,6 @@ async def get_transcript_with_timestamps(video_id: str) -> list[dict] | None:
     logger.info(f"비디오 ID '{video_id}'에 대한 자막 가져오기 시도.")
     processed_chunks = []
-    proxy_address = await get_proxy_url()
     # yt-dlp 옵션 설정
     ydl_opts = {
         'writesubtitles': True,          # 사용자가 업로드한 수동 자막 파일 쓰기 활성화
@@ -85,14 +83,8 @@ async def get_transcript_with_timestamps(video_id: str) -> list[dict] | None:
         'extractor_args': {              # 특정 extractor (예: 유튜브)에 대한 추가 인자
             'youtube': {'skip': ['dash']} # dash manifest 관련 오류 회피 시도 (유튜브 관련)
         }
-        # 프록시가 필요한 경우, 'proxy': 'http://your.proxy.com:port' 형태로 여기에 추가됩니다.
     }
-    if proxy_address:
-        ydl_opts['proxy'] = proxy_address
-        logger.info(f"yt-dlp에 프록시 적용: {proxy_address}")
-    else:
-        logger.info("yt-dlp에 프록시가 적용되지 않았습니다.")
     temp_dir = "./temp_captions"
     os.makedirs(temp_dir, exist_ok=True)

 from loguru import logger
 from yt_dlp import YoutubeDL
+from proxy_manager import proxy_manager
 from dotenv import load_dotenv
 # 환경 변수 로드 (코드의 가장 위에 위치)
     logger.info(f"비디오 ID '{video_id}'에 대한 자막 가져오기 시도.")
     processed_chunks = []
     # yt-dlp 옵션 설정
     ydl_opts = {
         'writesubtitles': True,          # 사용자가 업로드한 수동 자막 파일 쓰기 활성화
         'extractor_args': {              # 특정 extractor (예: 유튜브)에 대한 추가 인자
             'youtube': {'skip': ['dash']} # dash manifest 관련 오류 회피 시도 (유튜브 관련)
         }
     }
+    logger.info("yt-dlp에 프록시가 적용되지 않았습니다.")
     temp_dir = "./temp_captions"
     os.makedirs(temp_dir, exist_ok=True)

backend/requirements.txt CHANGED Viewed

@@ -1,12 +1,10 @@
-fastapi==0.111.0
-uvicorn==0.30.1
-yt-dlp==2025.6.9
-loguru==0.7.3
-python-dotenv==1.0.1
-requests==2.32.3
-sentence-transformers==3.2.1
-faiss-cpu==1.9.0
-numpy==1.26.4
-pydantic==2.9.2
-torch==2.6.0
-httpx

+youtube-transcript-api
+requests
+fastapi
+uvicorn
+httpx
+loguru
+yt-dlp
+python-dotenv
+sentence-transformers
+faiss-cpu

install_ollama.sh ADDED Viewed

	@@ -0,0 +1,29 @@

+#!/bin/bash
+set -e
+# Install Ollama
+curl -fsSL https://ollama.com/install.sh | sh
+# Start Ollama server in the background
+ollama serve &
+# Wait for Ollama server to start
+ATTEMPTS=0
+while ! curl -s http://localhost:11434 > /dev/null && [ $ATTEMPTS -lt 30 ]; do
+    ATTEMPTS=$((ATTEMPTS+1))
+    echo "Waiting for Ollama server to start... (Attempt $ATTEMPTS/30)"
+    sleep 2
+done
+if [ $ATTEMPTS -eq 30 ]; then
+    echo "Ollama server did not start in time. Exiting."
+    exit 1
+fi
+echo "Ollama server started. Pulling model..."
+# Pull the model
+ollama pull hf.co/DevQuasar/naver-hyperclovax.HyperCLOVAX-SEED-Text-Instruct-0.5B-GGUF:F16
+echo "Model pull complete."