Spaces:
Build error
Build error
cli버전
Browse files- Dockerfile +4 -17
- backend/app/__init__.py +1 -0
- backend/app/proxy_manager.py +31 -54
- backend/app/youtube_parser.py +2 -10
- backend/requirements.txt +10 -12
- install_ollama.sh +29 -0
Dockerfile
CHANGED
@@ -41,22 +41,9 @@ COPY backend/ ./backend/
|
|
41 |
ENV TRANSFORMERS_CACHE="/tmp/hf_cache"
|
42 |
ENV HF_HOME="/tmp/hf_cache"
|
43 |
|
44 |
-
|
45 |
-
|
46 |
-
|
47 |
-
# RUN sh -c "ollama serve & \
|
48 |
-
# ATTEMPTS=0; \
|
49 |
-
# while ! curl -s http://localhost:11434 > /dev/null && ATTEMPTS < 30; do \
|
50 |
-
# ATTEMPTS=$((ATTEMPTS+1)); \
|
51 |
-
# echo 'Waiting for Ollama server to start... (Attempt '$ATTEMPTS'/30)'; \
|
52 |
-
# sleep 2; \
|
53 |
-
# done; \
|
54 |
-
# if [ $ATTEMPTS -eq 30 ]; then \
|
55 |
-
# echo 'Ollama server did not start in time. Exiting.'; \
|
56 |
-
# exit 1; \
|
57 |
-
# fi; \
|
58 |
-
# echo 'Ollama server started. Pulling model...'; \
|
59 |
-
# ollama pull hf.co/DevQuasar/naver-hyperclovax.HyperCLOVAX-SEED-Text-Instruct-0.5B-GGUF:F16"
|
60 |
|
61 |
# 프론트엔드 빌드 결과물을 백엔드 앱이 접근할 수 있는 경로로 복사합니다.
|
62 |
# /app/static 폴더를 만들고 그 안에 Vue.js 빌드 결과물을 넣습니다.
|
@@ -72,4 +59,4 @@ EXPOSE 7860
|
|
72 |
# 백엔드 main.py의 `OLLAMA_API_BASE_URL` 환경 변수가 `http://127.0.0.1:11434`로 설정되어 있는지 확인하세요.
|
73 |
# (Hugging Face Spaces에서 Ollama SDK를 사용하면 보통 이 주소로 접근 가능합니다.)
|
74 |
# 수정: ${PORT:-7860} 대신 7860을 직접 사용하거나, sh -c로 쉘이 환경 변수를 해석하도록 합니다.
|
75 |
-
CMD ["sh", "-c", "uvicorn main:app --host 0.0.0.0 --port ${PORT:-7860} --app-dir backend/app"]
|
|
|
41 |
ENV TRANSFORMERS_CACHE="/tmp/hf_cache"
|
42 |
ENV HF_HOME="/tmp/hf_cache"
|
43 |
|
44 |
+
COPY install_ollama.sh /usr/local/bin/
|
45 |
+
RUN chmod +x /usr/local/bin/install_ollama.sh
|
46 |
+
RUN install_ollama.sh
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
47 |
|
48 |
# 프론트엔드 빌드 결과물을 백엔드 앱이 접근할 수 있는 경로로 복사합니다.
|
49 |
# /app/static 폴더를 만들고 그 안에 Vue.js 빌드 결과물을 넣습니다.
|
|
|
59 |
# 백엔드 main.py의 `OLLAMA_API_BASE_URL` 환경 변수가 `http://127.0.0.1:11434`로 설정되어 있는지 확인하세요.
|
60 |
# (Hugging Face Spaces에서 Ollama SDK를 사용하면 보통 이 주소로 접근 가능합니다.)
|
61 |
# 수정: ${PORT:-7860} 대신 7860을 직접 사용하거나, sh -c로 쉘이 환경 변수를 해석하도록 합니다.
|
62 |
+
CMD ["sh", "-c", "ollama serve & uvicorn main:app --host 0.0.0.0 --port ${PORT:-7860} --app-dir backend/app"]
|
backend/app/__init__.py
CHANGED
@@ -0,0 +1 @@
|
|
|
|
|
1 |
+
__version__ = "0.1.0"
|
backend/app/proxy_manager.py
CHANGED
@@ -1,54 +1,31 @@
|
|
1 |
-
|
2 |
-
|
3 |
-
|
4 |
-
|
5 |
-
|
6 |
-
|
7 |
-
|
8 |
-
|
9 |
-
|
10 |
-
|
11 |
-
|
12 |
-
|
13 |
-
|
14 |
-
|
15 |
-
|
16 |
-
|
17 |
-
|
18 |
-
#
|
19 |
-
#
|
20 |
-
|
21 |
-
|
22 |
-
""
|
23 |
-
|
24 |
-
|
25 |
-
|
26 |
-
|
27 |
-
|
28 |
-
|
29 |
-
|
30 |
-
|
31 |
-
|
32 |
-
return SCRAPINGBEE_PROXY_ADDRESS
|
33 |
-
# ----------------------------------------------------
|
34 |
-
|
35 |
-
# ----------------------------------------------------
|
36 |
-
# FreeProxy 사용 예시 (폴백 또는 다른 선택지)
|
37 |
-
# 위에서 ScrapingBee 프록시를 찾지 못했거나 사용하지 않으려는 경우
|
38 |
-
# 주석을 해제하고 FreeProxy를 사용하도록 설정할 수 있습니다.
|
39 |
-
# try:
|
40 |
-
# logger.info("FreeProxy를 사용하여 무료 프록시 가져오기 시도...")
|
41 |
-
# # Hugging Face Spaces 허용 포트 (80, 443, 8080)만 필터링
|
42 |
-
# proxy_address = FreeProxy(timeout=1, port=[80, 443, 8080], https=True, rand=True).get()
|
43 |
-
# if proxy_address:
|
44 |
-
# logger.info(f"FreeProxy 사용: {proxy_address}")
|
45 |
-
# return proxy_address
|
46 |
-
# else:
|
47 |
-
# logger.warning("사용 가능한 FreeProxy를 찾을 수 없습니다.")
|
48 |
-
# except Exception as e:
|
49 |
-
# logger.warning(f"FreeProxy 가져오기 실패: {e}")
|
50 |
-
# ----------------------------------------------------
|
51 |
-
|
52 |
-
# 어떤 프록시도 설정되지 않았거나 가져오지 못한 경우
|
53 |
-
logger.warning("어떤 유효한 프록시도 구성되거나 가져올 수 없습니다. 프록시 없이 진행합니다.")
|
54 |
-
return None
|
|
|
1 |
+
import random
|
2 |
+
import asyncio
|
3 |
+
|
4 |
+
class ProxyManager:
|
5 |
+
def __init__(self, proxies):
|
6 |
+
if not proxies:
|
7 |
+
raise ValueError("Proxy list cannot be empty")
|
8 |
+
self.proxies = proxies
|
9 |
+
|
10 |
+
async def get_proxy_url(self):
|
11 |
+
"""
|
12 |
+
Get a random proxy URL from the list.
|
13 |
+
"""
|
14 |
+
if not self.proxies:
|
15 |
+
return None
|
16 |
+
return random.choice(self.proxies)
|
17 |
+
|
18 |
+
# Example proxy list (replace with your actual proxies)
|
19 |
+
# It's recommended to use environment variables to store proxies
|
20 |
+
# For example: proxies = os.getenv("HTTP_PROXIES", "").split(",")
|
21 |
+
proxies = [
|
22 |
+
"http://user:pass@host1:port",
|
23 |
+
"http://user:pass@host2:port",
|
24 |
+
"http://user:pass@host3:port",
|
25 |
+
]
|
26 |
+
|
27 |
+
proxy_manager = ProxyManager(proxies)
|
28 |
+
|
29 |
+
# For backward compatibility, if needed
|
30 |
+
async def get_proxy_url():
|
31 |
+
return await proxy_manager.get_proxy_url()
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
backend/app/youtube_parser.py
CHANGED
@@ -10,7 +10,7 @@ from urllib.parse import urlparse, parse_qs
|
|
10 |
|
11 |
from loguru import logger
|
12 |
from yt_dlp import YoutubeDL
|
13 |
-
from proxy_manager import
|
14 |
from dotenv import load_dotenv
|
15 |
|
16 |
# 환경 변수 로드 (코드의 가장 위에 위치)
|
@@ -71,8 +71,6 @@ async def get_transcript_with_timestamps(video_id: str) -> list[dict] | None:
|
|
71 |
logger.info(f"비디오 ID '{video_id}'에 대한 자막 가져오기 시도.")
|
72 |
|
73 |
processed_chunks = []
|
74 |
-
proxy_address = await get_proxy_url()
|
75 |
-
|
76 |
# yt-dlp 옵션 설정
|
77 |
ydl_opts = {
|
78 |
'writesubtitles': True, # 사용자가 업로드한 수동 자막 파일 쓰기 활성화
|
@@ -85,14 +83,8 @@ async def get_transcript_with_timestamps(video_id: str) -> list[dict] | None:
|
|
85 |
'extractor_args': { # 특정 extractor (예: 유튜브)에 대한 추가 인자
|
86 |
'youtube': {'skip': ['dash']} # dash manifest 관련 오류 회피 시도 (유튜브 관련)
|
87 |
}
|
88 |
-
# 프록시가 필요한 경우, 'proxy': 'http://your.proxy.com:port' 형태로 여기에 추가됩니다.
|
89 |
}
|
90 |
-
|
91 |
-
if proxy_address:
|
92 |
-
ydl_opts['proxy'] = proxy_address
|
93 |
-
logger.info(f"yt-dlp에 프록시 적용: {proxy_address}")
|
94 |
-
else:
|
95 |
-
logger.info("yt-dlp에 프록시가 적용되지 않았습니다.")
|
96 |
|
97 |
temp_dir = "./temp_captions"
|
98 |
os.makedirs(temp_dir, exist_ok=True)
|
|
|
10 |
|
11 |
from loguru import logger
|
12 |
from yt_dlp import YoutubeDL
|
13 |
+
from proxy_manager import proxy_manager
|
14 |
from dotenv import load_dotenv
|
15 |
|
16 |
# 환경 변수 로드 (코드의 가장 위에 위치)
|
|
|
71 |
logger.info(f"비디오 ID '{video_id}'에 대한 자막 가져오기 시도.")
|
72 |
|
73 |
processed_chunks = []
|
|
|
|
|
74 |
# yt-dlp 옵션 설정
|
75 |
ydl_opts = {
|
76 |
'writesubtitles': True, # 사용자가 업로드한 수동 자막 파일 쓰기 활성화
|
|
|
83 |
'extractor_args': { # 특정 extractor (예: 유튜브)에 대한 추가 인자
|
84 |
'youtube': {'skip': ['dash']} # dash manifest 관련 오류 회피 시도 (유튜브 관련)
|
85 |
}
|
|
|
86 |
}
|
87 |
+
logger.info("yt-dlp에 프록시가 적용되지 않았습니다.")
|
|
|
|
|
|
|
|
|
|
|
88 |
|
89 |
temp_dir = "./temp_captions"
|
90 |
os.makedirs(temp_dir, exist_ok=True)
|
backend/requirements.txt
CHANGED
@@ -1,12 +1,10 @@
|
|
1 |
-
|
2 |
-
|
3 |
-
|
4 |
-
|
5 |
-
|
6 |
-
|
7 |
-
|
8 |
-
|
9 |
-
|
10 |
-
|
11 |
-
torch==2.6.0
|
12 |
-
httpx
|
|
|
1 |
+
youtube-transcript-api
|
2 |
+
requests
|
3 |
+
fastapi
|
4 |
+
uvicorn
|
5 |
+
httpx
|
6 |
+
loguru
|
7 |
+
yt-dlp
|
8 |
+
python-dotenv
|
9 |
+
sentence-transformers
|
10 |
+
faiss-cpu
|
|
|
|
install_ollama.sh
ADDED
@@ -0,0 +1,29 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
#!/bin/bash
|
2 |
+
|
3 |
+
set -e
|
4 |
+
|
5 |
+
# Install Ollama
|
6 |
+
curl -fsSL https://ollama.com/install.sh | sh
|
7 |
+
|
8 |
+
# Start Ollama server in the background
|
9 |
+
ollama serve &
|
10 |
+
|
11 |
+
# Wait for Ollama server to start
|
12 |
+
ATTEMPTS=0
|
13 |
+
while ! curl -s http://localhost:11434 > /dev/null && [ $ATTEMPTS -lt 30 ]; do
|
14 |
+
ATTEMPTS=$((ATTEMPTS+1))
|
15 |
+
echo "Waiting for Ollama server to start... (Attempt $ATTEMPTS/30)"
|
16 |
+
sleep 2
|
17 |
+
done
|
18 |
+
|
19 |
+
if [ $ATTEMPTS -eq 30 ]; then
|
20 |
+
echo "Ollama server did not start in time. Exiting."
|
21 |
+
exit 1
|
22 |
+
fi
|
23 |
+
|
24 |
+
echo "Ollama server started. Pulling model..."
|
25 |
+
|
26 |
+
# Pull the model
|
27 |
+
ollama pull hf.co/DevQuasar/naver-hyperclovax.HyperCLOVAX-SEED-Text-Instruct-0.5B-GGUF:F16
|
28 |
+
|
29 |
+
echo "Model pull complete."
|