Spaces:

cdxxi
/

find_my_book_pr

Running

App Files Files Community

cdxxi commited on Feb 28

Commit

ae7e3fa

1 Parent(s): ce85a90

commit

Browse files

Files changed (16) hide show

.gitattributes +3 -0
dff.csv +3 -0
images/book03.PNG +0 -0
images/book04.png +0 -0
images/book06.jpg +3 -0
images/photo_p.jpg +3 -0
images/reklama.jpg +3 -0
indexes/index1.faiss +3 -0
indexes/index2.faiss +3 -0
indexes/index3.faiss +3 -0
main.py +47 -0
pages/page_01.py +39 -0
pages/page_02.py +87 -0
pages/page_03.py +263 -0
pages/page_031.py +25 -0
requirements.txt +77 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,6 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+dff.csv filter=lfs diff=lfs merge=lfs -text
+indexes/*.faiss filter=lfs diff=lfs merge=lfs -text
+*.jpg filter=lfs diff=lfs merge=lfs -text

dff.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:49a3cc4bbda9a0e9dbbf620ef57bfe074909c8b37eb80b59e45f55155cb02706
+size 57631098

images/book03.PNG ADDED Viewed

images/book04.png ADDED Viewed

images/book06.jpg ADDED Viewed

Git LFS Details

SHA256: f9d412d21f69b7c8bc6163a0e39804f542b7e7bc6723c19282ca2e9f94619d59
Pointer size: 130 Bytes
Size of remote file: 31.6 kB

images/photo_p.jpg ADDED Viewed

Git LFS Details

SHA256: acf642b9502cb151c9d141adbd923e1c56833e13209cd0de3c6d3ac1286ea2a6
Pointer size: 130 Bytes
Size of remote file: 18.1 kB

images/reklama.jpg ADDED Viewed

Git LFS Details

SHA256: e8fca42095199442d34f1116ad0a625842a7d5869ba5986243e93739f9c92b61
Pointer size: 129 Bytes
Size of remote file: 8.78 kB

indexes/index1.faiss ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e193751613617d3f6c57fbaf1efdd9d7b45953802ad4f7626aadb8365041e6ed
+size 54789165

indexes/index2.faiss ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5410a3c69e097e7eb674d8e01c0aab1de3617ed56bb03096e42df7ef0163d19a
+size 109578285

indexes/index3.faiss ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:65aabbe31583b4ad81f78a033728ebca7b88153a69a0809c01018798325e1fbe
+size 146104365

main.py ADDED Viewed

	@@ -0,0 +1,47 @@

+# ELBRUSE Bootcamp
+# 13-02-2025
+# Week 9 Day 4 Project
+# team: Dasha, Alina, Ilya, Andrey u
+import streamlit as st
+import pandas as pd
+#initialization ----------------------------
+#Основная страница  ----------------------------
+# боковая панель
+page01 = st.Page("pages/page_01.py", title = 'Оглавление:')
+page02 = st.Page("pages/page_02.py", title = 'Описание Проекта')
+page03 = st.Page("pages/page_03.py", title = '-> Умный поиск книг')
+page04 = st.Page("pages/page_031.py", title = 'Описание моделей')
+pg = st.navigation([page01,  page02,
+                    page03, page04
+                    ], expanded=True)
+pg.run()
+st.sidebar.image(
+    "images/photo_p.jpg",
+    width=300
+)
+st.sidebar.title('Команда проекта:')
+st.sidebar.write('[Галина Горяинова](https://github.com/ratOfSteel) 🤦')
+st.sidebar.write('[Анатолий Яковлев](https://github.com/cdxxi)  🤬')
+st.sidebar.write('[Андрей Абрамов](https://github.com/ANDREY700) ✋')

pages/page_01.py ADDED Viewed

	@@ -0,0 +1,39 @@

+# ELBRUSE Bootcamp
+# 13-02-2025
+# Week 9 Day 4 Project
+# team: Dasha, Alina, Ilya, Andrey
+import streamlit as st
+import pandas as pd
+image_size = 160
+#st.header('Оглавление')
+st.write('-------------------------------------------------------------------------------------')
+col1, col2, col3 = st.columns(spec=[0.4, 0.3, 0.4])
+with col1:
+    st.page_link("pages/page_02.py", label='Описание проекта')
+with col2:
+    st.image('images/book04.jpg', width=image_size)
+st.write('-------------------------------------------------------------------------------------')
+col1, col2, col3 = st.columns(spec=[0.4, 0.3, 0.4])
+with col2:
+    st.image('images/book03.PNG', width=image_size)
+with col3:
+    st.page_link("pages/page_03.py", label='Умный поиск книг')
+st.write('-------------------------------------------------------------------------------------')
+col1, col2, col3 = st.columns(spec=[0.4, 0.3, 0.4])
+with col1:
+    st.page_link("pages/page_031.py", label='Описание моделей')
+with col2:
+    st.image('images/book06.jpg', width=image_size)
+st.write('-------------------------------------------------------------------------------------')

pages/page_02.py ADDED Viewed

	@@ -0,0 +1,87 @@

+# ELBRUSE Bootcamp
+# 13-02-2025
+# Week 9 Day 4 Project
+# team: Dasha, Alina, Ilya, Andrey
+import streamlit as st
+import pandas as pd
+#st.title('Страница 01')
+st.header('Умный поиск книг')
+st.subheader('Описание Проекта')
+st.write('Магазин электронных книг хочет усовершенствовать поиск. Сейчас поиск происходит по автору и названию книги, при этом никак не учитывается аннотация (а большая часть из них даже не добавлена на сайт). Вашей команде предстоит собрать выборку из не менее, чем 5000 аннотаций c сайта и построить систему поиска наиболее подходящих под пользовательский запрос книг.')
+st.subheader('План проекта:')
+st.write('Разработать систему поиска книги по пользовательскому запросу. Сервис должен принимать на вход описание книги от пользователя и возвращать заданное количество подходящих вариантов. Демо должно быть развернуто через streamlit. Макет интерфейса сервиса можно найти тут. Сервис должен быть развернут на huggingface spaces.')
+st.subheader('Релизы:')
+st.write('-------------------------------------------------------------------------------------')
+st.write('Релиз 1.0')
+st.write('Срок: среда, 17:00')
+st.write('* сделать csv-файл следующей структуры:')
+st.write('page_url,	image_url,	author,	title,	annotation')
+st.write('* сделать py-файл, содержащий скрипт с парсингом и сохранением данных')
+st.write('* реализовать streamlit-скрипт main.py, который возвращает случайные 10 позиций из csv-файла формате: автор - название книги')
+st.write('-------------------------------------------------------------------------------------')
+st.write('Релиз 2.0')
+st.write('Срок: четверг, 17:00')
+st.write('* сделать ipynb-файл с демонстрационным примером работы сервиса')
+st.write('-------------------------------------------------------------------------------------')
+st.write('Релиз 3.0')
+st.write('Срок: пятница, 16:00')
+st.write('* сделать main.py-файл, содержащий скрипт, реализующий streamlit-сервис')
+st.write('* сделать README.MD, содержащий описание репозитория и способ запуска вашего сервиса')
+st.write('-------------------------------------------------------------------------------------')
+st.subheader('Рекомендации')
+st.write('В качестве технологий стоит обратить внимание на:')
+st.write('* библиотеку Sentence Transformers')
+st.write('* языковые модели ruBERT (1,2)')
+st.write('* поиск должен происходить максимально быстро, в этом может помочь faiss')
+st.write('* рядом с каждым результатом выводите меру того, насколько он подходит под конкретный запрос')
+st.write('* для улучшения качества поиска попробуйте отсечь слишком короткие аннотации')
+st.write('* пробуйте использовать другие метрики близости – результат может отличаться в произвольную сторону')
+st.write('* для уточнения поиска можно сделать дополнительное поле ввода (например, с автором)')
+st.write('* в общем случае вы будете решать задачу симметричного семантического поиска: запрос должен быть подробным и по длине быть сопоставим с документами в хранилище. Это не всегда удобно: часто пользователю не хочется долго печатать, а значит его запрос будет короче описания объектов. Тогда можно рассмотреть модели для ассиметричного семантического поиска')
+st.write('* Дополните сервис возможностью получать краткое содержание книги (Sber GigaChat, YandexGPT, парсинг с Викип��дии и тд).')
+st.write('* Упакуйте свое приложение в docker-контейнер и разместите образ на docker hub. Чтобы контейнер весил не очень много, обратите внимание, что некоторые модели с hugging-face доступны по API (переходите в карточку модели, жмите кнопку Deploy и выбирайте Inference API (serverless): вам будет предоставлен код, по которому можно обратиться к модели).')
+st.write('* и получить результат, за инференс будет отвечать сервис hf).')

pages/page_03.py ADDED Viewed

	@@ -0,0 +1,263 @@

+import streamlit as st
+import numpy as np
+import pandas as pd
+from sentence_transformers import SentenceTransformer
+import faiss
+# title itself
+col1, col2, col3 = st.columns(spec=[0.4, 0.5, 0.2])
+with col1:
+    st.image('images/book03.PNG', width=160)
+with col2:
+    st.subheader("Умный поиск книг")
+st.divider()
+@st.cache_resource
+def load_resources():
+    # Загрузка модели
+    model = SentenceTransformer("sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2")
+    model1 = SentenceTransformer('sentence-transformers/paraphrase-multilingual-mpnet-base-v2')
+    model2 = SentenceTransformer('intfloat/multilingual-e5-large')
+    # Загрузка FAISS-индекса
+    index = faiss.read_index("indexes/index1.faiss")
+    index1 = faiss.read_index('indexes/index2.faiss')
+    index2 = faiss.read_index('indexes/index3.faiss')
+    df = pd.read_csv('all_books_final.csv')
+    return model, model1, model2, index, index1, index2, df
+model, model1,model2, index, index1, index2, df = load_resources()
+user_query = st.text_input(
+    "📖 Введите описание книги, которую хотите найти:",
+    placeholder="Например: детектив о загадочном убийстве в маленьком городке"
+)
+num_results = st.slider(
+    "Количество рекомендаций:",
+    min_value=1,
+    max_value=20,
+    value=10,
+    help="Выберите сколько книг показать в результатах"
+)
+search_button = st.button("Искать")
+# --- Обработка и вывод результатов ---
+if search_button and user_query:
+    with st.spinner("Ищем лучшие варианты..."):
+        try:
+            # Преобразование запроса в вектор
+            test_embedding = model.encode([user_query])
+            faiss.normalize_L2(test_embedding)
+            # Поиск в индексе
+            distances, indices = index.search(test_embedding, num_results)
+            # Отображение результатов
+            st.subheader(f"Найденные варианты для запроса Модель 1: '{user_query}'")
+            for i, (idx, score) in enumerate(zip(indices[0], distances[0])):
+                book = df.iloc[idx]
+                # Создаем карточку для каждой книги
+                with st.container():
+                    cols = st.columns([0.2, 0.8])
+                    with cols[0]:
+                        try:
+                            if pd.notna(book['image_url']):  # Проверяем, что URL не пустой
+                                st.image(
+                                    book['image_url'],
+                                    width=120,
+                                    caption="Обложка книги",
+                                    use_container_width="auto"
+                                )
+                            else:
+                                st.warning("Обложка недоступна")
+                                st.image("images/reklama.jpg", width=120)  # Если есть колонка с изображениями
+                        except Exception as e:
+                            st.error(f"Ошибка загрузки обложки: {str(e)}")
+                            st.image("images/reklama.jpg", width=120)
+                    with cols[1]:
+                        st.markdown(f"**{book['title']}**")
+                        st.caption(f"Автор: {book['author']}")
+                        st.write(f"**Сходство:** {score:.3f}")
+                        # Добавляем раскрывающуюся аннотацию
+                        annotation = book['annotation']
+                        short_length = 150  # Количество символов для сокращённой версии
+                        if len(annotation) > short_length:
+                            short_annotation = annotation[:short_length] + "..."
+                            with st.expander(f"Аннотация: {short_annotation}"):
+                                st.write(annotation)
+                        else:
+                            st.write(f"**Аннотация:** {annotation}")
+                    st.divider()
+        except Exception as e:
+            st.error(f"Ошибка при поиске: {str(e)}")
+elif search_button and not user_query:
+    st.warning("Пожалуйста, введите описание для поиска!")
+if search_button and user_query:
+    with st.spinner("Ищем лучшие варианты..."):
+        try:
+            # Преобразование запроса �� вектор
+            test_embedding = model1.encode([user_query])
+            faiss.normalize_L2(test_embedding)
+            # Поиск в индексе
+            distances1, indices1 = index1.search(test_embedding, num_results)
+            # Отображение результатов
+            st.subheader(f"Найденные варианты для запроса Модель 2: '{user_query}'")
+            for i, (idx, score) in enumerate(zip(indices1[0], distances1[0])):
+                book = df.iloc[idx]
+                # Создаем карточку для каждой книги
+                with st.container():
+                    cols = st.columns([0.2, 0.8])
+                    with cols[0]:
+                        try:
+                            if pd.notna(book['image_url']):  # Проверяем, что URL не пустой
+                                st.image(
+                                    book['image_url'],
+                                    width=120,
+                                    caption="Обложка книги",
+                                    use_container_width="auto"
+                                )
+                            else:
+                                st.warning("Обложка недоступна")
+                                st.image("images/reklama.jpg", width=120)  # Если есть колонка с изображениями
+                        except Exception as e:
+                            st.error(f"Ошибка загрузки обложки: {str(e)}")
+                            st.image("images/reklama.jpg", width=120)
+                    with cols[1]:
+                        st.markdown(f"**{book['title']}**")
+                        st.caption(f"Автор: {book['author']}")
+                        st.write(f"**Сходство:** {score:.3f}")
+                        # Добавляем раскрывающуюся аннотацию
+                        annotation = book['annotation']
+                        short_length = 150  # Количество символов для сокращённой версии
+                        if len(annotation) > short_length:
+                            short_annotation = annotation[:short_length] + "..."
+                            with st.expander(f"Аннотация: {short_annotation}"):
+                                st.write(annotation)
+                        else:
+                            st.write(f"**Аннотация:** {annotation}")
+                    st.divider()
+        except Exception as e:
+            st.error(f"Ошибка при поиске: {str(e)}")
+elif search_button and not user_query:
+    pass
+if search_button and user_query:
+    with st.spinner("Ищем лучшие варианты..."):
+        try:
+            # Преобразование запроса в вектор
+            test_embedding = model2.encode([user_query])
+            faiss.normalize_L2(test_embedding)
+            # Поиск в индексе
+            distances2, indices2 = index2.search(test_embedding, num_results)
+            # Отображение результатов
+            st.subheader(f"Найденные варианты для запроса Модель 3: '{user_query}'")
+            for i, (idx, score) in enumerate(zip(indices2[0], distances2[0])):
+                book = df.iloc[idx]
+                # Создаем карточку для каждой книги
+                with st.container():
+                    cols = st.columns([0.2, 0.8])
+                    with cols[0]:
+                        try:
+                            if pd.notna(book['image_url']):  # Проверяем, что URL не пустой
+                                st.image(
+                                    book['image_url'],
+                                    width=120,
+                                    caption="Обложка книги",
+                                    use_container_width="auto"
+                                )
+                            else:
+                                st.warning("Обложка недоступна")
+                                st.image("images/reklama.jpg", width=120)  # Если есть колонка с изображениями
+                        except Exception as e:
+                            st.error(f"Ошибка загрузки обложки: {str(e)}")
+                            st.image("images/reklama.jpg", width=120)
+                    with cols[1]:
+                        st.markdown(f"**{book['title']}**")
+                        st.caption(f"Автор: {book['author']}")
+                        st.write(f"**Сходство:** {score:.3f}")
+                        # Добавляем раскрывающуюся аннотацию
+                        annotation = book['annotation']
+                        short_length = 150  # Количество символов для сокращённой версии
+                        if len(annotation) > short_length:
+                            short_annotation = annotation[:short_length] + "..."
+                            with st.expander(f"Аннотация: {short_annotation}"):
+                                st.write(annotation)
+                        else:
+                            st.write(f"**Аннотация:** {annotation}")
+                    st.divider()
+        except Exception as e:
+            st.error(f"Ошибка при поиске: {str(e)}")
+elif search_button and not user_query:
+    pass
+if search_button and user_query:
+    with st.spinner("Сравниваем полученные варианты..."):
+        try:
+            col1, col2, col3, col4 = st.columns(spec=[0.1, 0.3, 0.3, 0.3])
+            with col1:
+                st.write('#')
+            with col2:
+                st.write('Model-1')
+            with col3:
+                st.write('Model-2')
+            with col4:
+                st.write('Model-3')
+            for i in range(0, num_results):
+                col1, col2, col3, col4 = st.columns(spec=[0.1, 0.3, 0.3, 0.3])
+                with col1:
+                    st.write(str(i))
+                with col2:
+                    st.image(df.loc[indices[0][i], 'image_url'], width=100)
+                with col3:
+                    st.image(df.loc[indices1[0][i], 'image_url'], width=100)
+                with col4:
+                    st.image(df.loc[indices2[0][i], 'image_url'], width=100)
+            st.divider()
+        except Exception as e:
+            st.error(f"Ошибка при поиске: {str(e)}")

pages/page_031.py ADDED Viewed

	@@ -0,0 +1,25 @@

+import streamlit as st
+import pandas as pd
+st.header(" Набор данных")
+nassiv_row = 35670
+st.write(f"* Размер массива: строк`{nassiv_row}`")
+st.divider()
+st.header(" Использованные модели")
+col0, col1 = st.columns(spec=[0.1, 0.9])
+with col0:
+    st.write('1')
+    st.write('2')
+    st.write('3')
+with col1:
+    st.write('sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2')
+    st.write('sentence-transformers/paraphrase-multilingual-mpnet-base-v2')
+    st.write('intfloat/multilingual-e5-large')
+st.divider()

requirements.txt ADDED Viewed

	@@ -0,0 +1,77 @@

+altair==5.5.0
+attrs==25.1.0
+blinker==1.9.0
+cachetools==5.5.2
+certifi==2025.1.31
+charset-normalizer==3.4.1
+click==8.1.8
+faiss-cpu==1.10.0
+filelock==3.17.0
+fsspec==2025.2.0
+gitdb==4.0.12
+GitPython==3.1.44
+huggingface-hub==0.29.1
+idna==3.10
+Jinja2==3.1.5
+joblib==1.4.2
+jsonschema==4.23.0
+jsonschema-specifications==2024.10.1
+markdown-it-py==3.0.0
+MarkupSafe==3.0.2
+mdurl==0.1.2
+mpmath==1.3.0
+narwhals==1.28.0
+networkx==3.4.2
+numpy==2.2.3
+nvidia-cublas-cu12==12.4.5.8
+nvidia-cuda-cupti-cu12==12.4.127
+nvidia-cuda-nvrtc-cu12==12.4.127
+nvidia-cuda-runtime-cu12==12.4.127
+nvidia-cudnn-cu12==9.1.0.70
+nvidia-cufft-cu12==11.2.1.3
+nvidia-curand-cu12==10.3.5.147
+nvidia-cusolver-cu12==11.6.1.9
+nvidia-cusparse-cu12==12.3.1.170
+nvidia-cusparselt-cu12==0.6.2
+nvidia-nccl-cu12==2.21.5
+nvidia-nvjitlink-cu12==12.4.127
+nvidia-nvtx-cu12==12.4.127
+packaging==24.2
+pandas==2.2.3
+pillow==11.1.0
+pip==25.0.1
+protobuf==5.29.3
+pyarrow==19.0.1
+pydeck==0.9.1
+Pygments==2.19.1
+python-dateutil==2.9.0.post0
+pytz==2025.1
+PyYAML==6.0.2
+referencing==0.36.2
+regex==2024.11.6
+requests==2.32.3
+rich==13.9.4
+rpds-py==0.23.1
+safetensors==0.5.3
+scikit-learn==1.6.1
+scipy==1.15.2
+sentence-transformers==3.4.1
+setuptools==75.8.2
+six==1.17.0
+smmap==5.0.2
+streamlit==1.42.2
+sympy==1.13.1
+tenacity==9.0.0
+threadpoolctl==3.5.0
+tokenizers==0.21.0
+toml==0.10.2
+torch==2.6.0
+tornado==6.4.2
+tqdm==4.67.1
+transformers==4.49.0
+triton==3.2.0
+typing_extensions==4.12.2
+tzdata==2025.1
+urllib3==2.3.0
+watchdog==6.0.0
+wheel==0.45.1