tool_retriever

Sleeping

App Files Files Community

Yyy0530 commited on Feb 28

Commit

7c04c37

verified ·

1 Parent(s): c267b51

Update app.py

Browse files

Files changed (1) hide show

app.py +38 -45

app.py CHANGED Viewed

@@ -7,10 +7,8 @@ import pandas as pd
 from text2vec import SentenceModel
 from src.jsonl_Indexer import JSONLIndexer
-# 命令行参数处理函数
 def get_cli_args():
     args = {}
-    # 跳过第一个参数（脚本名）和第二个参数（streamlit run）
     argv = sys.argv[2:] if len(sys.argv) > 2 else []
     for arg in argv:
         if '=' in arg:
@@ -18,27 +16,23 @@ def get_cli_args():
             args[key.strip()] = value.strip()
     return args
-# 获取命令行参数
 cli_args = get_cli_args()
-# 设置默认值（适用于 JSONL 文件）
 DEFAULT_CONFIG = {
     'model_path': 'BAAI/bge-base-en-v1.5',
-    'dataset_path': 'tool-embedding.jsonl',  # JSONL 文件路径
     'vector_size': 768,
-    'embedding_field': 'embedding',   # JSON中存储embedding的字段名
-    'id_field': 'id'                  # JSON中作为待检索文本的字段
 }
-# 合并默认配置和命令行参数
 config = DEFAULT_CONFIG.copy()
 config.update(cli_args)
 config['vector_size'] = int(config['vector_size'])
 @st.cache_resource
 def get_model(model_path: str = config['model_path']):
-    model = SentenceModel(model_path)
-    return model
 @st.cache_resource
 def create_retriever(vector_sz: int, dataset_path: str, embedding_field: str, id_field: str, _model):
@@ -46,55 +40,55 @@ def create_retriever(vector_sz: int, dataset_path: str, embedding_field: str, id
     retriever.load_jsonl(dataset_path, embedding_field=embedding_field, id_field=id_field)
     return retriever
-# 在侧边栏显示当前配置
 if st.sidebar.checkbox("Show Configuration"):
     st.sidebar.write("Current Configuration:")
     for key, value in config.items():
         st.sidebar.write(f"{key}: {value}")
-# 初始化模型和检索器
 model = get_model(config['model_path'])
-retriever = create_retriever(
-    config['vector_size'],
-    config['dataset_path'],
-    config['embedding_field'],
-    config['id_field'],
-    _model=model
-)
-# Streamlit 应用界面
-st.title("Title")
-# st.write("该应用基于预计算的 JSONL 文件 embedding，输入查询后将检索相似记录。")
-# 查询输入
-# 创建两列布局
-col1, col2 = st.columns([2.5, 1])
-query,topk = None, None
 with col1:
-    # 搜索输入框
-    query = st.text_input(
-        "query", placeholder="your query", help=""
-    )
 with col2:
-    # TopK选择滑块
-    top_k = st.slider(
-        "Top K", 1, 100, 50, help="choose the number of results to display"
-    )
-# 检索并展示结果
-if st.button("搜索") and query:
-    # 调用检索方法，返回JSON中id字段和对应的相似度得分
     rec_ids, scores = retriever.search_return_id(query, top_k)
-    # 将检索结果构造成 DataFrame
-    results_df = pd.DataFrame({
-        "tool": rec_ids,
-        "relevance": scores
-    })
     st.subheader("🗂️ 结果详情")
-    # 为 DataFrame 添加样式（交替行背景色）
     styled_results = results_df.style.apply(
         lambda x: [
             "background-color: #F7F7F7" if i % 2 == 0 else "background-color: #FFFFFF"
@@ -103,7 +97,6 @@ if st.button("搜索") and query:
         axis=0,
     ).format({"relevance": "{:.4f}"})
-    # 使用交互式数据表格展示结果，并配置列样式
     st.dataframe(
         styled_results,
         column_config={

 from text2vec import SentenceModel
 from src.jsonl_Indexer import JSONLIndexer
 def get_cli_args():
     args = {}
     argv = sys.argv[2:] if len(sys.argv) > 2 else []
     for arg in argv:
         if '=' in arg:
             args[key.strip()] = value.strip()
     return args
 cli_args = get_cli_args()
 DEFAULT_CONFIG = {
     'model_path': 'BAAI/bge-base-en-v1.5',
+    'dataset_path': 'tool-embedding.jsonl',
     'vector_size': 768,
+    'embedding_field': 'embedding',
+    'id_field': 'id'
 }
 config = DEFAULT_CONFIG.copy()
 config.update(cli_args)
 config['vector_size'] = int(config['vector_size'])
 @st.cache_resource
 def get_model(model_path: str = config['model_path']):
+    return SentenceModel(model_path)
 @st.cache_resource
 def create_retriever(vector_sz: int, dataset_path: str, embedding_field: str, id_field: str, _model):
     retriever.load_jsonl(dataset_path, embedding_field=embedding_field, id_field=id_field)
     return retriever
 if st.sidebar.checkbox("Show Configuration"):
     st.sidebar.write("Current Configuration:")
     for key, value in config.items():
         st.sidebar.write(f"{key}: {value}")
 model = get_model(config['model_path'])
+retriever = create_retriever(config['vector_size'], config['dataset_path'], config['embedding_field'], config['id_field'], _model=model)
+# 美化界面
+st.markdown("""
+    <style>
+    .search-container {
+        display: flex;
+        justify-content: center;
+        align-items: center;
+        gap: 10px;
+        margin-top: 20px;
+    }
+    .search-box input {
+        width: 500px !important;
+        height: 45px;
+        font-size: 16px;
+        border-radius: 25px;
+        padding-left: 15px;
+    }
+    .search-btn button {
+        height: 45px;
+        font-size: 16px;
+        border-radius: 25px;
+    }
+    </style>
+""", unsafe_allow_html=True)
+st.title("🔍 Tool Search")
+col1, col2 = st.columns([4, 1])
 with col1:
+    query = st.text_input("", placeholder="Enter your search query...", key="search_query", label_visibility="collapsed")
 with col2:
+    search_clicked = st.button("🔎 Search", use_container_width=True)
+top_k = st.slider("Number of Results", 1, 100, 50, help="Choose the number of results to display")
+if search_clicked and query:
     rec_ids, scores = retriever.search_return_id(query, top_k)
+    results_df = pd.DataFrame({"tool": rec_ids, "relevance": scores})
     st.subheader("🗂️ 结果详情")
     styled_results = results_df.style.apply(
         lambda x: [
             "background-color: #F7F7F7" if i % 2 == 0 else "background-color: #FFFFFF"
         axis=0,
     ).format({"relevance": "{:.4f}"})
     st.dataframe(
         styled_results,
         column_config={