Spaces:

FelixPhilip
/

DeepFundingOracle

Running

App Files Files Community

FelixPhilip commited on May 5

Commit

cb06856

1 Parent(s): ea68d4a

Oracle

Browse files

Files changed (1) hide show

Oracle/deepfundingoracle.py +37 -33

Oracle/deepfundingoracle.py CHANGED Viewed

@@ -474,49 +474,53 @@ def train_predict_weight(df):
     X = df[feature_cols]
     y = df[target]
     # Split data into train/test sets
     X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
     # Hyperparameter tuning using GridSearchCV
     param_grid = {
-        "n_estimators": [100, 200, 300],
-        "max_depth": [10, 15, 20],
-        "min_samples_split": [2, 5, 10],
-        "min_samples_leaf": [1, 2, 4]
     }
     rf = RandomForestRegressor(random_state=42)
     grid_search = GridSearchCV(estimator=rf, param_grid=param_grid, cv=3, scoring="neg_mean_squared_error", verbose=2)
     grid_search.fit(X_train, y_train)
-    # Best model
-    best_rf = grid_search.best_estimator_
-    print(f"[INFO] Best parameters: {grid_search.best_params_}")
-    # Evaluate on test set
-    y_pred = best_rf.predict(X_test)
-    mse = mean_squared_error(y_test, y_pred)
-    print(f"[INFO] Test MSE: {mse}")
-    # Feature importance analysis
-    feature_importances = best_rf.feature_importances_
-    importance_df = pd.DataFrame({"Feature": feature_cols, "Importance": feature_importances}).sort_values(by="Importance", ascending=False)
-    print("[INFO] Feature importances:")
-    print(importance_df)
-    # Drop irrelevant features
-    irrelevant_features = importance_df[importance_df["Importance"] < 0.01]["Feature"].tolist()
-    print(f"[INFO] Dropping irrelevant features: {irrelevant_features}")
-    df.drop(columns=irrelevant_features, inplace=True)
-    # Plot predictions vs. actual values
-    plt.scatter(y_test, y_pred, alpha=0.5)
-    plt.xlabel("Actual Base Weight")
-    plt.ylabel("Predicted Base Weight")
-    plt.title("Predictions vs. Actual")
-    plt.show()
-    # Assign predictions to DataFrame
-    df["final_weight"] = best_rf.predict(X)
     end_time = time.time()
     print(f"[INFO] Weight prediction completed in {end_time - start_time:.2f} seconds.", flush=True)

     X = df[feature_cols]
     y = df[target]
+    # Check for sufficient data and variance
+    if X.shape[0] < 5 or X.nunique().sum() <=1 or y.nunique() <=1:
+        print("[WARN] Not enough data or variance for model training. Using base weights directly.")
+        df["final_weight"] = df["base_weight"]
+        return df
     # Split data into train/test sets
     X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
+    # Check again after split
+    if X_train.shape[0] < 2 or y_train.nunique()<=1 or X_train.nunique().sum() <=1:
+        print("[WARN] Not enough data or variance for model training. Using base weights directly.")
+        df["final_weight"] = df["base_weight"]
+        return df
     # Hyperparameter tuning using GridSearchCV
     param_grid = {
+        "n_estimators": [100, 200],
+        "max_depth": [10, 15],
+        "min_samples_split": [2, 5],
+        "min_samples_leaf": [1, 2]
     }
     rf = RandomForestRegressor(random_state=42)
     grid_search = GridSearchCV(estimator=rf, param_grid=param_grid, cv=3, scoring="neg_mean_squared_error", verbose=2)
     grid_search.fit(X_train, y_train)
+    try:
+        grid_search.fit(X_train, y_train)
+        best_rf = grid_search.best_estimator_
+        print(f"[INFO] Best parameters: {grid_search.best_params_}")
+        # Evaluate on test set
+        y_pred = best_rf.predict(X_test)
+        mse = mean_squared_error(y_test, y_pred)
+        print(f"[INFO] Test MSE: {mse}")
+        # Feature importance analysis
+        feature_importances = best_rf.feature_importances_
+        importance_df = pd.DataFrame({"Feature": feature_cols, "Importance": feature_importances}).sort_values(by="Importance", ascending=False)
+        print("[INFO] Feature importances:")
+        print(importance_df)
+        # Assign predictions to DataFrame
+        df["final_weight"] = best_rf.predict(X)
+    except Exception as e:
+        print(f"[ERROR] Model training failed: {e}")
+        df["final_weight"] = df["base_weight"]
     end_time = time.time()
     print(f"[INFO] Weight prediction completed in {end_time - start_time:.2f} seconds.", flush=True)