Spaces:

Theolex
/

theolex_streamlit

Runtime error

App Files Files Community

Jawad commited on Dec 14, 2021

Commit

8fc52b2

1 Parent(s): b3c7fc7

add automl'

Browse files

Files changed (3) hide show

data_processing.py +1 -1
model.py +14 -2
stream_app.py +32 -23

data_processing.py CHANGED Viewed

@@ -87,7 +87,7 @@ def get_monetary_dataframe(decision_scope):
     time = round((pd.to_datetime('today').date() - monetary_decision.decision_date) / np.timedelta64(1, "M"))
     monetary_decision['time'] = time
     # sort by date
-    monetary_decision = monetary_decision.sort_values('time', ascending=False)
     return monetary_decision

     time = round((pd.to_datetime('today').date() - monetary_decision.decision_date) / np.timedelta64(1, "M"))
     monetary_decision['time'] = time
     # sort by date
+    monetary_decision = monetary_decision.sort_values('time', ascending=False).reset_index(drop=True)
     return monetary_decision

model.py CHANGED Viewed

@@ -2,7 +2,8 @@ import itertools
 import pandas as pd
 import xgboost as xgb
 from xgboost import cv
-from sklearn.model_selection import TimeSeriesSplit
 def prepare_predictors(monetary_decision, col_num, col_cat):
@@ -28,7 +29,9 @@ def split(predictors, target, test_size=0.2):
     predictors_test = predictors.tail(nb_test)
     target_train = target.head(nb_train)
     target_test = target_train.tail(nb_test)
-    return predictors_train, predictors_test, target_train, target_test
 def run_cv_training(predictors_train, target_train):
@@ -65,6 +68,15 @@ def run_training(predictors_train, target_train, params, num_rounds):
     return xgb.train(params, data_train, num_rounds)
 def predict(model, predictors):
     data = xgb.DMatrix(predictors, enable_categorical=True)
     return model.predict(data)

 import pandas as pd
 import xgboost as xgb
 from xgboost import cv
+from sklearn.model_selection import TimeSeriesSplit, train_test_split
+from flaml import AutoML
 def prepare_predictors(monetary_decision, col_num, col_cat):
     predictors_test = predictors.tail(nb_test)
     target_train = target.head(nb_train)
     target_test = target_train.tail(nb_test)
+    predictors_train, predictors_test, target_train, target_test = train_test_split(predictors, target, test_size=0.2,
+                                                                                    random_state=42)
+    return predictors_train.reset_index(drop=True), predictors_test, target_train, target_test
 def run_cv_training(predictors_train, target_train):
     return xgb.train(params, data_train, num_rounds)
+def automl_training(predictors_train, target_train):
+    automl = AutoML()
+    automl.fit(predictors_train, target_train,
+               task="regression",
+               estimator_list=["lgbm"],
+               split_type="auto")
+    return automl
 def predict(model, predictors):
     data = xgb.DMatrix(predictors, enable_categorical=True)
     return model.predict(data)

stream_app.py CHANGED Viewed

@@ -10,7 +10,7 @@ import plotly.figure_factory as ff
 import scipy
 import numpy as np
 from data_processing import load_data, process_data, get_monetary_dataframe, get_themes_per_year
-from model import prepare_predictors, prepare_data, run_training, split, predict, features_importance, run_cv_training
 def _max_width_():
@@ -178,9 +178,9 @@ col_cat_all = ['authorities_country',
 st.sidebar.title("Training params")
 col_num = st.sidebar.multiselect('Numeric variables',
-                                 col_num_all, default=['log10_org_revenues'])
 col_cat = st.sidebar.multiselect('Categorical variables',
-                                 col_cat_all, default=['violation_theme', 'org_continent'])
 # train the model
 predictors, target = prepare_data(monetary_decision, col_num, col_cat)
 if st.button('Run training'):
@@ -204,27 +204,30 @@ if st.button('Run training'):
         # Run cross validation
         st.subheader("Cross validation error")
         with st.spinner('Wait for it...'):
-            xgb_cv, best_params = run_cv_training(predictors_train, target_train)
-        st.line_chart(xgb_cv[[col for col in xgb_cv.columns if "mean" in col]])
-        st.subheader("Selected variables")
-        st.json(best_params)
-        # Train final
-        xgb_model = run_training(predictors_train, target_train, best_params["params"], best_params["best_round"])
-        # save model to file
-        pickle.dump(xgb_model, open("xgb_model.pickle.dat", "wb"))
-        # Evaluate model error
-        target_train_predicted = predict(xgb_model, predictors_train)
-        training_bias = np.mean(target_train_predicted - target_train)
-        st.metric(label="Training bias", value=training_bias)
-        target_test_predicted = predict(xgb_model, predictors_test)
-        test_errors = target_test_predicted - target_test
-        test_bias = np.mean(test_errors)
-        st.metric(label="Test bias", value=test_bias)
         fig = ff.create_distplot([test_errors], ['errors distribution'], bin_size=0.2)
         fig.update_layout(width=1000,
@@ -234,9 +237,15 @@ if st.button('Run training'):
         st.plotly_chart(fig)
         st.subheader("Plot features importance for the trained model")
-        xgb_features_importance = features_importance(xgb_model)
-        fig = px.bar(xgb_features_importance,
                      orientation='h',
                      width=1000,
                      template="simple_white",
@@ -301,7 +310,7 @@ st.dataframe(df_to_predict)
 if prediction_model:
     try:
-        predicted = predict(prediction_model, df_to_predict)
         st.metric(label="Monetary sanction prediction", value=f"{'{:,.2f}'.format(10**(predicted[0]-3))} K$")
         print(predicted)
     except ValueError:

 import scipy
 import numpy as np
 from data_processing import load_data, process_data, get_monetary_dataframe, get_themes_per_year
+from model import prepare_predictors, prepare_data, run_training, split, predict, features_importance, run_cv_training, automl_training
 def _max_width_():
 st.sidebar.title("Training params")
 col_num = st.sidebar.multiselect('Numeric variables',
+                                 col_num_all, default=col_num_all)
 col_cat = st.sidebar.multiselect('Categorical variables',
+                                 col_cat_all, default=col_cat_all)
 # train the model
 predictors, target = prepare_data(monetary_decision, col_num, col_cat)
 if st.button('Run training'):
         # Run cross validation
         st.subheader("Cross validation error")
         with st.spinner('Wait for it...'):
+            #xgb_cv, best_params = run_cv_training(predictors_train, target_train)
+            #st.line_chart(xgb_cv[[col for col in xgb_cv.columns if "mean" in col]])
+            #st.subheader("Selected variables")
+            #st.json(best_params)
+            # Train final
+            #xgb_model = run_training(predictors_train, target_train, best_params["params"], best_params["best_round"])
+            xgb_model = automl_training(predictors_train, target_train)
+            # save model to file
+            pickle.dump(xgb_model, open("xgb_model.pickle.dat", "wb"))
+            # Evaluate model error
+            #target_train_predicted = predict(xgb_model, predictors_train)
+            target_train_predicted = xgb_model.predict(predictors_train)
+            training_bias = np.mean(target_train_predicted - target_train)
+            st.metric(label="Training bias", value=training_bias)
+            #target_test_predicted = predict(xgb_model, predictors_test)
+            target_test_predicted = xgb_model.predict(predictors_test)
+            test_errors = target_test_predicted - target_test
+            test_bias = np.mean(test_errors)
+            st.metric(label="Test bias", value=test_bias)
         fig = ff.create_distplot([test_errors], ['errors distribution'], bin_size=0.2)
         fig.update_layout(width=1000,
         st.plotly_chart(fig)
         st.subheader("Plot features importance for the trained model")
+        print("predictors_train shape: ", predictors_train.columns)
+        xgb_features_importance = pd.DataFrame([xgb_model.model.estimator.feature_importances_],
+                                               columns=predictors_train.columns)
+        print(xgb_features_importance)
+        #st.dataframe(xgb_features_importance)
+        # xgb_features_importance = features_importance(xgb_model)
+        #
+        fig = px.bar(xgb_features_importance.T,
                      orientation='h',
                      width=1000,
                      template="simple_white",
 if prediction_model:
     try:
+        predicted = prediction_model.predict(df_to_predict)
         st.metric(label="Monetary sanction prediction", value=f"{'{:,.2f}'.format(10**(predicted[0]-3))} K$")
         print(predicted)
     except ValueError: