Read RAPIDS features and create columns.

2022-01-07 17:00:12 +01:00 · 2022-01-07 17:00:12 +01:00 · 702b091d73
parent 257a044227
commit 702b091d73
1 changed files with 39 additions and 1 deletions
--- a/exploration/ex_ml_pipeline.py
+++ b/exploration/ex_ml_pipeline.py
@ -6,7 +6,7 @@
 #       extension: .py
 #       format_name: percent
 #       format_version: '1.3'
-#       jupytext_version: 1.12.0
+#       jupytext_version: 1.13.0
 #   kernelspec:
 #     display_name: straw2analysis
 #     language: python
@ -24,6 +24,7 @@ import numpy as np
 import pandas as pd
 import seaborn as sns
 import yaml
 from pyprojroot import here
 from sklearn import linear_model
 from sklearn.model_selection import LeaveOneGroupOut, cross_val_score
@ -257,4 +258,41 @@ model_validation.cross_validate()
 # %%
 model_validation.groups
 # %% [markdown]
 # # Use RAPIDS
 # %%
 with open(here("rapids/config.yaml"), "r") as file:
    rapids_config = yaml.safe_load(file)
 # %%
 for key in rapids_config.keys():
    if isinstance(rapids_config[key], dict):  # Remove top-level configs
        if "PROVIDERS" in rapids_config[key]:  # Retain features (that have providers)
            if rapids_config[key]["PROVIDERS"]:  # Remove non-implemented features
                for provider in rapids_config[key]["PROVIDERS"]:
                    if rapids_config[key]["PROVIDERS"][provider][
                        "COMPUTE"
                    ]:  # Check that the features were actually calculated
                        if "FEATURES" in rapids_config[key]["PROVIDERS"][provider]:
                            print(key)
                            print(provider)
                            print(rapids_config[key]["PROVIDERS"][provider]["FEATURES"])
 # %%
 features_rapids = pd.read_csv(
    here("rapids/data/processed/features/all_participants/all_sensor_features.csv"),
    parse_dates=["local_segment_start_datetime", "local_segment_end_datetime"],
 )
 # %%
 features_rapids.columns
 # %%
 features_rapids = features_rapids.assign(
    date_lj=lambda x: x.local_segment_start_datetime.dt.date
 )
 # %%
 features_rapids["participant_id"] = features_rapids["pid"].str.extract("(\d+)")
 features_rapids["participant_id"] = pd.to_numeric(features_rapids["participant_id"])