Split baseline data to participants.

And some csv I/O settings.
2022-02-04 18:37:57 +01:00 · 2022-02-04 18:37:57 +01:00 · bf9c764c97
parent 16e608db74
commit bf9c764c97
4 changed files with 31 additions and 4 deletions
--- a/2
+++ b/2
@ -405,7 +405,7 @@ for provider in config["ALL_CLEANING_OVERALL"]["PROVIDERS"].keys():
 # Demographic features
 files_to_compute.extend(expand("data/raw/baseline_merged.csv"))
-#files_to_compute.extend(expand("data/raw/{pid}/participant_baseline_raw.csv", pid=config["PIDS"]))
+files_to_compute.extend(expand("data/raw/{pid}/participant_baseline_raw.csv", pid=config["PIDS"]))
 rule all:
    input:
--- a/rules/models.smk
+++ b/rules/models.smk
@ -6,3 +6,11 @@ rule merge_baseline_data:
    script:
        "../src/data/merge_baseline_data.py"
 rule download_baseline_data:
    input:
        participant_file = "data/external/participant_files/{pid}.yaml",
        data = "data/raw/baseline_merged.csv"
    output:
        "data/raw/{pid}/participant_baseline_raw.csv"
    script:
        "../src/data/download_baseline_data.py"
--- a/src/data/download_baseline_data.py
+++ b/src/data/download_baseline_data.py
@ -0,0 +1,14 @@
 import pandas as pd
 import yaml
 filename = snakemake.input["data"]
 baseline = pd.read_csv(filename)
 with open(snakemake.input["participant_file"], "r") as file:
    participant = yaml.safe_load(file)
 username = participant["PHONE"]["LABEL"]
 baseline[baseline["username"] == username].to_csv(snakemake.output[0],
                                                  index=False,
                                                  encoding="utf-8",)
--- a/src/data/merge_baseline_data.py
+++ b/src/data/merge_baseline_data.py
@ -11,7 +11,11 @@ filenames = snakemake.input["data"]
 baseline_dfs = []
 for fn in filenames:
-    baseline_dfs.append(pd.read_csv(fn))
+    baseline_dfs.append(pd.read_csv(fn,
                                    parse_dates=["Geboortedatum"],
                                    infer_datetime_format=True,
                                    cache_dates=True,
                                    ))
 baseline = (
    pd.concat(baseline_dfs, join="inner")
@ -22,8 +26,9 @@ baseline = (
 baseline.rename(columns=VARIABLES_TO_TRANSLATE, copy=False, inplace=True)
 now = pd.Timestamp("now")
 baseline = baseline.assign(
    date_of_birth=lambda x: pd.to_datetime(x.date_of_birth),
    age=lambda x: (now - x.date_of_birth).dt.days / 365.25245,
 )
-baseline.to_csv(snakemake.output[0])
+baseline.to_csv(snakemake.output[0],
                index=False,
                encoding="utf-8",)