Combine all fitbit sensors in one script and one rule

2020-01-16 17:20:04 -05:00 · 2020-01-16 17:20:04 -05:00 · 4aec2c4032
parent 3cdd0487f1
commit 4aec2c4032
5 changed files with 155 additions and 243 deletions
--- a/rules/preprocessing.snakefile
+++ b/rules/preprocessing.snakefile
@ -16,7 +16,7 @@ rule readable_datetime:
        timezones = None,
        fixed_timezone = config["READABLE_DATETIME"]["FIXED_TIMEZONE"]
    wildcard_constraints:
-        sensor = "^fitbit.*"  # ignoring fitbit sensors
+        sensor = '(' + '|'.join([re.escape(x) for x in config["SENSORS"]]) + ')' # only process smartphone sensors, not fitbit
    output:
        "data/raw/{pid}/{sensor}_with_datetime.csv"
    script:
@ -82,33 +82,14 @@ rule application_genres:
    script:
        "../src/data/application_genres.R"
-rule fitbit_heartrate_with_datetime:
+rule fitbit_with_datetime:
    input:
        "data/raw/{pid}/fitbit_data_raw.csv"
    params:
        local_timezone = config["READABLE_DATETIME"]["FIXED_TIMEZONE"],
        fitbit_sensor = "{fitbit_sensor}"
    output:
-        "data/raw/{pid}/fitbit_heartrate_with_datetime.csv"
+        "data/raw/{pid}/fitbit_{fitbit_sensor}_with_datetime.csv"
    script:
-        "../src/data/fitbit_heartrate_with_datetime.py"
+        "../src/data/fitbit_readable_datetime.py"
 rule fitbit_steps_with_datetime:
    input:
        "data/raw/{pid}/fitbit_data_raw.csv"
    params:
        local_timezone = config["READABLE_DATETIME"]["FIXED_TIMEZONE"]
    output:
        "data/raw/{pid}/fitbit_steps_with_datetime.csv"
    script:
        "../src/data/fitbit_steps_with_datetime.py"
 rule fitbit_sleep_with_datetime:
    input:
        "data/raw/{pid}/fitbit_data_raw.csv"
    params:
        local_timezone = config["READABLE_DATETIME"]["FIXED_TIMEZONE"]
    output:
        "data/raw/{pid}/fitbit_sleep_with_datetime.csv"
    script:
        "../src/data/fitbit_sleep_with_datetime.py"
--- a/src/data/fitbit_heartrate_with_datetime.py
+++ b/src/data/fitbit_heartrate_with_datetime.py
@ -1,71 +0,0 @@
 import pandas as pd
 import pytz, json
 from datetime import datetime
 NIGHT = "night"
 MORNING = "morning"
 AFTERNOON = "afternoon"
 EVENING = "evening"
 HOUR2EPOCH = [NIGHT] * 6 + [MORNING] * 6 + [AFTERNOON] * 6 + [EVENING] * 6
 HR_COLUMNS = ("device_id",
              "heartrate",
              "local_date_time",
              "local_date",
              "local_month",
              "local_day",
              "local_day_of_week",
              "local_time",
              "local_hour",
              "local_minute",
              "local_day_segment")
 fitbit_data = pd.read_csv(snakemake.input[0])
 heartrate_data = fitbit_data[fitbit_data["fitbit_data_type"] == "heartrate"]
 local_timezone = pytz.timezone(snakemake.params["local_timezone"])
 """
 Data is pulled in intraday manner. Since data will be duplicated until the
 last record from that day, first sort by time, then drop all but
 the last record for each day. Drop duplicates based on aware timestamp.
 """
 local_date_col = heartrate_data["timestamp"].apply(lambda ts: str(datetime.fromtimestamp(ts/1000, tz=local_timezone).date()))
 heartrate_data = heartrate_data.assign(local_date=local_date_col.values)
 heartrate_data.sort_values(by="timestamp", ascending=True, inplace=True)
 heartrate_data.drop_duplicates(subset="local_date", keep="last", inplace=True)
 device_id = heartrate_data["device_id"].iloc[0]
 records = []
 # Parse JSON into individual records
 for record in heartrate_data.fitbit_data:
    record = json.loads(record)  # Parse text into JSON
    curr_date = datetime.strptime(record["activities-heart"][0]["dateTime"], "%Y-%m-%d")
    dataset = record["activities-heart-intraday"]["dataset"]
    for data in dataset:
        d_time = datetime.strptime(data["time"], '%H:%M:%S').time()
        d_datetime = datetime.combine(curr_date, d_time)
        # Create tuple of parsed data
        row = (device_id,
               data["value"],
               d_datetime,
               d_datetime.date(),
               d_datetime.month,
               d_datetime.day,
               d_datetime.weekday(),
               d_datetime.time(),
               d_datetime.hour,
               d_datetime.minute,
               HOUR2EPOCH[d_datetime.hour])
        # Append the data to a list
        records.append(row)
 # Create a new DataFrame from the list of tuples.
 heartrate_preprocessed = pd.DataFrame(data=records, columns=HR_COLUMNS)
 heartrate_preprocessed.to_csv(snakemake.output[0], index=False)
--- a/src/data/fitbit_readable_datetime.py
+++ b/src/data/fitbit_readable_datetime.py
@ -0,0 +1,150 @@
 import pandas as pd
 import pytz, json
 from datetime import datetime
 NIGHT = "night"
 MORNING = "morning"
 AFTERNOON = "afternoon"
 EVENING = "evening"
 HOUR2EPOCH = [NIGHT] * 6 + [MORNING] * 6 + [AFTERNOON] * 6 + [EVENING] * 6
 HR_COLUMNS = ("device_id",
                "heartrate", 
                "local_date_time", "local_date", "local_month", "local_day",
                "local_day_of_week", "local_time", "local_hour", "local_minute", 
                "local_day_segment")
 SLEEP_COLUMNS = ("device_id",
                    "sleep", # 1: "asleep", 2: "restless", or 3: "awake"
                    "local_date_time", "local_date", "local_month", "local_day",
                    "local_day_of_week", "local_time", "local_hour", "local_minute",
                    "local_day_segment")
 STEPS_COLUMNS = ("device_id",
                    "steps",
                    "local_date_time", "local_date", "local_month", "local_day",
                    "local_day_of_week", "local_time", "local_hour", "local_minute",
                    "local_day_segment")
 def drop_duplicates(data, local_timezone):
    """
    Data is pulled in intraday manner. Since data will be duplicated until the
    last record from that day, first sort by time, then drop all but
    the last record for each day. Drop duplicates based on aware timestamp.
    """
    local_date_col = data["timestamp"].apply(lambda ts: str(datetime.fromtimestamp(ts/1000, tz=local_timezone).date()))
    data = data.assign(local_date=local_date_col.values)
    data.sort_values(by="timestamp", ascending=True, inplace=True)
    data.drop_duplicates(subset="local_date", keep="last", inplace=True)
    return data
 def parse_steps_data(steps_data):
    device_id = steps_data["device_id"].iloc[0]
    records = []
    # Parse JSON into individual records
    for record in steps_data.fitbit_data:
        record = json.loads(record)  # Parse text into JSON
        curr_date = datetime.strptime(
            record["activities-steps"][0]["dateTime"], "%Y-%m-%d")
        dataset = record["activities-steps-intraday"]["dataset"]
        for data in dataset:
            d_time = datetime.strptime(data["time"], '%H:%M:%S').time()
            d_datetime = datetime.combine(curr_date, d_time)
            row = (device_id,
                data["value"],
                d_datetime,
                d_datetime.date(),
                d_datetime.month,
                d_datetime.day,
                d_datetime.weekday(),
                d_datetime.time(),
                d_datetime.hour,
                d_datetime.minute,
                HOUR2EPOCH[d_datetime.hour])
            records.append(row)
    return pd.DataFrame(data=records, columns=STEPS_COLUMNS)
 def parse_sleep_data(sleep_data):
    device_id = sleep_data["device_id"].iloc[0]
    records = []
    # Parse JSON into individual records
    for multi_record in sleep_data.fitbit_data:
        for record in json.loads(multi_record)["sleep"]:
            # Compute date when sleep episodes span two days
            start_date = datetime.strptime(record["startTime"][:10], "%Y-%m-%d")
            end_date = datetime.strptime(record["endTime"][:10], "%Y-%m-%d")
            flag = 1 if start_date == end_date else 0
            for data in record["minuteData"]:
                d_time = datetime.strptime(data["dateTime"], '%H:%M:%S').time()
                if not flag and not d_time.hour:
                    flag = 1
                curr_date = end_date if flag else start_date
                d_datetime = datetime.combine(curr_date, d_time)
                row = (device_id,
                    data["value"],
                    d_datetime,
                    d_datetime.date(),
                    d_datetime.month,
                    d_datetime.day,
                    d_datetime.weekday(),
                    d_datetime.time(),
                    d_datetime.hour,
                    d_datetime.minute,
                    HOUR2EPOCH[d_datetime.hour])
                records.append(row)
    return pd.DataFrame(data=records, columns=SLEEP_COLUMNS)
 def parse_heartrate_data(heartrate_data):
    device_id = heartrate_data["device_id"].iloc[0]
    records = []
    # Parse JSON into individual records
    for record in heartrate_data.fitbit_data:
        record = json.loads(record)  # Parse text into JSON
        curr_date = datetime.strptime(record["activities-heart"][0]["dateTime"], "%Y-%m-%d")
        dataset = record["activities-heart-intraday"]["dataset"]
        for data in dataset:
            d_time = datetime.strptime(data["time"], '%H:%M:%S').time()
            d_datetime = datetime.combine(curr_date, d_time)
            row = (device_id,
                data["value"],
                d_datetime,
                d_datetime.date(),
                d_datetime.month,
                d_datetime.day,
                d_datetime.weekday(),
                d_datetime.time(),
                d_datetime.hour,
                d_datetime.minute,
                HOUR2EPOCH[d_datetime.hour])
            records.append(row)
    return pd.DataFrame(data=records, columns=HR_COLUMNS)
 fitbit_data = pd.read_csv(snakemake.input[0])
 local_timezone = pytz.timezone(snakemake.params["local_timezone"])
 sensor = snakemake.params["fitbit_sensor"]
 data = fitbit_data[fitbit_data["fitbit_data_type"] == sensor]
 data = drop_duplicates(data, local_timezone)
 if sensor == "heartrate":
    data_preprocesed = parse_heartrate_data(data)
 elif sensor == "sleep":
    data_preprocesed = parse_sleep_data(data)
 elif sensor == "steps":
    data_preprocesed = parse_steps_data(data)
 data_preprocesed.to_csv(snakemake.output[0], index=False)
--- a/src/data/fitbit_sleep_with_datetime.py
+++ b/src/data/fitbit_sleep_with_datetime.py
@ -1,76 +0,0 @@
 import pandas as pd
 import pytz, json
 from datetime import datetime
 NIGHT = "night"
 MORNING = "morning"
 AFTERNOON = "afternoon"
 EVENING = "evening"
 HOUR2EPOCH = [NIGHT] * 6 + [MORNING] * 6 + [AFTERNOON] * 6 + [EVENING] * 6
 SLEEP_COLUMNS = ("device_id",
                 "sleep", # 1: "asleep", 2: "restless", or 3: "awake"
                 "local_date_time",
                 "local_date",
                 "local_month",
                 "local_day",
                 "local_day_of_week",
                 "local_time",
                 "local_hour",
                 "local_minute",
                 "local_day_segment")
 fitbit_data = pd.read_csv(snakemake.input[0])
 sleep_data = fitbit_data[fitbit_data["fitbit_data_type"] == "sleep"]
 local_timezone = pytz.timezone(snakemake.params["local_timezone"])
 """
 Data is pulled in intraday manner. Since data will be duplicated until the
 last record from that day, first sort by time, then drop all but
 the last record for each day. Drop duplicates based on aware timestamp.
 """
 local_date_col = sleep_data["timestamp"].apply(lambda ts: str(datetime.fromtimestamp(ts/1000, tz=local_timezone).date()))
 sleep_data = sleep_data.assign(local_date=local_date_col.values)
 sleep_data.sort_values(by="timestamp", ascending=True, inplace=True)
 sleep_data.drop_duplicates(subset="local_date", keep="last", inplace=True)
 device_id = sleep_data["device_id"].iloc[0]
 records = []
 # Parse JSON into individual records
 for multi_record in sleep_data.fitbit_data:
    for record in json.loads(multi_record)["sleep"]:
        start_date = datetime.strptime(record["startTime"][:10], "%Y-%m-%d")
        end_date = datetime.strptime(record["endTime"][:10], "%Y-%m-%d")
        flag = 1 if start_date == end_date else 0
        for data in record["minuteData"]:
            d_time = datetime.strptime(data["dateTime"], '%H:%M:%S').time()
            if not flag and not d_time.hour:
                flag = 1
            curr_date = end_date if flag else start_date
            d_datetime = datetime.combine(curr_date, d_time)
            # Create tuple of parsed data
            row = (device_id,
                   data["value"],
                   d_datetime,
                   d_datetime.date(),
                   d_datetime.month,
                   d_datetime.day,
                   d_datetime.weekday(),
                   d_datetime.time(),
                   d_datetime.hour,
                   d_datetime.minute,
                   HOUR2EPOCH[d_datetime.hour])
            # Append the data to a list
            records.append(row)
 # Create a new DataFrame from the list of tuples.
 sleep_preprocessed = pd.DataFrame(data=records, columns=SLEEP_COLUMNS)
 sleep_preprocessed.to_csv(snakemake.output[0], index=False)
--- a/src/data/fitbit_steps_with_datetime.py
+++ b/src/data/fitbit_steps_with_datetime.py
@ -1,72 +0,0 @@
 import pandas as pd
 import pytz, json
 from datetime import datetime
 NIGHT = "night"
 MORNING = "morning"
 AFTERNOON = "afternoon"
 EVENING = "evening"
 HOUR2EPOCH = [NIGHT] * 6 + [MORNING] * 6 + [AFTERNOON] * 6 + [EVENING] * 6
 STEPS_COLUMNS = ("device_id",
                 "steps",
                 "local_date_time",
                 "local_date",
                 "local_month",
                 "local_day",
                 "local_day_of_week",
                 "local_time",
                 "local_hour",
                 "local_minute",
                 "local_day_segment")
 fitbit_data = pd.read_csv(snakemake.input[0])
 steps_data = fitbit_data[fitbit_data["fitbit_data_type"] == "steps"]
 local_timezone = pytz.timezone(snakemake.params["local_timezone"])
 """
 Data is pulled in intraday manner. Since data will be duplicated until the
 last record from that day, first sort by time, then drop all but
 the last record for each day. Drop duplicates based on aware timestamp.
 """
 local_date_col = steps_data["timestamp"].apply(lambda ts: str(datetime.fromtimestamp(ts/1000, tz=local_timezone).date()))
 steps_data = steps_data.assign(local_date=local_date_col.values)
 steps_data.sort_values(by="timestamp", ascending=True, inplace=True)
 steps_data.drop_duplicates(subset="local_date", keep="last", inplace=True)
 device_id = steps_data["device_id"].iloc[0]
 records = []
 # Parse JSON into individual records
 for record in steps_data.fitbit_data:
    record = json.loads(record)  # Parse text into JSON
    curr_date = datetime.strptime(
        record["activities-steps"][0]["dateTime"], "%Y-%m-%d")
    dataset = record["activities-steps-intraday"]["dataset"]
    for data in dataset:
        d_time = datetime.strptime(data["time"], '%H:%M:%S').time()
        d_datetime = datetime.combine(curr_date, d_time)
        # Create tuple of parsed data
        row = (device_id,
               data["value"],
               d_datetime,
               d_datetime.date(),
               d_datetime.month,
               d_datetime.day,
               d_datetime.weekday(),
               d_datetime.time(),
               d_datetime.hour,
               d_datetime.minute,
               HOUR2EPOCH[d_datetime.hour])
        # Append the data to a list
        records.append(row)
 # Create a new DataFrame from the list of tuples.
 steps_preprocessed = pd.DataFrame(data=records, columns=STEPS_COLUMNS)
 steps_preprocessed.to_csv(snakemake.output[0], index=False)