Added Converstion Features.

Updated config.yaml, Snakefile, Features.Snakefile and documentation.
2020-06-19 01:27:28 -04:00 · 2020-06-19 01:27:28 -04:00 · 1409de2832
parent 5627a73a67
commit 1409de2832
6 changed files with 227 additions and 1 deletions
--- a/3
+++ b/3
@ -58,6 +58,9 @@ rule all:
        expand("data/processed/{pid}/light_{day_segment}.csv",
                            pid = config["PIDS"],
                            day_segment = config["LIGHT"]["DAY_SEGMENTS"]),
        expand("data/processed/{pid}/conversation_{day_segment}.csv",
                            pid = config["PIDS"],
                            day_segment = config["CONVERSATION"]["DAY_SEGMENTS"]),
        expand("data/processed/{pid}/accelerometer_{day_segment}.csv",
                            pid = config["PIDS"],
                            day_segment = config["ACCELEROMETER"]["DAY_SEGMENTS"]),
--- a/config.yaml
+++ b/config.yaml
@ -1,5 +1,5 @@
 # Valid database table names
-SENSORS: [applications_crashes, applications_foreground, applications_notifications, battery, bluetooth, calls, locations, messages, plugin_ambient_noise, plugin_device_usage, plugin_google_activity_recognition, plugin_ios_activity_recognition, screen]
+SENSORS: [applications_crashes, applications_foreground, applications_notifications, battery, bluetooth, calls, locations, messages, plugin_ambient_noise, plugin_device_usage, plugin_google_activity_recognition, plugin_ios_activity_recognition, screen,plugin_studentlife_audio]
 FITBIT_TABLE: [fitbit_data]
 FITBIT_SENSORS: [heartrate, steps, sleep, calories]
@ -138,6 +138,16 @@ WIFI:
  DAY_SEGMENTS: *day_segments
  FEATURES: ["countscans", "uniquedevices", "countscansmostuniquedevice"]
 CONVERSATION:
  DAY_SEGMENTS: *day_segments
  FEATURES: ["minutessilence", "minutesnoise", "minutesvoice", "minutesunknown","sumconversationduration","avgconversationduration",
    "sdconversationduration","minconversationduration","maxconversationduration","timefirstconversation","timelastconversation","sumenergy",
    "avgenergy","sdenergy","minenergy","maxenergy","silencesensedfraction","noisesensedfraction",
    "voicesensedfraction","unknownsensedfraction","silenceexpectedfraction","noiseexpectedfraction","voiceexpectedfraction",
    "unknownexpectedfraction"]
  RECORDINGMINUTES: 1
  PAUSEDMINUTES : 3
 PARAMS_FOR_ANALYSIS:
  GROUNDTRUTH_TABLE: participant_info
  SOURCES: &sources ["phone_features", "fitbit_features", "phone_fitbit_features"]
--- a/docs/features/extracted.rst
+++ b/docs/features/extracted.rst
@ -688,6 +688,78 @@ firstuseafter               minutes             Seconds until the first unlock e
 An ``unlock`` episode is considered as the time between an ``unlock`` event and a ``lock`` event. iOS recorded these episodes reliably (albeit some duplicated ``lock`` events within milliseconds from each other). However, in Android there are some events unrelated to the screen state because of multiple consecutive ``unlock``/``lock`` events, so we keep the closest pair. In our experiments these cases are less than 10% of the screen events collected. This happens because ``ACTION_SCREEN_OFF`` and ``ON`` are "sent when the device becomes non-interactive which may have nothing to do with the screen turning off". Additionally, in Android it is possible to measure the time spent on the ``lock`` screen before an ``unlock`` event as well as the total screen time (i.e. ``ON`` to ``OFF``) but we are only keeping ``unlock`` episodes (``unlock`` to ``OFF``) to be consistent with iOS. 
 .. _conversation-sensor-doc:
 Conversation
 """"""""
 See `Conversation Config Code`_
 **Available Epochs (day_segment) :** daily, morning, afternoon, evening, night
 **Available Platforms:** Android and iOS
 **Snakefile entry to compute these features:**
     | ``expand("data/processed/{pid}/conversation_{day_segment}.csv",``
     |                      ``pid = config["PIDS"],``
     |                       ``day_segment = config["CONVERSATION"]["DAY_SEGMENTS"]),``
 **Snakemake rule chain:**
 - Rule ``rules/preprocessing.snakefile/download_dataset``
 - Rule ``rules/preprocessing.snakefile/readable_datetime``
 - Rule ``rules/features.snakefile/conversation_features``
 .. _conversation-parameters:
 **Conversation Rule Parameters (conversation_features):**
 =========================    ===================
 Name	                     Description
 =========================    ===================
 day_segment                  The particular ``day_segments`` that will be analyzed. The available options are ``daily``, ``morning``, ``afternoon``, ``evening``, ``night``
 recordingMinutes             The current default configuration is 1 min recording/3 min pause.
 features_deltas              Features to be computed, see table below
 pausedMinutes                The current default configuration is 1 min recording/3 min pause.
 =========================    ===================
 .. _conversation-available-features:
 **Available Conversation Features**
 =========================   =================   =============
 Name                        Units               Description
 =========================   =================   =============
 minutessilence              minutes             Total duration of all minutes silence.
 minutesnoise                minutes             Total duration of all minutes noise.
 minutesvoice                minutes             Total duration of all minutes voice.
 minutesunknown              minutes             Total duration of all minutes unknown.
 sumconversationduration     minutes             Total duration of all the conversation.
 maxconversationduration     minutes             Longest duration of all the conversation.
 minconversationduration     minutes             Shortest duration of all the conversation.
 avgconversationduration     minutes             Average duration of all the conversation.
 sdconversationduration      minutes             Standard Deviation duration of all the conversation.
 timefirstconversation       minutes             Starting time of first conversation of the Day/Epoch.
 timelastconversation        minutes             Starting time of last conversation of the Day/Epoch.
 sumenergy                   L2-norm             Total sum of all the energy.
 avgenergy                   L2-norm             Average of all the energy.
 sdenergy                    L2-norm             Standard Deviation of all the energy.
 minenergy                   L2-norm             Minimum of all the energy.
 maxenergy                   L2-norm             Maximum of all the energy.
 silencesensedfraction       minutes
 noisesensedfraction         minutes
 voicesensedfraction         minutes
 unknownsensedfraction       minutes
 silenceexpectedfraction     minutes
 noiseexpectedfraction       minutes
 voiceexpectedfraction       minutes
 unknownexpectedfraction     minutes
 =========================   =================   =============
 **Assumptions/Observations:** 
 .. ------------------------------- Begin Fitbit Section ----------------------------------- ..
 .. _fitbit-sleep-sensor-doc:
--- a/rules/features.snakefile
+++ b/rules/features.snakefile
@ -9,6 +9,15 @@ def optional_ar_input(wildcards):
        return ["data/raw/{pid}/plugin_ios_activity_recognition_with_datetime_unified.csv",
                "data/processed/{pid}/plugin_ios_activity_recognition_deltas.csv"]
 def optional_conversation_input(wildcards):
    with open("data/external/"+wildcards.pid, encoding="ISO-8859-1") as external_file:
        external_file_content = external_file.readlines()
    platform = external_file_content[1].strip()
    if platform == "android":
        return ["data/raw/{pid}/plugin_studentlife_audio_android_with_datetime.csv"]
    else:
        return ["data/raw/{pid}/plugin_studentlife_audio_with_datetime.csv"]
 def optional_location_input(wildcards):
    if config["BARNETT_LOCATION"]["LOCATIONS_TO_USE"] == "RESAMPLE_FUSED":
        return rules.resample_fused_location.output
@ -146,6 +155,19 @@ rule light_features:
    script:
        "../src/features/light_features.py"
 rule conversation_features:
    input:
        optional_conversation_input
    params:
        day_segment = "{day_segment}",
        features = config["CONVERSATION"]["FEATURES"],
        recordingMinutes = config["CONVERSATION"]["RECORDINGMINUTES"],
        pausedMinutes = config["CONVERSATION"]["PAUSEDMINUTES"],
    output:
        "data/processed/{pid}/conversation_{day_segment}.csv"
    script:
        "../src/features/conversation_features.py"
 rule accelerometer_features:
    input:
        "data/raw/{pid}/accelerometer_with_datetime.csv",
--- a/src/features/conversation/conversation_base.py
+++ b/src/features/conversation/conversation_base.py
@ -0,0 +1,104 @@
 import pandas as pd
 def base_conversation_features(conversation_data, day_segment, requested_features,recordingMinutes,pausedMinutes,expectedMinutes):
    # name of the features this function can compute
    base_features_names = ["minutessilence", "minutesnoise", "minutesvoice", "minutesunknown","sumconversationduration","avgconversationduration",
    "sdconversationduration","minconversationduration","maxconversationduration","timefirstconversation","timelastconversation","sumenergy",
    "avgenergy","sdenergy","minenergy","maxenergy","silencesensedfraction","noisesensedfraction",
    "voicesensedfraction","unknownsensedfraction","silenceexpectedfraction","noiseexpectedfraction","voiceexpectedfraction",
    "unknownexpectedfraction"]
    # the subset of requested features this function can compute
    features_to_compute = list(set(requested_features) & set(base_features_names))
    if conversation_data.empty:
        conversation_features = pd.DataFrame(columns=["local_date"] + ["conversation_" + day_segment + "_" + x for x in features_to_compute])
    else:
        if day_segment != "daily":
            conversation_data = conversation_data[conversation_data["local_day_segment"] == day_segment]
        if conversation_data.empty:
            conversation_features = pd.DataFrame(columns=["local_date"] + ["conversation_" + day_segment + "_" + x for x in features_to_compute])
        else:
            conversation_features = pd.DataFrame()
            if "minutessilence" in features_to_compute:
                conversation_features["conversation_" + day_segment + "_minutessilence"] = conversation_data[conversation_data['inference']==0].groupby(["local_date"])['inference'].count()
            if "minutesnoise" in features_to_compute:
                conversation_features["conversation_" + day_segment + "_minutesnoise"] = conversation_data[conversation_data['inference']==1].groupby(["local_date"])['inference'].count()
            if "minutesvoice" in features_to_compute:
                conversation_features["conversation_" + day_segment + "_minutesvoice"] = conversation_data[conversation_data['inference']==2].groupby(["local_date"])['inference'].count()
            if "minutesunknown" in features_to_compute:
                conversation_features["conversation_" + day_segment + "_minutesunknown"] = conversation_data[conversation_data['inference']==3].groupby(["local_date"])['inference'].count()
            conversation_data['conv_Dur'] = conversation_data['double_convo_end'] - conversation_data['double_convo_start']
            conversation_data['totalDuration'] = conversation_data[conversation_data['inference']==0].groupby(["local_date"])['inference'].count() + conversation_data[conversation_data['inference']==1].groupby(["local_date"])['inference'].count() + conversation_data[conversation_data['inference']==2].groupby(["local_date"])['inference'].count() + conversation_data[conversation_data['inference']==3].groupby(["local_date"])['inference'].count()
            if "silencesensedfraction" in features_to_compute:
                conversation_features["conversation_" + day_segment + "_silencesensedfraction"] = conversation_data[conversation_data['inference']==0].groupby(["local_date"])['inference'].count()/ conversation_data['totalDuration']
            if "noisesensedfraction" in features_to_compute:
                conversation_features["conversation_" + day_segment + "_noisesensedfraction"] = conversation_data[conversation_data['inference']==1].groupby(["local_date"])['inference'].count()/ conversation_data['totalDuration']
            if "voicesensedfraction" in features_to_compute:
                conversation_features["conversation_" + day_segment + "_voicesensedfraction"] = conversation_data[conversation_data['inference']==2].groupby(["local_date"])['inference'].count()/ conversation_data['totalDuration']
            if "unknownsensedfraction" in features_to_compute:
                conversation_features["conversation_" + day_segment + "_unknownsensedfraction"] = conversation_data[conversation_data['inference']==3].groupby(["local_date"])['inference'].count()/ conversation_data['totalDuration']    
            if "silenceexpectedfraction" in features_to_compute:
                conversation_features["conversation_" + day_segment + "_silenceexpectedfraction"] = conversation_data[conversation_data['inference']==0].groupby(["local_date"])['inference'].count()/ expectedMinutes
            if "noiseexpectedfraction" in features_to_compute:
                conversation_features["conversation_" + day_segment + "_noiseexpectedfraction"] = conversation_data[conversation_data['inference']==1].groupby(["local_date"])['inference'].count()/ expectedMinutes
            if "voiceexpectedfraction" in features_to_compute:
                conversation_features["conversation_" + day_segment + "_voiceexpectedfraction"] = conversation_data[conversation_data['inference']==2].groupby(["local_date"])['inference'].count()/ expectedMinutes
            if "unknownexpectedfraction" in features_to_compute:
                conversation_features["conversation_" + day_segment + "_unknownexpectedfraction"] = conversation_data[conversation_data['inference']==3].groupby(["local_date"])['inference'].count()/ expectedMinutes
            if "sumconversationduration" in features_to_compute:
                conversation_features["conversation_" + day_segment + "_sumconversationduration"] = conversation_data.groupby(["local_date"])['conv_Dur'].sum()
            if "avgconversationduration" in features_to_compute:
                conversation_features["conversation_" + day_segment + "_avgconversationduration"] = conversation_data.groupby(["local_date"])['conv_Dur'].mean()
            if "sdconversationduration" in features_to_compute:
                conversation_features["conversation_" + day_segment + "_sdconversationduration"] = conversation_data.groupby(["local_date"])['conv_Dur'].std()
            if "minconversationduration" in features_to_compute:
                conversation_features["conversation_" + day_segment + "_minconversationduration"] = conversation_data.groupby(["local_date"])['conv_Dur'].min()
            if "maxconversationduration" in features_to_compute:
                conversation_features["conversation_" + day_segment + "_maxconversationduration"] = conversation_data.groupby(["local_date"])['conv_Dur'].max()
            if "timefirstconversation" in features_to_compute:
                conversation_features["conversation_" + day_segment + "_timefirstconversation"] = conversation_data[conversation_data["double_convo_start"]> 0].groupby(["local_date"])['double_convo_start'].min()
            if "timelastconversation" in features_to_compute:
                conversation_features["conversation_" + day_segment + "_timelastconversation"] = conversation_data.groupby(["local_date"])['double_convo_start'].max()
            if "sumenergy" in features_to_compute:
                conversation_features["conversation_" + day_segment + "_sumenergy"] = conversation_data.groupby(["local_date"])['double_energy'].sum()
            if "avgenergy" in features_to_compute:
                conversation_features["conversation_" + day_segment + "_avgenergy"] = conversation_data.groupby(["local_date"])['double_energy'].mean()
            if "sdenergy" in features_to_compute:
                conversation_features["conversation_" + day_segment + "_sdenergy"] = conversation_data.groupby(["local_date"])['double_energy'].std()
            if "minenergy" in features_to_compute:
                conversation_features["conversation_" + day_segment + "_minenergy"] = conversation_data.groupby(["local_date"])['double_energy'].min()
            if "maxenergy" in features_to_compute:
                conversation_features["conversation_" + day_segment + "_maxenergy"] = conversation_data.groupby(["local_date"])['double_energy'].max()
            conversation_features = conversation_features.reset_index()
    return conversation_features
--- a/src/features/conversation_features.py
+++ b/src/features/conversation_features.py
@ -0,0 +1,15 @@
 import pandas as pd
 from conversation.conversation_base import base_conversation_features
 conversation_data = pd.read_csv(snakemake.input[0], parse_dates=["local_date_time", "local_date"])
 day_segment = snakemake.params["day_segment"]
 requested_features = snakemake.params["features"]
 recordingMinutes = snakemake.params["recordingMinutes"]
 pausedMinutes = snakemake.params["pausedMinutes"]
 expectedMinutes =  1440 / (recordingMinutes + pausedMinutes)  
 conversation_features = pd.DataFrame(columns=["local_date"])
 conversation_features = conversation_features.merge(base_conversation_features(conversation_data, day_segment, requested_features,recordingMinutes,pausedMinutes,expectedMinutes), on="local_date", how="outer")
 assert len(requested_features) + 1 == conversation_features.shape[1], "The number of features in the output dataframe (=" + str(conversation_features.shape[1]) + ") does not match the expected value (=" + str(len(requested_features)) + " + 1). Verify your conversation feature extraction functions"
 conversation_features.to_csv(snakemake.output[0], index=False)