rapids/src/features/phone_messages/rapids/main.R

library('tidyr') 
library('stringr')

message_features_of_type <- function(messages, messages_type, day_segment, requested_features){
    # Output dataframe
    features = data.frame(local_segment = character(), stringsAsFactors = FALSE)

    # The name of the features this function can compute
    base_features_names  <- c("countmostfrequentcontact", "count", "distinctcontacts", "timefirstmessage", "timelastmessage")

    # The subset of requested features this function can compute
    features_to_compute  <- intersect(base_features_names, requested_features)
 
    # If there are not features or data to work with, return an empty df with appropiate columns names
    if(length(features_to_compute) == 0)
        return(features)
    if(nrow(messages) < 1)
        return(cbind(features, read.csv(text = paste(paste("messages_rapids", messages_type, features_to_compute, sep = "_"), collapse = ","), stringsAsFactors = FALSE)))

    for(feature_name in features_to_compute){
        if(feature_name == "countmostfrequentcontact"){
            # Get the number of messages for the most frequent contact throughout the study
            mostfrequentcontact <- messages %>% 
                group_by(trace) %>% 
                mutate(N=n()) %>% 
                ungroup() %>%
                filter(N == max(N)) %>% 
                head(1) %>% # if there are multiple contacts with the same amount of messages pick the first one only
                pull(trace)
            feature <- messages %>% 
                group_by(local_segment) %>% 
                summarise(!!paste("messages_rapids", messages_type, feature_name, sep = "_") := sum(trace == mostfrequentcontact))
            features <- merge(features, feature, by="local_segment", all = TRUE)
        } else {
            feature <- messages %>% 
                group_by(local_segment)
            
            feature <- switch(feature_name,
                    "count" = feature %>% summarise(!!paste("messages_rapids", messages_type, feature_name, sep = "_") := n()),
                    "distinctcontacts" = feature %>% summarise(!!paste("messages_rapids", messages_type, feature_name, sep = "_") := n_distinct(trace)),
                    "timefirstmessage" = feature %>% summarise(!!paste("messages_rapids", messages_type, feature_name, sep = "_") := first(local_hour) * 60 + first(local_minute)),
                    "timelastmessage" = feature %>% summarise(!!paste("messages_rapids", messages_type, feature_name, sep = "_") := last(local_hour) * 60 + last(local_minute)))

            features <- merge(features, feature, by="local_segment", all = TRUE)
        }
    }
    return(features)
}

rapids_features <- function(sensor_data_files, day_segment, provider){
    messages_data <-  read.csv(sensor_data_files[["sensor_data"]], stringsAsFactors = FALSE)
    messages_data <- messages_data %>% filter_data_by_segment(day_segment)
    messages_types = provider[["MESSAGES_TYPES"]]
    messages_features <- setNames(data.frame(matrix(ncol=1, nrow=0)), c("local_segment"))

    for(message_type in messages_types){
        # Filter rows that belong to the message type and day segment of interest
        message_type_label = ifelse(message_type == "received", "1", ifelse(message_type == "sent", "2", NA))
        if(is.na(message_type_label))
            stop(paste("Message type can online be received or sent but instead you typed: ", message_type, " in config[MESSAGES][MESSAGES_TYPES]"))

        requested_features <- provider[["FEATURES"]][[message_type]]
        messages_of_type <- messages_data %>% filter(message_type == message_type_label)

        features <- message_features_of_type(messages_of_type, message_type, day_segment, requested_features)
        messages_features <- merge(messages_features, features, all=TRUE)
    }
    messages_features <- messages_features %>% mutate_at(vars(contains("countmostfrequentcontact") | contains("distinctcontacts") | contains("count")), list( ~ replace_na(., 0)))
    return(messages_features)
}
Updated sms sensor to messages 2020-06-26 18:20:47 +02:00			`library('tidyr')`
Migrate messages to new segments 2020-08-26 19:01:58 +02:00			`library('stringr')`
Refactor SMS features 2020-03-31 19:33:03 +02:00
Migrate messages to new file structure 2020-08-31 19:34:15 +02:00			`message_features_of_type <- function(messages, messages_type, day_segment, requested_features){`
Refactor SMS features 2020-03-31 19:33:03 +02:00			`# Output dataframe`
Migrate messages to new segments 2020-08-26 19:01:58 +02:00			`features = data.frame(local_segment = character(), stringsAsFactors = FALSE)`
Refactor SMS features 2020-03-31 19:33:03 +02:00
			`# The name of the features this function can compute`
Updated sms sensor to messages 2020-06-26 18:20:47 +02:00			`base_features_names <- c("countmostfrequentcontact", "count", "distinctcontacts", "timefirstmessage", "timelastmessage")`
Refactor SMS features 2020-03-31 19:33:03 +02:00
			`# The subset of requested features this function can compute`
			`features_to_compute <- intersect(base_features_names, requested_features)`
Migrate messages to new segments 2020-08-26 19:01:58 +02:00
Refactor SMS features 2020-03-31 19:33:03 +02:00			`# If there are not features or data to work with, return an empty df with appropiate columns names`
			`if(length(features_to_compute) == 0)`
			`return(features)`
Updated sms sensor to messages 2020-06-26 18:20:47 +02:00			`if(nrow(messages) < 1)`
Migrate messages to new file structure 2020-08-31 19:34:15 +02:00			`return(cbind(features, read.csv(text = paste(paste("messages_rapids", messages_type, features_to_compute, sep = "_"), collapse = ","), stringsAsFactors = FALSE)))`
Refactor SMS features 2020-03-31 19:33:03 +02:00
			`for(feature_name in features_to_compute){`
			`if(feature_name == "countmostfrequentcontact"){`
Refactor Snakefile and docs. Rename SMS scripts 2020-06-23 17:33:34 +02:00			`# Get the number of messages for the most frequent contact throughout the study`
Updated sms sensor to messages 2020-06-26 18:20:47 +02:00			`mostfrequentcontact <- messages %>%`
Update test suite (sms, calls and screen) 2020-06-23 02:47:56 +02:00			`group_by(trace) %>%`
Refactor SMS features 2020-03-31 19:33:03 +02:00			`mutate(N=n()) %>%`
			`ungroup() %>%`
			`filter(N == max(N)) %>%`
Fix bug in SMS features 2020-05-29 17:41:17 +02:00			`head(1) %>% # if there are multiple contacts with the same amount of messages pick the first one only`
Update test suite (sms, calls and screen) 2020-06-23 02:47:56 +02:00			`pull(trace)`
Updated sms sensor to messages 2020-06-26 18:20:47 +02:00			`feature <- messages %>%`
Migrate messages to new segments 2020-08-26 19:01:58 +02:00			`group_by(local_segment) %>%`
Fix NAs are now 0 in some calls and msgs features 2020-10-08 18:23:54 +02:00			`summarise(!!paste("messages_rapids", messages_type, feature_name, sep = "_") := sum(trace == mostfrequentcontact))`
Migrate messages to new segments 2020-08-26 19:01:58 +02:00			`features <- merge(features, feature, by="local_segment", all = TRUE)`
Refactor SMS features 2020-03-31 19:33:03 +02:00			`} else {`
Updated sms sensor to messages 2020-06-26 18:20:47 +02:00			`feature <- messages %>%`
Migrate messages to new segments 2020-08-26 19:01:58 +02:00			`group_by(local_segment)`
Refactor SMS features 2020-03-31 19:33:03 +02:00
			`feature <- switch(feature_name,`
Migrate messages to new file structure 2020-08-31 19:34:15 +02:00			`"count" = feature %>% summarise(!!paste("messages_rapids", messages_type, feature_name, sep = "_") := n()),`
			`"distinctcontacts" = feature %>% summarise(!!paste("messages_rapids", messages_type, feature_name, sep = "_") := n_distinct(trace)),`
			`"timefirstmessage" = feature %>% summarise(!!paste("messages_rapids", messages_type, feature_name, sep = "_") := first(local_hour) * 60 + first(local_minute)),`
			`"timelastmessage" = feature %>% summarise(!!paste("messages_rapids", messages_type, feature_name, sep = "_") := last(local_hour) * 60 + last(local_minute)))`
Refactor SMS features 2020-03-31 19:33:03 +02:00
Migrate messages to new segments 2020-08-26 19:01:58 +02:00			`features <- merge(features, feature, by="local_segment", all = TRUE)`
Refactor SMS features 2020-03-31 19:33:03 +02:00			`}`
			`}`
			`return(features)`
Migrate messages to new file structure 2020-08-31 19:34:15 +02:00			`}`

Update AR module for segments; Refactor input format 2020-10-08 00:11:06 +02:00			`rapids_features <- function(sensor_data_files, day_segment, provider){`
			`messages_data <- read.csv(sensor_data_files[["sensor_data"]], stringsAsFactors = FALSE)`
			`messages_data <- messages_data %>% filter_data_by_segment(day_segment)`
Migrate messages to new file structure 2020-08-31 19:34:15 +02:00			`messages_types = provider[["MESSAGES_TYPES"]]`
			`messages_features <- setNames(data.frame(matrix(ncol=1, nrow=0)), c("local_segment"))`

			`for(message_type in messages_types){`
			`# Filter rows that belong to the message type and day segment of interest`
			`message_type_label = ifelse(message_type == "received", "1", ifelse(message_type == "sent", "2", NA))`
			`if(is.na(message_type_label))`
			`stop(paste("Message type can online be received or sent but instead you typed: ", message_type, " in config[MESSAGES][MESSAGES_TYPES]"))`

			`requested_features <- provider[["FEATURES"]][[message_type]]`
Update AR module for segments; Refactor input format 2020-10-08 00:11:06 +02:00			`messages_of_type <- messages_data %>% filter(message_type == message_type_label)`
Migrate messages to new file structure 2020-08-31 19:34:15 +02:00
			`features <- message_features_of_type(messages_of_type, message_type, day_segment, requested_features)`
			`messages_features <- merge(messages_features, features, all=TRUE)`
			`}`
Fix NAs are now 0 in some calls and msgs features 2020-10-08 18:23:54 +02:00			`messages_features <- messages_features %>% mutate_at(vars(contains("countmostfrequentcontact") \| contains("distinctcontacts") \| contains("count")), list( ~ replace_na(., 0)))`
Migrate messages to new file structure 2020-08-31 19:34:15 +02:00			`return(messages_features)`
Refactor SMS features 2020-03-31 19:33:03 +02:00			`}`