Подмножество данных по окну временного интервала для каждой строки в кадре данных после использования group_by ()

12.03.2021Рубрика: ВопросыАвтор: admin

У меня есть данные временного ряда с тремя столбцами: столбец значений, столбец group_var (используется для группировки) и столбец даты. Для каждой строки в кадре данных я хотел бы получить среднее значение для этой группы строк после дальнейшего разбиения на определенные временные рамки. Вот пример кода для подмножества:

df$value[df$date >= (current_row$date - 545) & df$date <= (current_row$date - 365)]

После того, как я получу это подмножество, я могу легко применить mean (), но где я застрял, так это то, как я могу заставить этот код работать с чем-то вроде этого:

df %>%
    group_by(group_var) %>%
      mutate(subset_mean = mean(df$value[df$date >= (current_row$date - 545) & df$date <= (current_row$date - 365)])
)

Проблема, которую я вижу, заключается в том, что я не думаю, что могу использовать df внутри строки mutate () после того, как сгруппирую исходный df. Также я не уверен, как я могу создать переменную current_row для ссылки на текущую строку для вычисления подмножества данных.

Изменить: добавлены данные примера и воспроизводимый код

library(dplyr)
date <- c("2016-02-03", "2016-06-14", "2016-03-15", "2017-04-16","2016-01-27", "2016-01-13", "2017-04-24", "2017-06-15")
date <- date %>% as.Date(format = "%Y-%m-%d")
val <- c(10, 20, 50, 70, 30, 44, 67, 42)
group_var <- c("A", "B", "B", "A", "B", "A", "A", "B")

df <- data.frame(date, val, group_var)
 
df %>% 
  group_by(group_var)

Добавлен пример данных / входов — person rstats23 schedule 12.03.2021

Чтобы подтвердить, ищете ли вы среднее значение в окне, которое было между 545 и 365 днями ранее? — person rstats23 schedule 12.03.2021

Да, это временные рамки, для которых я хочу разбить данные. От 545 до 365 дней до собственной даты каждой строки. Могут быть некоторые строки, в которых их подмножество не будет иметь строк, в этом случае возвращаемое subset_mean должно быть Н / Д. — person rstats23 schedule 12.03.2021

См. также: Лучший способ объединить переменные в наборе данных панели в R?

Спасибо, я исправил это — person rstats23 schedule 12.03.2021

Добро пожаловать в StackOverflow, @ rstats23. Пожалуйста, подумайте о том, чтобы проголосовать за решения, которые работают для вас. Для решения, которое вы считаете наиболее привлекательным, также отметьте это решение как принятое, установив флажок. Спасибо! — person rstats23 schedule 13.03.2021

Post Views: 83

4 dplyr r

Комментарии: 4

rstats23 12.03.2021 в 00:00

Я бы посоветовал использовать для этого slider::slide_index_dbl:

library(dplyr)
df %>% 
  group_by(group_var) %>%
  arrange(group_var, date) %>%   # slider 0.1.5 requires the window variable to be ascending
  mutate(subset_mean = slider::slide_index_dbl(
    val, date, mean, .before = 545, .after = -365   
    # negative ".after" means the window ends before the current date
  )) %>% 
  ungroup()

С обновленными данными я получаю

#date <- c("2016-02-03", "2016-06-14", "2016-03-15", "2017-04-16","2016-01-27", "2016-01-13", "2017-04-24", "2017-06-15")


# A tibble: 8 x 4
  date         val group_var subset_mean
  <date>     <dbl> <chr>           <dbl>
1 2016-01-13    44 A               NaN  
2 2016-02-03    10 A               NaN  
3 2017-04-16    70 A                27  
4 2017-04-24    67 A                27  
5 2016-01-27    30 B               NaN  
6 2016-03-15    50 B               NaN  
7 2016-06-14    20 B               NaN  
8 2017-06-15    42 B                33.3

Спасибо, похоже, это именно то, что я ищу! — person rstats23; 12.03.2021

Если бы я добавил еще один столбец, содержащий логические значения, и хотел бы вычислить subset_mean только для строк, в которых логическое значение было ИСТИНА, как бы это сработало? Я добавил код, который я пробовал с ifelse () и case_when (), в исходный пост — person rstats23; 12.03.2021

Да ладно, я понял! — person rstats23; 12.03.2021

Ответить

rstats23 12.03.2021 в 00:00

1) Это можно сделать с помощью самостоятельного соединения с помощью sql:

library(sqldf)

sqldf("select a.date, a.val, a.group_var, avg(b.val) as mean
  from df a
  left join df b on a.group_var = b.group_var and
    b.date between a.date - 595 and a.date - 365
  group by a.rowid")

давая:

        date val group_var     mean
1 2016-02-03  10         A       NA
2 2016-06-14  20         B       NA
3 2016-03-15  50         B       NA
4 2017-04-16  70         A 27.00000
5 2016-01-27  30         B       NA
6 2016-01-13  44         A       NA
7 2017-04-24  67         A 27.00000
8 2017-06-15  42         B 33.33333

2) или мы можем использовать оконные функции SQL:

sqldf("select date, val, group_var,
  avg(val) over (partition by group_var 
                 order by date 
                 range between 595 preceding and 365 preceding) as mean
  from df"
)

давая:

        date val group_var     mean
1 2016-01-13  44         A       NA
2 2016-02-03  10         A       NA
3 2017-04-16  70         A 27.00000
4 2017-04-24  67         A 27.00000
5 2016-01-27  30         B       NA
6 2016-03-15  50         B       NA
7 2016-06-14  20         B       NA
8 2017-06-15  42         B 33.33333

Ответить

rstats23 12.03.2021 в 00:00

Lubridate представляет собой очень элегантное решение …

library(tidyverse)
library(lubridate)

df = tibble(
  value = runif(100,1,100),
  group = rep(1:4,25),
  dt = as.Date(round(runif(100,1000,2000)), origin = "1970-01-01")
)

first_year <- interval(ymd("1972-01-01"), ymd("1972-12-31"))
sec_year <- interval(ymd("1973-01-01"), ymd("1973-12-31"))
furhter <- interval(ymd("1974-01-01"), ymd("1975-12-31"))

df <- df %>% 
  mutate(
    range = case_when(
      dt %within% first_year ~"1972",
      dt %within% sec_year ~"1973",
      TRUE ~"1974-1975"
    )
  )

mean_by_group_interval <- df %>% 
  group_by(
    group,
    range
  ) %>% 
  summarise(
    mean = mean(value)
  )

Ответить

rstats23 12.03.2021 в 00:00

Вот решение, в котором используется пакет dplyr.

library(dplyr)

date <- c("2016-02-03", "2016-06-14", "2016-03-15", "2017-04-16","2016-01-27", "2016-01-13", "2017-04-24", "2017-06-15")
date <- date %>% as.Date(format = "%Y-%m-%d")
val <- c(10, 20, 50, 70, 30, 44, 67, 42)
group_var <- c("A", "B", "B", "A", "B", "A", "A", "B")

df <- data.frame(date, val, group_var)


df %>% 
  group_by(group_var) %>%
  arrange(group_var, date) %>% 
  mutate(
    # Determine if the current date - the first date of each group is between 365 and 595 days.
    match = between(date - first(date), 365, 595),
    # Count the number of dates that are not within the range described above to be used in calculating the mean.
    count_false = sum(match == FALSE),
    # Calculate the cumulative sum for rows in each group that are not within the range described above.
    sum_match_false = ifelse(match == FALSE, cumsum(val), NA),
    # Calculate the mean.
    mean_match_true = ifelse(match == TRUE, max(sum_match_false, na.rm = TRUE) / count_false, NA)
  ) %>% 
  # Return only these variables.
  select(date, val, group_var, mean_match_true)


#>   date         val group_var mean_match_true
#>   <date>     <dbl> <chr>               <dbl>
#> 1 2016-01-13    44 A                    NA  
#> 2 2016-02-03    10 A                    NA  
#> 3 2017-04-16    70 A                    27  
#> 4 2017-04-24    67 A                    27  
#> 5 2016-01-27    30 B                    NA  
#> 6 2016-03-15    50 B                    NA  
#> 7 2016-06-14    20 B                    NA  
#> 8 2017-06-15    42 B                    33.3

^{Создано 12 марта 2021 года пакетом REPEX (v0.3.0)}

Ответить

Добавить комментарий