groupdata2

groupdata2 er en R-pakke, der indeholder funktioner og metoder til at gruppere / splitte data og bl.a. kan skabe balancerede folds til cross-validation.

Funktioner

  • group_factor
  • group
  • splt
  • fold
  • partition

group_factor() laver en grouping factor med 1-taller for gruppe 1, 2-taller for gruppe 2, osv.
Denne funktion bliver også brugt af de andre funktioner.

group() tager data (data frame / vector) og returner data frame med grouping factor, grupperet (med dplyr::group_by) efter denne grouping factor.

splt() tager data (data frame / vector), laver de specificerede grupper og returner de forskellige grupper i en liste.

fold() laver balancerede folds til cross-validation. Man kan balancere på en kategorisk variabel samt sørge for at alle samples med et delt id (f.eks. deltager id) bliver placeret i den samme fold.

partition() laver balancerede partitioner som f.eks. træning-/testsæt. Man kan balancere på en kategorisk variabel samt sørge for at alle samples med et delt id (f.eks. deltager id) bliver placeret i den samme partition.

Metoder

Der er en del metoder til at lave grupperne. Man kan f.eks. angive hvor mange grupper man vil have, hvilke(n) størrelse(r) grupperne skal have, eller ved hvilke værdier, der skal startes en gruppe. Målet er, at man kan bruge groupdata2 i langt de fleste tilfælde, hvor man skal lave grupper.

Vignettes / Tutorials

Jeg har lavet et par tutorials (kaldet vignettes i R):


Cross-validation with groupdata2
In this vignette, we go through the basics of cross-validation, such as creating balanced train/test sets with partition() and balanced folds with fold(). We also write up a simple cross-validation function and compare multiple linear regression models.

Time series with groupdata2
In this vignette, we divide up a time series into groups (windows) and subgroups using group() with the ‘greedy’ and ‘staircase’ methods. We do some basic descriptive stats of each group and use them to reduce the data size.

Automatic groups with groupdata2
In this vignette, we will use the ‘l_starts’ method with group() to allow transferring of information from one dataset to another. We will use the automatic grouping function that finds group starts all by itself.

For a more extensive description of the features in groupdata2, see Description of groupdata2.


Installation

groupdata2 kan downloades og installeres fra CRAN eller fra GitHub således:

CRAN version:

install.packages(“groupdata2”)

Development version:

install.packages(“devtools”)

devtools::install_github(“LudvigOlsen/groupdata2”)

 

 

Date: januar 2017
Skills: Programmering, R