groupdata2

groupdata2 er en R-pakke, der indeholder funktioner og metoder til at gruppere / splitte data og bl.a. kan skabe balancerede folds til cross-validation.

Funktioner

  • group_factor
  • group
  • splt
  • fold
  • partition
  • balance

group_factor() laver en grouping factor med 1-taller for gruppe 1, 2-taller for gruppe 2, osv.
Denne funktion bliver også brugt af de andre funktioner.

group() tager enten et data frame eller en vector og returner et data frame med en grouping factor, grupperet (med dplyr::group_by) efter denne grouping factor.

splt() tager enten et data frame eller en vector, laver de specificerede grupper og returner de forskellige grupper i en liste.

fold() laver balancerede folds til cross-validation. Man kan balancere på en kategorisk variabel og en numerisk variabel, samt sørge for at alle samples med et delt ID (f.eks. deltager ID) bliver placeret i den samme fold.

partition() laver balancerede partitioner som f.eks. træning-/testsæt. Man kan balancere på en kategorisk variabel og en numerisk variabel, samt sørge for at alle samples med et delt ID (f.eks. deltager ID) bliver placeret i den samme partition.

balance() bruger up- og/eller downsampling til at balancere grupperne i et dataset (e.g. klasserne i en output variabel). Der er også en række metoder til at tage hensyn til samples med et delt ID (f.eks. deltager ID).

Metoder

Der er en del metoder til at lave grupperne. Man kan f.eks. angive hvor mange grupper man vil have, hvilke(n) størrelse(r) grupperne skal have, eller ved hvilke værdier, der skal startes en gruppe. Målet er, at man kan bruge groupdata2 i langt de fleste tilfælde, hvor man skal lave grupper.

Vignettes / Tutorials

Jeg har lavet et par tutorials (kaldet vignettes i R):


Cross-validation with groupdata2
In this vignette, we go through the basics of cross-validation, such as creating balanced train/test sets with partition() and balanced folds with fold(). We also write up a simple cross-validation function and compare multiple linear regression models.

Time series with groupdata2
In this vignette, we divide up a time series into groups (windows) and subgroups using group() with the ‘greedy’ and ‘staircase’ methods. We do some basic descriptive stats of each group and use them to reduce the data size.

Automatic groups with groupdata2
In this vignette, we will use the ‘l_starts’ method with group() to allow transferring of information from one dataset to another. We will use the automatic grouping function that finds group starts all by itself.

For a more extensive description of the features in groupdata2, see Description of groupdata2.


Installation

groupdata2 kan downloades og installeres fra CRAN eller fra GitHub således:

CRAN version:

install.packages(“groupdata2”)

Development version:

install.packages(“devtools”)

devtools::install_github(“LudvigOlsen/groupdata2”)

 

 

Date: januar 2017
Skills: Programmering, R