Gibt es hier Leute die sich mit Statistik und r bzw. r-Studio auskennen?
Als erste "einfache" Frage für dein Einstieg hätte ich, was der Unterschied zwischen faktoriellen und numerischen Werten ist. Ich habe in meinem Datensatz folgende Zeilen:
sex age BMI smoke.lev bhd sys dias
1 F 61 21,181 taegl FALSE 101 70
bhd ist demnach ein logischer Wert, da er ja nur TRUE oder FALSE sein kann. sys, dias, age müssten numerische Werte sein. Bei sex, BMI und smoke.lev bin ich mir aber nicht sicher. smoke.lev kann taegl, gelegentl, nie und früher annehmen. sex kann F und M sein.
Ich bin selbst gerade am lernen (R/R-Studio) und deshalb sowohl Antwortender als auch Fragender.
Ich denke die Frage müsste lauten, welcher Vekrentyp die jeweilige Spalte/Variable ist.
bhd ist ein logischer Vektor (TRUE/FALSE). sys, dias, age sind numerische Vektoren, genauso müsste BMI ein numerischer Vektor sein.
sex und smoke.lev müssten sog. Factors sein. Soll heißen, es sind Vektoren, die nur vordefinierte Werte ("Values", müssen also keine Zahlen sein) enthalten und die benutzt werden, um kategoriale Daten abzuspeichern.
Mithilfe der Funktion typeof(Datensatz$Variable) kannst du dir den Vektortyp anzeigen lassen.
Ah coole Funktion, die kannte ich nicht. Mit dieser bekomme ich für bhd "logical" für alle anderen sechs Variablen "integer" heraus. Das müsste dann ja numerischen Werten entsprechen.
Integer ist numerisch ja. Aber das dürfte ja eigentlich für smoke.lev nicht zutreffen. Die Variable sex könnte man ja auch mit 1 und 2 codieren und hätte dann wieder Zahlen, insofern könnte die auch numerisch sein.
Für smoke.lev hätte ich jetzt "character" erwartet.
(Soweit mir bekannt gibt es 4 Hauptklassen von Vektoren: double und integer (beide numerisch), logical und character)
Integer ist numerisch ja. Aber das dürfte ja eigentlich für smoke.lev nicht zutreffen. Die Variable sex könnte man ja auch mit 1 und 2 codieren und hätte dann wieder Zahlen, insofern könnte die auch numerisch sein.
Für smoke.lev hätte ich jetzt "character" erwartet.
Ich kenne mich mir R überhaupt nicht aus, bin aber neugierig.
Wenn Du "sex" als indizierten Aufzählungstypen interpretierst, warum sollte das bei "smoke.lev" anders sein? Wäre der Typ character, müsste der Wert dann nicht in Anführungszeichen eingeschlossen sein?
Wenn Du "sex" als indizierten Aufzählungstypen interpretierst, warum sollte das bei "smoke.lev" anders sein? Wäre der Typ character, müsste der Wert dann nicht in Anführungszeichen eingeschlossen sein?
Wäre natürlich auch bei smoke.lev möglich. Allerdings ist in der ersten Zeile bei smoke.lev das Wort taegl, bei sex steht eine 1 sowie F.
In Anführungszeichen musst du Worte setzten, wenn du sie in Funktionen benutzt. Angezeigt wird der Wert bzw. das Wort aber ohne "" bzw. ' '.
__________________
Motivation is crap, be driven!
Geändert von BananeToWin (23.04.2019 um 10:56 Uhr).
der Überbegriff zur Unterscheidung heißt Skalenniveau. Mit dem Array Typ factor lassen sich die qualitativen/kategorialen Merkmale (Ordinalskala, Nominalskala) und mit dem metrischen Array die quantitativen/metrischen Merkmale (Intervallskala, Verhältnisskala) abbilden.
der Überbegriff zur Unterscheidung heißt Skalenniveau. Mit dem Array Typ factor lassen sich die qualitativen/kategorialen Merkmale (Ordinalskala, Nominalskala) und mit dem metrischen Array die quantitativen/metrischen Merkmale (Intervallskala, Verhältnisskala) abbilden.
Da der Raucherstatus ja nur ordinalskaliert ist, müsste der entsprechende Typ doch dann "factor" sein oder?