triathlon-szene.de |  Europas aktivstes Triathlon  Forum

triathlon-szene.de | Europas aktivstes Triathlon Forum (https://www.triathlon-szene.de/forum/index.php)
-   Sonstiges (https://www.triathlon-szene.de/forum/forumdisplay.php?f=32)
-   -   Statistik / r-Studio Hilfe benötigt (https://www.triathlon-szene.de/forum/showthread.php?t=46052)

Acula 23.04.2019 09:36

Statistik / r-Studio Hilfe benötigt
 
Gibt es hier Leute die sich mit Statistik und r bzw. r-Studio auskennen?
Als erste "einfache" Frage für dein Einstieg hätte ich, was der Unterschied zwischen faktoriellen und numerischen Werten ist. Ich habe in meinem Datensatz folgende Zeilen:
sex age BMI smoke.lev bhd sys dias
1 F 61 21,181 taegl FALSE 101 70

bhd ist demnach ein logischer Wert, da er ja nur TRUE oder FALSE sein kann. sys, dias, age müssten numerische Werte sein. Bei sex, BMI und smoke.lev bin ich mir aber nicht sicher. smoke.lev kann taegl, gelegentl, nie und früher annehmen. sex kann F und M sein.

BananeToWin 23.04.2019 09:51

Ich bin selbst gerade am lernen (R/R-Studio) und deshalb sowohl Antwortender als auch Fragender.

Ich denke die Frage müsste lauten, welcher Vekrentyp die jeweilige Spalte/Variable ist.

bhd ist ein logischer Vektor (TRUE/FALSE). sys, dias, age sind numerische Vektoren, genauso müsste BMI ein numerischer Vektor sein.

sex und smoke.lev müssten sog. Factors sein. Soll heißen, es sind Vektoren, die nur vordefinierte Werte ("Values", müssen also keine Zahlen sein) enthalten und die benutzt werden, um kategoriale Daten abzuspeichern.

Mithilfe der Funktion typeof(Datensatz$Variable) kannst du dir den Vektortyp anzeigen lassen.

Acula 23.04.2019 10:04

Ah coole Funktion, die kannte ich nicht. Mit dieser bekomme ich für bhd "logical" für alle anderen sechs Variablen "integer" heraus. Das müsste dann ja numerischen Werten entsprechen.

Danke für deine Hilfe!

BananeToWin 23.04.2019 10:15

Integer ist numerisch ja. Aber das dürfte ja eigentlich für smoke.lev nicht zutreffen. Die Variable sex könnte man ja auch mit 1 und 2 codieren und hätte dann wieder Zahlen, insofern könnte die auch numerisch sein.

Für smoke.lev hätte ich jetzt "character" erwartet.


(Soweit mir bekannt gibt es 4 Hauptklassen von Vektoren: double und integer (beide numerisch), logical und character)

schnodo 23.04.2019 10:39

Zitat:

Zitat von BananeToWin (Beitrag 1447688)
Integer ist numerisch ja. Aber das dürfte ja eigentlich für smoke.lev nicht zutreffen. Die Variable sex könnte man ja auch mit 1 und 2 codieren und hätte dann wieder Zahlen, insofern könnte die auch numerisch sein.

Für smoke.lev hätte ich jetzt "character" erwartet.

Ich kenne mich mir R überhaupt nicht aus, bin aber neugierig. :)

Wenn Du "sex" als indizierten Aufzählungstypen interpretierst, warum sollte das bei "smoke.lev" anders sein? Wäre der Typ character, müsste der Wert dann nicht in Anführungszeichen eingeschlossen sein?

BananeToWin 23.04.2019 10:50

Zitat:

Zitat von schnodo (Beitrag 1447697)
Wenn Du "sex" als indizierten Aufzählungstypen interpretierst, warum sollte das bei "smoke.lev" anders sein? Wäre der Typ character, müsste der Wert dann nicht in Anführungszeichen eingeschlossen sein?

Wäre natürlich auch bei smoke.lev möglich. Allerdings ist in der ersten Zeile bei smoke.lev das Wort taegl, bei sex steht eine 1 sowie F.

In Anführungszeichen musst du Worte setzten, wenn du sie in Funktionen benutzt. Angezeigt wird der Wert bzw. das Wort aber ohne "" bzw. ' '.

macoio 23.04.2019 11:24

der Überbegriff zur Unterscheidung heißt Skalenniveau. Mit dem Array Typ factor lassen sich die qualitativen/kategorialen Merkmale (Ordinalskala, Nominalskala) und mit dem metrischen Array die quantitativen/metrischen Merkmale (Intervallskala, Verhältnisskala) abbilden.

BananeToWin 23.04.2019 11:35

Zitat:

Zitat von macoio (Beitrag 1447709)
der Überbegriff zur Unterscheidung heißt Skalenniveau. Mit dem Array Typ factor lassen sich die qualitativen/kategorialen Merkmale (Ordinalskala, Nominalskala) und mit dem metrischen Array die quantitativen/metrischen Merkmale (Intervallskala, Verhältnisskala) abbilden.

Da der Raucherstatus ja nur ordinalskaliert ist, müsste der entsprechende Typ doch dann "factor" sein oder?


Alle Zeitangaben in WEZ +2. Es ist jetzt 06:01 Uhr.

Powered by vBulletin Version 3.6.1 (Deutsch)
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.