Dohvatite broj stupaca u R DataFrame

Dohvatite Broj Stupaca U R Dataframe



U R-u je dobivanje broja stupaca osnovna operacija koja je potrebna u mnogim situacijama pri radu s DataFramesima. Pri podskupovima, analizi, manipuliranju, objavljivanju i vizualizaciji podataka, broj stupaca ključna je informacija koju treba znati. Stoga R pruža različite pristupe za dobivanje ukupnog broja stupaca navedenog DataFramea. U ovom ćemo članku raspravljati o nekim pristupima koji nam pomažu da dobijemo broj stupaca DataFramea.

Primjer 1: Korištenje funkcije Ncol().

Ncol() je najčešća funkcija za dobivanje ukupnog broja stupaca DataFramesa.







df <- data.frame('y1' = c(10, 12, 14, 19),

'y2' = c(15, 22, 24, 29),
'y3' = c(25, 32, 34, 39))


n <- ncol(df)

cat('-----Broj stupaca u podatkovnom okviru :', n)

U ovom primjeru prvo stvaramo 'df' DataFrame s tri stupca koji su označeni kao 'y1', 'y2' i 'y3' pomoću funkcije data.frame() u R. Elementi u svakom stupcu navedeni su pomoću funkcija c() koja stvara vektor elemenata. Zatim se pomoću varijable “n” koristi funkcija ncol() za određivanje ukupnog broja stupaca u DataFrameu “df”. Konačno, s opisnom porukom i varijablom 'n', osigurana funkcija cat() ispisuje rezultate na konzoli.



Kao što se očekivalo, dohvaćeni izlaz pokazuje da navedeni DataFrame ima tri stupca:







Primjer 2: Izbrojite ukupne stupce za prazan DataFrame

Zatim primjenjujemo funkciju ncol() na prazan DataFrame koji također dobiva vrijednosti ukupnih stupaca, ali ta je vrijednost nula.

prazan_df <- podaci.okvir()

n <- ncol(prazan_df)

cat('---Stupci u podatkovnom okviru :', n)

U ovom primjeru generiramo prazan DataFrame, 'empty_df', pozivanjem data.frame() bez navođenja stupaca ili redaka. Zatim koristimo funkciju ncol() koja se koristi za pronalaženje broja stupaca u DataFrameu. Funkcija ncol() postavljena je s 'empty_df' DataFrame ovdje kako bi se dobili ukupni stupci. Budući da je 'empty_df' DataFrame prazan, nema stupaca. Dakle, izlaz funkcije ncol(empty_df) je 0. Rezultati se prikazuju pomoću funkcije cat() koja je ovdje postavljena.



Izlaz prikazuje vrijednost '0' kao što je očekivano jer je DataFrame prazan.

Primjer 3: Upotreba funkcije Select_If() s funkcijom Length().

Ako želimo dohvatiti broj stupaca bilo kojeg specifičnog tipa, trebali bismo upotrijebiti funkciju select_if() u kombinaciji s funkcijom length() od R. Ove se funkcije koriste i kombiniraju se da bi se dobio zbroj stupaca svake vrste . Kod za korištenje ovih funkcija implementiran je na sljedeći način:

biblioteka (dplyr)

x1<-SLOVA[1:10]

x2<-rpois(10,2)

x3<-rpois(10,5)

x4<-uzorak(c('Ljeto','Zima'),10,zamijeni=TRUE)

df1<-data.frame(x1,x2,x3,x4)

df1

duljina(select_if(df1,is.numeric))

U ovom primjeru prvo učitavamo paket dplyr kako bismo mogli pristupiti funkciji select_if() i funkciji length(). Zatim stvaramo četiri varijable - 'x1', 'x2', 'x3' i 'x4', redom. Ovdje 'x1' sadrži prvih 10 velikih slova engleske abecede. Varijable 'x2' i 'x3' generiraju se pomoću funkcije rpois() za stvaranje dva odvojena vektora od 10 nasumičnih brojeva s parametrima 2, odnosno 5. Varijabla “x4” je vektor faktora s 10 elemenata koji su nasumično uzorkovani iz vektora c (“Ljeto”, “Zima”).

Zatim pokušavamo stvoriti 'df1' DataFrame gdje se sve varijable prosljeđuju u funkciji data.frame(). Konačno, pozivamo funkciju length() da odredimo duljinu 'df1' DataFramea koji je kreiran pomoću funkcije select_if() iz paketa dplyr. Funkcija select_if() odabire stupce iz 'df1' DataFramea kao argument, a funkcija is.numeric() odabire samo stupce koji sadrže numeričke vrijednosti. Zatim, funkcija length() dobiva ukupan broj stupaca koje odabire select_if(), što je izlaz cijelog koda.

Duljina stupca prikazana je u sljedećem izlazu koji označava ukupni broj stupaca DataFramea:

Primjer 4: Korištenje funkcije Sapply().

Suprotno tome, ako samo želimo brojati nedostajuće vrijednosti stupaca, imamo funkciju sapply(). Funkcija sapply() ponavlja svaki stupac DataFramea kako bi radila specifično. Funkcija sapply() prvo se prosljeđuje s DataFrameom kao argumentom. Zatim je potrebno izvršiti operaciju na tom DataFrameu. Implementacija funkcije sapply() za dobivanje broja NA vrijednosti u stupcima DataFrame pruža se na sljedeći način:

novi_df <- data.frame(c1 = c(10, 11, NA, 13, NA),

c2 = c('N', NA, 'A', 'M', 'E'),
c3 = c(NA, 92, NA, NA, 95))

sapply(new_df, function(x) sum(is.na(x)))

U ovom primjeru generiramo 'new_df' DataFrame s tri stupca - 'c1', 'c2' i 'c3'. Prvi stupci, 'c1' i 'c3', sadrže numeričke vrijednosti uključujući neke nedostajuće vrijednosti koje su predstavljene NA. Drugi stupac, 'c2', sadrži znakove uključujući neke nedostajuće vrijednosti koje također predstavlja NA. Zatim primjenjujemo funkciju sapply() na 'new_df' DataFrame i izračunavamo broj vrijednosti koje nedostaju u svakom stupcu pomoću izraza sum() unutar funkcije sapply().

Funkcija is.na() je izraz koji je naveden funkciji sum() koja vraća logički vektor koji pokazuje nedostaje li svaki element u stupcu ili ne. Funkcija sum() zbraja TRUE vrijednosti za prebrojavanje vrijednosti koje nedostaju u svakom stupcu.

Stoga izlaz prikazuje ukupne NA vrijednosti u svakom od stupaca:

Primjer 5: Korištenje funkcije Dim().

Osim toga, želimo dobiti ukupne stupce zajedno s redovima DataFramea. Zatim funkcija dim() daje dimenzije DataFramea. Funkcija dim() uzima objekt kao argument čije dimenzije želimo dohvatiti. Evo koda za korištenje funkcije dim():

d1 <- data.frame(team=c('t1', 't2', 't3', 't4'),

bodovi=c(8, 10, 7, 4))

dim(d1)

U ovom primjeru prvo definiramo 'd1' DataFrame koji se generira pomoću funkcije data.frame() gdje su postavljena dva stupca 'tim' i 'bodovi'. Nakon toga pozivamo funkciju dim() preko “d1” DataFramea. Funkcija dim() vraća broj redaka i stupaca DataFramea. Stoga, kada pokrenemo dim(d1), on vraća vektor s dva elementa – od kojih prvi odražava broj redaka u “d1” DataFrameu, a drugi predstavlja broj stupaca.

Izlaz predstavlja dimenzije DataFramea gdje vrijednost '4' označava ukupni broj stupaca, a vrijednost '2' predstavlja retke:

Zaključak

Sada smo naučili da je brojanje stupaca u R jednostavna i važna operacija koja se može izvesti na DataFrameu. Među svim funkcijama, funkcija ncol() je najprikladniji način. Sada smo upoznati s različitim načinima dobivanja broja stupaca iz zadanog DataFramea.