Pande Qcut

Pande Qcut



“Python” sadrži mnoge biblioteke, a kada želimo analizirati ili manipulirati podacima onda koristimo te “Pythonove” biblioteke, a “pande” su također njihova biblioteka. Knjižnica 'pandas' koristi se u području podatkovnih znanosti, a također se koristi u aktivnostima strojnog učenja. “pandas” DataFrame nam pomaže u spremanju podataka. U 'pandama', kada želimo grupiranje podataka, tada koristimo metodu 'qcut()'. Metoda “qcut()” koristi se za pretvaranje kontinuiranih značajki u kategoričke. Možemo dodati različite vrste parametara u ovu “qcut()” metodu za dobivanje različitih vrsta rezultata. Ovaj vodič govori o metodi “qcut()”, a mi ćemo ovdje detaljno objasniti metodu “qcut()”. Objasnit ćemo vam kako vršimo grupiranje podataka uz pomoć funkcije “qcut()” u “pandama” u ovom vodiču.”

Primjer # 01

Primijenit ćemo metodu “qcut()” u ovim kodovima, a te ćemo kodove raditi u aplikaciji “Spyder”. Kada moramo raditi s 'pandama', možemo pristupiti njegovim funkcijama samo kada uvezemo biblioteku 'pandas' u naše kodove. Prvo stavimo 'uvoz', a zatim napišemo 'pande kao pd'. Sada moramo primijeniti metodu “qcut()”, pa za ovo ovdje stvaramo DataFrame. Konstruiramo “Random_df” koji sadrži “R_ID, R_name i R_age” kao svoje stupce, a također u “R_ID” postavljamo “R_17, R_21, R_24, R_29, R_31, R_34, R_44, R_46, R_50, R_51, R_55, R_61, R_73 i R_81”. Zatim dodajemo “Theodore, Teddy, Noah, Leo, Ivy, Henry, Freddie, Evelyn, Ava, Willow, Theo, Oscar, Jacob i Harper” u stupac “R_name”. Nakon toga, u stupac 'R_dob' umećemo '21, 33, 12, 43, 22, 7, 21, 51, 72, 19, 10, 9, 37 i 40'. Sada koristimo 'print()' koji sadrži 'Random_df' i pomoći će u renderiranju 'Random_df' DataFrame. Upravo smo stvorili DataFrame i još ne primjenjujemo metodu 'qcut()'.








Ikona 'Pokreni' pomaže nam u izvršavanju kodova. Kada pritisnemo ovu ikonu 'pokreni', tada se rezultat ovog koda prikazuje na terminalu aplikacije 'Spyder'. DataFarme “Random_df” prikazan je kao rezultat koda koji smo napisali u ovom primjeru. Sada ćemo primijeniti metodu “qcut()” i također ćemo prikazati njen rezultat.




Ovdje prikupljamo podatke. Grupiramo stupac “R_age” i postavljamo metodu “pd.qcut()”, koja je metoda “panda” koja pomaže u grupiranju podataka. U ovu metodu umećemo naziv DataFramea i također naziv stupca na koji želimo primijeniti ovu metodu “qcut()”. Također smo postavili vrijednost 'q' na '5', a koristi se za rezanje podataka stupca 'R_age' u pet jednakih kvantila. Dodali smo metodu 'qcut()' u 'print()', tako da će također prikazati podatke o grupiranju na terminalu.




Ovdje se prikazuju podaci nakon združivanja i reže 'R_age' na pet kvantila. Također prikazuje kategorije u koje su grupirani podaci stupca 'R_age'. Kategorijska serija predstavlja kante “R_age”.






Također možemo prilagoditi naljepnicu za ove kante. Dodali smo ove oznake za smeće kako bismo ih lakše protumačili. Dodajemo stupac “R_age_qcut” u “Random_df” u koji dodajemo oznake ovih spremnika. Ponovno koristimo metodu “pd.qcut()” za njihovo označavanje. U to dodajemo oznake koje su “malo, ne tako malo, osrednje, visoko i najviše”. Zatim ponovno stavljamo “Random_df” u “print()”.


Sve su kante označene i prikazane u ovom ishodu. Stupac “R_age_qcut” prikazan je u ovom DataFrameu u kojem su prikazani označeni spremnici.



Primjer # 02

Za kreiranje DataFramea prvo dodajemo “ocjene”, a to su “3, 6, 8, 7, 2, 5, 1, 9, 4, 7 i 8”. Zatim dodajemo imena učenika u 'studente', a to su 'Peter, Bromley, James, David, Allies, John, James, Samuel, William, Howard i Alexander'. Zatim generiramo 'Grades_df' gdje smo dodali metodu 'pd.DataFrame()', au ovu metodu stavljamo 'Std_name', koji će se pojaviti kao naziv stupca, i tome dodjeljujemo vrijednosti 'students'. Zatim postavljamo “Students_grades” kao naziv stupca DataFramea i također ovdje dodjeljujemo “ocjene”, koje smo stvorili iznad. Nakon ovoga, imamo “print()” u koji dodajemo “Grades_df” za ispis.


DataFrame koji sadrži dva stupca prikazan je u rezultatu ovog koda. Sada ćemo primijeniti metodu “qcut()” na stupac “Students_grades” za grupiranje podataka vrijednosti ovog stupca.


Ovdje dodajemo novi stupac 'ocjena' u kojem smo primijenili 'pd.qcut()' na stupac 'Students_grades', a također smo upotrijebili '4' za vrijednost 'q', tako da će smanjiti podatke u četiri jednaka kvantila. Nakon toga, ovdje specificiramo ove kvantile stavljanjem vrijednosti u 'q', a to su '0, .4, .8 i 1'. Zatim, također prikazujemo ovo. Sada označavamo ove grupirane podatke, a oznake koje ovdje dodajemo su 'D, C, A i B' i također su pohranjene u stupcu 'ocjena'.


Ovdje se podaci nakon združivanja prikazuju ovdje u stupcu 'ocjena' i reže podatke stupca 'Students_grades' u četiri jednaka kvantila.


DataFrame koji dobivamo nakon primjene metode “qcut()” i navođenja kvantila prikazan je u ovom ishodu.


Sada, nakon dodavanja oznaka u te spremnike, također se prikazuju u ovom ishodu u stupcu 'ocjena' i možete vidjeti da dodjeljuje oznake prema vrijednostima spremnika.

Primjer # 03

Također možemo primijeniti metodu “qcut()” na podatke CSV datoteke. Za to prvo čitamo podatke CSV datoteke uz pomoć metode 'read_csv()'. Čitamo podatke iz datoteke “office2.csv”, a zatim se podaci iz te datoteke smještaju u “Office_df”. Ova metoda će pretvoriti podatke datoteke 'office2' u DataFrame i spremiti ih u 'Office_df'. Zatim također prikazujemo te podatke stavljanjem 'Office_df' u 'print()'. Nakon toga dodajemo novi stupac pod nazivom 'Units_qcut', na koji primjenjujemo funkciju 'pd.qcut()' na stupac 'Units'.

Dodatno, postavili smo vrijednost varijable “q” na “5”, što će podijeliti podatke u pet jednakih kvantila. Podaci, nakon rezanja u 5 jednakih kvantila, pohranjuju se u stupac 'Units_qcut', a ovaj se stupac također dodaje u 'Office_df', a 'Office_df' ponovno se ovdje prikazuje pomoću 'print()'. Sada označavamo ove grupirane podatke, dodajući oznake u metodi 'qcut()', a to su  'Jedinica 1, Jedinica 2, Jedinica 3, Jedinica 4 i Jedinica 5' i pohranjujemo ih također u stupac 'Oznake' . Također prikazujemo ovaj DataFrame u koji je dodan stupac 'Oznake'.


Podaci koje dobijemo nakon čitanja datoteke “office2.csv” ovdje se renderiraju u obliku DataFrame. Zatim se dodaje stupac 'Units_qcut', u kojem se prikazuju vrijednosti stupca 'Units'. Nakon toga, također se dodaje stupac 'Oznake', koji dodjeljuje oznake ovim grupiranim vrijednostima. Sve se to radi korištenjem metode “qcut()” u “pandama”.

Zaključak

U ovom vodiču detaljno smo objasnili metodu “qcut()” koja pomaže u grupiranju podataka u “pandama”. Raspravljali smo o tome da se podaci grupiraju prema vrijednosti kvantila 'q' koju smo dodali u metodi 'qcut()', a također smo prilagodili oznake ovim grupiranim podacima. Istražili smo metodu 'qcut()' i primijenili ovu metodu na stupce DataFramea, a također smo primijenili ovu metodu 'qcut()' na podatke CSV datoteke nakon čitanja CSV datoteka. Predstavili smo ishod svih kodova u ovom vodiču kako bismo jasno objasnili i prikazali rezultat metode “qcut()”.