Normalizacija podataka u Pythonu

Normalization Data Python



Normalizacija podataka tehnika je koja pomaže u postizanju bržeg rezultata jer stroj mora obraditi manji raspon podataka. Normalizacija nije lak zadatak jer svi vaši rezultati ovise o izboru vaše metode normalizacije. Dakle, ako ste odabrali pogrešnu metodu za normalizaciju podataka, mogli biste dobiti nešto drugačije od svojih očekivanja.

Normalizacija također ovisi o vrsti podataka poput slika, teksta, numeričkih itd. Dakle, svaka vrsta podataka ima drugačiji način normalizacije. Stoga se u ovom članku usredotočujemo na numeričke podatke.







Metoda 1: Korištenje sklearna

Metoda sklearn vrlo je poznata metoda za normalizaciju podataka.





U ćeliji broj [83] : Uvozimo sve potrebne knjižnice, NumPy i sklearn. Možete vidjeti da predradnju uvozimo iz samog sklearna. Zato je ovo metoda normalizacije sklearna.





U ćeliji broj [84] : Napravili smo niz NumPy s cijelom vrijednošću koja nije ista.

U ćeliji broj [85] : Pozvali smo metodu normalize iz predprocesiranja i proslijedili numpy_array, koji smo upravo stvorili kao parametar.



U ćeliji broj [86] : Iz rezultata možemo vidjeti da su svi naši cjelobrojni podaci sada normalizirani između 0 i 1.

Metoda 2: Normalizirajte određeni stupac u skupu podataka pomoću sklearn

Također možemo normalizirati određeni stupac skupa podataka. U ovome ćemo raspravljati o tome.


U ćeliji broj [87] : Uvozimo knjižnice pande i sklearn.

U ćeliji broj [88] : Napravili smo lažnu CSV datoteku i sada učitavamo tu CSV datoteku uz pomoć pandas (read_csv) paketa.

U ćeliji broj [89] : Ispisujemo CSV datoteku koju smo nedavno učitali.

U ćeliji broj [90] : Čitamo određeni stupac CSV datoteke pomoću np -a. rasporediti i pohraniti rezultat u value_array.

U ćeliji broj [92] , pozvali smo metodu normalizacije iz predprocesiranja i proslijedili parametar value_array.

Metoda 3: Pretvorite u normalizaciju bez korištenja stupaca u niz (pomoću sklearn)

U prethodnoj metodi 2 raspravljali smo o tome kako bismo određeni stupac CSV datoteke mogli normalizirati. No ponekad moramo normalizirati cijeli skup podataka, tada možemo upotrijebiti donju metodu u kojoj normaliziramo cijeli skup podataka, ali po stupcu (os = 0). Ako spomenemo os = 1, učinit će normalizaciju po redovima. Os = 1 je zadana vrijednost.


U ćeliji broj [93] : Uvozimo knjižnice pande i sklearn.

U ćeliji broj [94] : Napravili smo lažnu CSV datoteku (demo_numeric.csv) i sada učitavamo tu CSV datoteku uz pomoć pandas (read_csv) paketa.

U ćeliji broj [95] : Ispisujemo CSV datoteku koju smo nedavno učitali.

U ćeliji broj [96] : Sada prosljeđujemo cijelu CSV datoteku zajedno s još jednom osovinom dodatnog parametra = 0, koja je knjižnici rekla da korisnik želi normalizirati cijeli skup podataka po stupcima.

U ćeliji broj [97] , ispisujemo rezultat i normaliziramo podatke s vrijednošću između 0 i 1.

Metoda 4: Korištenje MinMaxScaler -a ()

Sklearn također nudi drugu metodu normalizacije, koju smo nazvali MinMaxScalar. Ovo je također vrlo popularna metoda jer se lako koristi.


U ćeliji broj [98] : Uvozimo sve potrebne pakete.

U ćeliji broj [99] : Napravili smo lažnu CSV datoteku (demo_numeric.csv) i sada učitavamo tu CSV datoteku uz pomoć pandas (read_csv) paketa.

U ćeliji broj [100] : Ispisujemo CSV datoteku koju smo nedavno učitali.

U ćeliji broj [101] : Pozvali smo MinMaxScalar iz metode predprocesiranja i za to stvorili objekt (min_max_Scalar). Nismo proslijedili nikakve parametre jer moramo normalizirati podatke između 0 i 1. No, ako želite, možete dodati svoje vrijednosti koje će se vidjeti u sljedećoj metodi.

U ćeliji broj [102] : Prvo čitamo sve nazive stupaca za daljnju upotrebu za prikaz rezultata. Zatim zovemo fit_tranform iz stvorenog objekta min_max_Scalar i u to prosljeđujemo CSV datoteku.

U ćeliji broj [103] : Dobivamo normalizirane rezultate koji su između 0 i 1.

Metoda 5: Korištenje MinMaxScalera (feature_range = (x, y))

Sklearn također nudi mogućnost promjene normalizirane vrijednosti onoga što želite. Prema zadanim postavkama, oni normaliziraju vrijednost između 0 i 1. No, postoji parametar koji smo nazvali feature_range, koji može postaviti normaliziranu vrijednost prema našim zahtjevima.

U ćeliji broj [104] : Uvozimo sve potrebne pakete.

U ćeliji broj [105] : Napravili smo lažnu CSV datoteku (demo_numeric.csv) i sada učitavamo tu CSV datoteku uz pomoć pandas (read_csv) paketa.

U ćeliji broj [106] : Ispisujemo CSV datoteku koju smo nedavno učitali.

U ćeliji broj [107] : Pozvali smo MinMaxScalar iz metode predprocesiranja i za to stvorili objekt (min_max_Scalar). No, također prosljeđujemo još jedan parametar unutar MinMaxScalera (raspon značajki). Tu vrijednost parametra postavljamo od 0 do 2. Dakle, MinMaxScaler će normalizirati vrijednosti podataka između 0 do 2.

U ćeliji broj [108] : Prvo čitamo sve nazive stupaca za daljnju upotrebu za prikaz rezultata. Zatim zovemo fit_tranform iz stvorenog objekta min_max_Scalar i u to prosljeđujemo CSV datoteku.

U ćeliji broj [109] : Dobivamo normalizirane rezultate koji su između 0 i 2.

Metoda 6: Korištenje maksimalnog apsolutnog skaliranja

Također možemo normalizirati podatke pomoću pandi. Ove su značajke također vrlo popularne pri normalizaciji podataka. Maksimalno apsolutno skaliranje normalizira vrijednosti između 0 i 1. Ovdje primjenjujemo .max () i .abs () kako je dolje prikazano:

U ćeliji broj [110] : Uvozimo biblioteku pandi.

U ćeliji broj [111] : Napravili smo lažni okvir podataka i ispisali ga.

U ćeliji broj [113] : Pozivamo svaki stupac i zatim dijelimo vrijednosti stupaca sa .max () i .abs ().

U ćeliji broj [114] : Ispisujemo rezultat i iz rezultata potvrđujemo da se naši podaci normaliziraju između 0 i 1.

Metoda 7: Korištenje metode z-score

Sljedeća metoda o kojoj ćemo govoriti je metoda z-score. Ova metoda pretvara informacije u distribuciju. Ova metoda izračunava srednju vrijednost svakog stupca, a zatim oduzima svaki stupac i na kraju ga dijeli sa standardnom devijacijom. Time se normaliziraju podaci između -1 i 1.

U ćeliji broj [115] : Napravili smo lažni okvir podataka i ispisali ga.

U ćeliji broj [117] : Izračunavamo srednju vrijednost stupca i oduzimamo ga od stupca. Zatim vrijednost stupca dijelimo sa standardnom devijacijom.

U ćeliji broj [118] : Normalizirane podatke ispisujemo između -1 i 1.

Zaključak: Vidjeli smo različite vrste normaliziranih metoda. Među njima, sklearn je vrlo poznat po tome što podržava strojno učenje. Ali to ovisi o zahtjevima korisnika. Ponekad je značajka pande za normalizaciju podataka dovoljna. Ne možemo reći da postoje samo gore navedene metode normalizacije. Postoje brojne metode za normalizaciju podataka koje također ovise o vašem tipu podataka, poput slika, numeričkih, tekstualnih itd. Usredotočujemo se na ove numeričke podatke i Python.