Normalizacija podataka u Pythonu

Normalizacija podataka tehnika je koja pomaže u postizanju bržeg rezultata jer stroj mora obraditi manji raspon podataka. Normalizacija nije lak zadatak jer svi vaši rezultati ovise o izboru vaše metode normalizacije. Dakle, ako ste odabrali pogrešnu metodu za normalizaciju podataka, mogli biste dobiti nešto drugačije od svojih očekivanja.

Normalizacija također ovisi o vrsti podataka poput slika, teksta, numeričkih itd. Dakle, svaka vrsta podataka ima drugačiji način normalizacije. Stoga se u ovom članku usredotočujemo na numeričke podatke.

Metoda 1: Korištenje sklearna

Metoda sklearn vrlo je poznata metoda za normalizaciju podataka.

U ćeliji broj [83] : Uvozimo sve potrebne knjižnice, NumPy i sklearn. Možete vidjeti da predradnju uvozimo iz samog sklearna. Zato je ovo metoda normalizacije sklearna.

U ćeliji broj [84] : Napravili smo niz NumPy s cijelom vrijednošću koja nije ista.

U ćeliji broj [85] : Pozvali smo metodu normalize iz predprocesiranja i proslijedili numpy_array, koji smo upravo stvorili kao parametar.

U ćeliji broj [86] : Iz rezultata možemo vidjeti da su svi naši cjelobrojni podaci sada normalizirani između 0 i 1.

Metoda 2: Normalizirajte određeni stupac u skupu podataka pomoću sklearn

Također možemo normalizirati određeni stupac skupa podataka. U ovome ćemo raspravljati o tome.

U ćeliji broj [87] : Uvozimo knjižnice pande i sklearn.

U ćeliji broj [88] : Napravili smo lažnu CSV datoteku i sada učitavamo tu CSV datoteku uz pomoć pandas (read_csv) paketa.

U ćeliji broj [89] : Ispisujemo CSV datoteku koju smo nedavno učitali.

U ćeliji broj [90] : Čitamo određeni stupac CSV datoteke pomoću np -a. rasporediti i pohraniti rezultat u value_array.

U ćeliji broj [92] , pozvali smo metodu normalizacije iz predprocesiranja i proslijedili parametar value_array.

Metoda 3: Pretvorite u normalizaciju bez korištenja stupaca u niz (pomoću sklearn)

U prethodnoj metodi 2 raspravljali smo o tome kako bismo određeni stupac CSV datoteke mogli normalizirati. No ponekad moramo normalizirati cijeli skup podataka, tada možemo upotrijebiti donju metodu u kojoj normaliziramo cijeli skup podataka, ali po stupcu (os = 0). Ako spomenemo os = 1, učinit će normalizaciju po redovima. Os = 1 je zadana vrijednost.

U ćeliji broj [93] : Uvozimo knjižnice pande i sklearn.

U ćeliji broj [94] : Napravili smo lažnu CSV datoteku (demo_numeric.csv) i sada učitavamo tu CSV datoteku uz pomoć pandas (read_csv) paketa.

U ćeliji broj [95] : Ispisujemo CSV datoteku koju smo nedavno učitali.

U ćeliji broj [96] : Sada prosljeđujemo cijelu CSV datoteku zajedno s još jednom osovinom dodatnog parametra = 0, koja je knjižnici rekla da korisnik želi normalizirati cijeli skup podataka po stupcima.

U ćeliji broj [97] , ispisujemo rezultat i normaliziramo podatke s vrijednošću između 0 i 1.

Metoda 4: Korištenje MinMaxScaler -a ()

Sklearn također nudi drugu metodu normalizacije, koju smo nazvali MinMaxScalar. Ovo je također vrlo popularna metoda jer se lako koristi.

U ćeliji broj [98] : Uvozimo sve potrebne pakete.

U ćeliji broj [99] : Napravili smo lažnu CSV datoteku (demo_numeric.csv) i sada učitavamo tu CSV datoteku uz pomoć pandas (read_csv) paketa.

U ćeliji broj [100] : Ispisujemo CSV datoteku koju smo nedavno učitali.

U ćeliji broj [101] : Pozvali smo MinMaxScalar iz metode predprocesiranja i za to stvorili objekt (min_max_Scalar). Nismo proslijedili nikakve parametre jer moramo normalizirati podatke između 0 i 1. No, ako želite, možete dodati svoje vrijednosti koje će se vidjeti u sljedećoj metodi.

U ćeliji broj [102] : Prvo čitamo sve nazive stupaca za daljnju upotrebu za prikaz rezultata. Zatim zovemo fit_tranform iz stvorenog objekta min_max_Scalar i u to prosljeđujemo CSV datoteku.

U ćeliji broj [103] : Dobivamo normalizirane rezultate koji su između 0 i 1.

Metoda 5: Korištenje MinMaxScalera (feature_range = (x, y))

Sklearn također nudi mogućnost promjene normalizirane vrijednosti onoga što želite. Prema zadanim postavkama, oni normaliziraju vrijednost između 0 i 1. No, postoji parametar koji smo nazvali feature_range, koji može postaviti normaliziranu vrijednost prema našim zahtjevima.

U ćeliji broj [104] : Uvozimo sve potrebne pakete.

U ćeliji broj [105] : Napravili smo lažnu CSV datoteku (demo_numeric.csv) i sada učitavamo tu CSV datoteku uz pomoć pandas (read_csv) paketa.

U ćeliji broj [106] : Ispisujemo CSV datoteku koju smo nedavno učitali.

U ćeliji broj [107] : Pozvali smo MinMaxScalar iz metode predprocesiranja i za to stvorili objekt (min_max_Scalar). No, također prosljeđujemo još jedan parametar unutar MinMaxScalera (raspon značajki). Tu vrijednost parametra postavljamo od 0 do 2. Dakle, MinMaxScaler će normalizirati vrijednosti podataka između 0 do 2.

U ćeliji broj [108] : Prvo čitamo sve nazive stupaca za daljnju upotrebu za prikaz rezultata. Zatim zovemo fit_tranform iz stvorenog objekta min_max_Scalar i u to prosljeđujemo CSV datoteku.

U ćeliji broj [109] : Dobivamo normalizirane rezultate koji su između 0 i 2.

Metoda 6: Korištenje maksimalnog apsolutnog skaliranja

Također možemo normalizirati podatke pomoću pandi. Ove su značajke također vrlo popularne pri normalizaciji podataka. Maksimalno apsolutno skaliranje normalizira vrijednosti između 0 i 1. Ovdje primjenjujemo .max () i .abs () kako je dolje prikazano:

U ćeliji broj [110] : Uvozimo biblioteku pandi.

U ćeliji broj [111] : Napravili smo lažni okvir podataka i ispisali ga.

U ćeliji broj [113] : Pozivamo svaki stupac i zatim dijelimo vrijednosti stupaca sa .max () i .abs ().

U ćeliji broj [114] : Ispisujemo rezultat i iz rezultata potvrđujemo da se naši podaci normaliziraju između 0 i 1.

Metoda 7: Korištenje metode z-score

Sljedeća metoda o kojoj ćemo govoriti je metoda z-score. Ova metoda pretvara informacije u distribuciju. Ova metoda izračunava srednju vrijednost svakog stupca, a zatim oduzima svaki stupac i na kraju ga dijeli sa standardnom devijacijom. Time se normaliziraju podaci između -1 i 1.

U ćeliji broj [115] : Napravili smo lažni okvir podataka i ispisali ga.

U ćeliji broj [117] : Izračunavamo srednju vrijednost stupca i oduzimamo ga od stupca. Zatim vrijednost stupca dijelimo sa standardnom devijacijom.

U ćeliji broj [118] : Normalizirane podatke ispisujemo između -1 i 1.

Zaključak: Vidjeli smo različite vrste normaliziranih metoda. Među njima, sklearn je vrlo poznat po tome što podržava strojno učenje. Ali to ovisi o zahtjevima korisnika. Ponekad je značajka pande za normalizaciju podataka dovoljna. Ne možemo reći da postoje samo gore navedene metode normalizacije. Postoje brojne metode za normalizaciju podataka koje također ovise o vašem tipu podataka, poput slika, numeričkih, tekstualnih itd. Usredotočujemo se na ove numeričke podatke i Python.

Normalizacija podataka u Pythonu

Metoda 1: Korištenje sklearna

Metoda 2: Normalizirajte određeni stupac u skupu podataka pomoću sklearn

Metoda 3: Pretvorite u normalizaciju bez korištenja stupaca u niz (pomoću sklearn)

Metoda 4: Korištenje MinMaxScaler -a ()

Metoda 5: Korištenje MinMaxScalera (feature_range = (x, y))

Metoda 6: Korištenje maksimalnog apsolutnog skaliranja

Metoda 7: Korištenje metode z-score

Kategorija

Popularni Postovi

Kako koristiti cmdlet Remove-ItemProperty u PowerShell-u?

Kako koristiti Out-String (Microsoft.PowerShell.Utility) Cmdlet u PowerShell?

Postavite ESP32 prilagođeni naziv glavnog računala koristeći Arduino IDE

Kako kopirati, usporediti i spojiti međuspremnik u Node.js?

Kako se spojiti na WiFi mrežu iz naredbenog retka na Linuxu pomoću NetworkManagera

Kako znati verziju sustava Windows 10

Kako instalirati najnoviju verziju NVIDIA CUDA na Ubuntu 22.04 LTS

Kako ukloniti razmake iz nizova pomoću strtrim() u C programiranju

Kako ažurirati i predati samo dopuštenja datoteke pomoću Git kontrole verzija

Kako pretvoriti broj u binarne, oktalne ili heksadecimalne nizove u JavaScriptu?

Postavite Filebeat na Windows- Elasticsearch

Kako izraditi proširenje za Chrome

Zašto Roblox ne radi na mom iPadu?

Kako kompajlirati C++ program u Linuxu

Što je Secure Boot

Vector Erase() funkcija u C++

Kako postaviti i koristiti RAM pogon u sustavu Windows?

Kako dodati CSS s JavaScriptom

Kako stvoriti Windows 11 virtualni stroj na Proxmox VE 8

Korištenje koda Visual Studio za razvoj PowerShell-a