Metoda filtra grljenog lica().

Metoda Filtra Grljenog Lica



Hugging Face ima nekoliko modela i skupova podataka za obradu prirodnog jezika (NLP). Ovi golemi skupovi podataka sadrže mnogo informacija koje pomažu u preciznom uvježbavanju modela. Međutim, ponekad nam nije potreban cijeli skup podataka jer nam je potreban samo mali dio da bismo zadovoljili svoje trenutne potrebe. Ako želimo koristiti isti skup podataka kao i obično sa svim informacijama, obuka modela i optimizacija oduzimaju puno vremena što je gubitak vremena.

Dakle, trebamo neku vrstu metode ili paketa koji može izvući relevantne informacije iz skupova podataka. Jednostavnim jezikom možemo reći da nam je potrebna dodatna opcija filtra za filtriranje skupova podataka prema našim zahtjevima.

Hugging Face pruža različite opcije za filtriranje skupova podataka što pomaže korisnicima da kreiraju prilagođene skupove podataka koji sadrže samo primjere ili informacije koje ispunjavaju određene uvjete.







Select() Metoda

Ova metoda radi na popisu indeksa što znači da moramo definirati popis. Unutar tog popisa moramo spomenuti sve vrijednosti indeksa onih redaka koje želimo ekstrahirati. Ali ova metoda radi samo za male skupove podataka, a ne za velike skupove podataka, jer ne možemo vidjeti cijeli skup podataka ako je u GB (giga bajtovima) ili TB (tera bajtovima).



Primjer :

novi_skup_podataka = skup podataka. Izaberi ( [ 0 , jedanaest , dvadeset i jedan , Četiri pet , pedeset , 55 ] )

ispisati ( samo ( novi_skup_podataka ) )

U ovom smo primjeru upotrijebili metodu 'odaberi' za filtriranje potrebnih informacija iz skupa podataka.



Filter() metoda

Metoda filter() prevladava probleme s procesom select() jer ne postoji poseban uvjet. Metoda filter() vraća sve retke koji odgovaraju određenoj situaciji ili uvjetu.





Primjer: Spremamo ovaj Python program pod nazivom 'test.py'.

iz skupovi podataka uvoz učitaj skup_podataka

# Korak 1: Učitajte skup podataka
skup podataka = učitaj skup_podataka ( 'imdb' )

# Korak 2: Definirajte funkciju filtriranja
def prilagođeni_filtar ( primjer ) :
'''
Prilagođena funkcija filtriranja za zadržavanje pozitivnih primjera
osjećaj (oznaka == 1).
'''

povratak primjer [ 'označiti' ] == 1

# Korak 3: Primijenite filtar za stvaranje novog filtriranog skupa podataka
filtrirani_skup_podataka = skup podataka. filtar ( prilagođeni_filtar )

# Korak 4: Provjerite dostupne nazive stupaca u filtriranom skupu podataka
ispisati ( 'Dostupni stupci u filtriranom skupu podataka:' ,
filtrirani_skup_podataka. nazivi_stupaca )

# Korak 5: pristup informacijama iz filtriranog skupa podataka
filtrirani_primjeri = filtrirani_skup_podataka [ 'vlak' ]
broj_filtriranih_primjera = samo ( filtrirani_primjeri )

# Korak 6: Ispišite ukupan broj filtriranih primjera
ispisati ( 'Ukupan broj filtriranih primjera:' , broj_filtriranih_primjera )

Izlaz:



Obrazloženje:

Redak 1: Uvozimo potrebni paket load_dataset iz skupova podataka.

Redak 4: Učitavamo 'imdb' skup podataka koristeći load_dataset.

Redovi 7 do 12: Definiramo prilagođenu funkciju filtriranja prilagođeni_filtar da zadrži primjere s pozitivnim osjećajem (oznaka == 1). Ova funkcija vraća samo one retke čija je vrijednost oznake 1.

Redak 15: Ovaj red pokazuje da skup podataka ima podatke o recenziji filma 'imdb'. Sada primjenjujemo funkciju filtra na ovu bazu podataka kako bismo odvojili pozitivne recenzije od baze podataka koja se dalje pohranjuje u 'filtered_dataset.'

Redovi 18 i 19: Sada provjeravamo koji su nazivi stupaca dostupni u filtered_dataset. Dakle, kod 'filtered_dataset.column_names' daje detalje naših zahtjeva.

Redci 22 i 23: U ovim redovima filtriramo stupac 'vlak' filtered_dataseta i ispisujemo ukupan broj (dužinu) stupca vlaka.

Redak 26: U ovom zadnjem retku ispisujemo rezultat iz retka broj 23.

Filter() s indeksima

Metoda filter() također se može koristiti s indeksima kao što se vidi u načinu rada select(). Ali za to moramo spomenuti da se ključna riječ “with_indices=true” mora navesti izvan metode filter() kao što je prikazano u sljedećem primjeru:

skup_neparnih_podataka = skup podataka. filtar ( lambda primjer , idx: idx % 2 != 0 , sa_indeksima = Pravi )

ispisati ( samo ( skup_neparnih_podataka ) )

U ovom smo primjeru upotrijebili metodu filter() za filtriranje potrebnih informacija iz skupa podataka, uključujući samo one retke koji su neparni.

Potpuni detalji o svakom parametru metode filter() mogu se pronaći ovdje veza .

Zaključak

Biblioteka skupova podataka Hugging Face pruža moćan skup alata jednostavan za korištenje za učinkovit rad s različitim skupovima podataka, posebno u kontekstu obrade prirodnog jezika (NLP) i zadataka strojnog učenja. Funkcija filter() predstavljena u programu omogućuje istraživačima i praktičarima izdvajanje relevantnih podskupova podataka definiranjem korisnički definiranih kriterija filtriranja. Koristeći ovu funkcionalnost, korisnici mogu bez napora stvarati nove skupove podataka koji ispunjavaju određene uvjete kao što je održavanje pozitivnog raspoloženja u filmskim recenzijama ili izdvajanje specifičnih tekstualnih podataka.

Ova demonstracija korak po korak ilustrira koliko je jednostavno učitati skup podataka, primijeniti prilagođene funkcije filtera i pristupiti filtriranim podacima. Osim toga, fleksibilnost parametara funkcije omogućuje prilagođene operacije filtriranja, uključujući podršku za višestruku obradu velikih skupova podataka. Uz biblioteku skupa podataka Hugging Face, korisnici mogu pojednostaviti svoje podatke.