Dakle, trebamo neku vrstu metode ili paketa koji može izvući relevantne informacije iz skupova podataka. Jednostavnim jezikom možemo reći da nam je potrebna dodatna opcija filtra za filtriranje skupova podataka prema našim zahtjevima.
Hugging Face pruža različite opcije za filtriranje skupova podataka što pomaže korisnicima da kreiraju prilagođene skupove podataka koji sadrže samo primjere ili informacije koje ispunjavaju određene uvjete.
Select() Metoda
Ova metoda radi na popisu indeksa što znači da moramo definirati popis. Unutar tog popisa moramo spomenuti sve vrijednosti indeksa onih redaka koje želimo ekstrahirati. Ali ova metoda radi samo za male skupove podataka, a ne za velike skupove podataka, jer ne možemo vidjeti cijeli skup podataka ako je u GB (giga bajtovima) ili TB (tera bajtovima).
Primjer :
novi_skup_podataka = skup podataka. Izaberi ( [ 0 , jedanaest , dvadeset i jedan , Četiri pet , pedeset , 55 ] )ispisati ( samo ( novi_skup_podataka ) )
U ovom smo primjeru upotrijebili metodu 'odaberi' za filtriranje potrebnih informacija iz skupa podataka.
Filter() metoda
Metoda filter() prevladava probleme s procesom select() jer ne postoji poseban uvjet. Metoda filter() vraća sve retke koji odgovaraju određenoj situaciji ili uvjetu.
Primjer: Spremamo ovaj Python program pod nazivom 'test.py'.
iz skupovi podataka uvoz učitaj skup_podataka# Korak 1: Učitajte skup podataka
skup podataka = učitaj skup_podataka ( 'imdb' )
# Korak 2: Definirajte funkciju filtriranja
def prilagođeni_filtar ( primjer ) :
'''
Prilagođena funkcija filtriranja za zadržavanje pozitivnih primjera
osjećaj (oznaka == 1).
'''
povratak primjer [ 'označiti' ] == 1
# Korak 3: Primijenite filtar za stvaranje novog filtriranog skupa podataka
filtrirani_skup_podataka = skup podataka. filtar ( prilagođeni_filtar )
# Korak 4: Provjerite dostupne nazive stupaca u filtriranom skupu podataka
ispisati ( 'Dostupni stupci u filtriranom skupu podataka:' ,
filtrirani_skup_podataka. nazivi_stupaca )
# Korak 5: pristup informacijama iz filtriranog skupa podataka
filtrirani_primjeri = filtrirani_skup_podataka [ 'vlak' ]
broj_filtriranih_primjera = samo ( filtrirani_primjeri )
# Korak 6: Ispišite ukupan broj filtriranih primjera
ispisati ( 'Ukupan broj filtriranih primjera:' , broj_filtriranih_primjera )
Izlaz:
Obrazloženje:
Redak 1: Uvozimo potrebni paket load_dataset iz skupova podataka.
Redak 4: Učitavamo 'imdb' skup podataka koristeći load_dataset.
Redovi 7 do 12: Definiramo prilagođenu funkciju filtriranja “ prilagođeni_filtar “ da zadrži primjere s pozitivnim osjećajem (oznaka == 1). Ova funkcija vraća samo one retke čija je vrijednost oznake 1.
Redak 15: Ovaj red pokazuje da skup podataka ima podatke o recenziji filma 'imdb'. Sada primjenjujemo funkciju filtra na ovu bazu podataka kako bismo odvojili pozitivne recenzije od baze podataka koja se dalje pohranjuje u 'filtered_dataset.'
Redovi 18 i 19: Sada provjeravamo koji su nazivi stupaca dostupni u filtered_dataset. Dakle, kod 'filtered_dataset.column_names' daje detalje naših zahtjeva.
Redci 22 i 23: U ovim redovima filtriramo stupac 'vlak' filtered_dataseta i ispisujemo ukupan broj (dužinu) stupca vlaka.
Redak 26: U ovom zadnjem retku ispisujemo rezultat iz retka broj 23.
Filter() s indeksima
Metoda filter() također se može koristiti s indeksima kao što se vidi u načinu rada select(). Ali za to moramo spomenuti da se ključna riječ “with_indices=true” mora navesti izvan metode filter() kao što je prikazano u sljedećem primjeru:
skup_neparnih_podataka = skup podataka. filtar ( lambda primjer , idx: idx % 2 != 0 , sa_indeksima = Pravi )ispisati ( samo ( skup_neparnih_podataka ) )
U ovom smo primjeru upotrijebili metodu filter() za filtriranje potrebnih informacija iz skupa podataka, uključujući samo one retke koji su neparni.
Potpuni detalji o svakom parametru metode filter() mogu se pronaći ovdje veza .
Zaključak
Biblioteka skupova podataka Hugging Face pruža moćan skup alata jednostavan za korištenje za učinkovit rad s različitim skupovima podataka, posebno u kontekstu obrade prirodnog jezika (NLP) i zadataka strojnog učenja. Funkcija filter() predstavljena u programu omogućuje istraživačima i praktičarima izdvajanje relevantnih podskupova podataka definiranjem korisnički definiranih kriterija filtriranja. Koristeći ovu funkcionalnost, korisnici mogu bez napora stvarati nove skupove podataka koji ispunjavaju određene uvjete kao što je održavanje pozitivnog raspoloženja u filmskim recenzijama ili izdvajanje specifičnih tekstualnih podataka.
Ova demonstracija korak po korak ilustrira koliko je jednostavno učitati skup podataka, primijeniti prilagođene funkcije filtera i pristupiti filtriranim podacima. Osim toga, fleksibilnost parametara funkcije omogućuje prilagođene operacije filtriranja, uključujući podršku za višestruku obradu velikih skupova podataka. Uz biblioteku skupa podataka Hugging Face, korisnici mogu pojednostaviti svoje podatke.