Kako spojiti skupove podataka u Hugging Face

Kako Spojiti Skupove Podataka U Hugging Face



Biblioteka 'skupova podataka' iz Hugging Face-a pruža prikladan način za rad i manipuliranje skupovima podataka za zadatke obrade prirodnog jezika. Jedna korisna funkcija koju nudi biblioteka je concatenate_datasets() koja vam omogućuje spajanje više skupova podataka u jedan skup podataka. Slijedi kratak pregled funkcije concatenate_datasets() i načina njezine upotrebe.

spoji skupove_podataka()

Opis:

Biblioteka skupova podataka Hugging Face pruža funkciju concatenate_datasets(). Koristi se za spajanje više skupova podataka, kombinirajući ih u jedan skup podataka duž određene osi. Ova je funkcija posebno korisna kada imate više skupova podataka koji dijele istu strukturu i želite ih spojiti u objedinjeni skup podataka za daljnju obradu i analizu.







Sintaksa:



iz skupovi podataka uvoz spojiti skupove_podataka

spojeni_skup_podataka = spojiti skupove_podataka ( skupovi podataka , os = 0 , info = Nijedan )

Parametri:

skupovi podataka (popis skupova podataka): popis skupova podataka koje želite spojiti. Ovi skupovi podataka trebaju imati kompatibilne značajke što znači da imaju istu shemu, nazive stupaca i vrste podataka.



os (int, izborno, zadano=0): Os duž koje bi trebalo biti izvedeno spajanje. Za većinu NLP skupova podataka koristi se zadana vrijednost 0 što znači da su skupovi podataka okomito spojeni. Ako postavite os=1, skupovi podataka se spajaju vodoravno, pod pretpostavkom da imaju različite stupce kao značajke.





info (datasets.DatasetInfo, izborno): Informacije o spojenom skupu podataka. Ako nije navedena, informacija se izvodi iz prvog skupa podataka na popisu.

Povratak:

spojeni_skup_podataka (Skup podataka): Rezultirajući skup podataka nakon ulančavanja svih ulaznih skupova podataka.



Primjer:

# Korak 1: Instalirajte biblioteku skupova podataka

# Možete ga instalirati koristeći pip:

# !pip instalirajte skupove podataka

# Korak 2: Uvezite potrebne biblioteke

iz skupovi podataka uvoz učitaj skup_podataka , spojiti skupove_podataka

# Korak 3: Učitajte IMDb skupove podataka o recenziji filmova

# Koristit ćemo dva IMDb skupa podataka, jedan za pozitivne recenzije

#i još jedan za negativne kritike.

# Učitaj 2500 pozitivnih recenzija

dataset_pos = učitaj skup_podataka ( 'imdb' , podjela = 'vlak[:2500]' )

# Učitaj 2500 negativnih recenzija

skup_neg = učitaj skup_podataka ( 'imdb' , podjela = 'vlak[-2500:]' )

# Korak 4: Povežite skupove podataka

# Spajamo oba skupa podataka duž osi=0, kao što jesu

ista shema ( iste karakteristike ) .

spojeni_skup_podataka = spojiti skupove_podataka ( [ dataset_pos , skup_neg ] )

# Korak 5: Analizirajte povezani skup podataka

# Radi jednostavnosti, izbrojimo broj pozitivnih i negativnih

# recenzija u spojenom skupu podataka.

broj_pozitivnih_recenzija = iznos ( 1 za označiti u

spojeni_skup_podataka [ 'označiti' ] ako označiti == 1 )

broj_negativnih_recenzija = iznos ( 1 za označiti u

spojeni_skup_podataka [ 'označiti' ] ako označiti == 0 )

# Korak 6: Prikažite rezultate

ispisati ( 'Broj pozitivnih recenzija:' , broj_pozitivnih_recenzija )

ispisati ( 'Broj negativnih recenzija:' , broj_negativnih_recenzija )

# Korak 7: Ispišite nekoliko primjera recenzija iz povezanog skupa podataka

ispisati ( ' \n Neki primjeri recenzija:' )

za ja u domet ( 5 ) :

ispisati ( f 'Pregled {i + 1}: {concatenated_dataset['text'][i]}' )

Izlaz:

Slijedi objašnjenje za program biblioteke 'setova podataka' Hugging Face-a koji povezuje dva skupa podataka o recenziji filmova na IMDb-u. Ovo objašnjava svrhu programa, njegovu upotrebu i korake uključene u kod.

Dajmo detaljnije objašnjenje svakog koraka u kodu:

# Korak 1: Uvezite potrebne biblioteke

iz skupovi podataka uvoz učitaj skup_podataka , spojiti skupove_podataka

U ovom koraku uvozimo potrebne biblioteke za program. Potrebna nam je funkcija “load_dataset” za učitavanje skupova podataka o recenziji IMDb filmova i “concatenate_datasets” za njihovo kasnije spajanje.

# Korak 2: Učitajte skupove podataka IMDb Movie Review

# Učitaj 2500 pozitivnih recenzija

dataset_pos = učitaj skup_podataka ( 'imdb' , podjela = 'vlak[:2500]' )

# Učitaj 2500 negativnih recenzija

skup_neg = učitaj skup_podataka ( 'imdb' , podjela = 'vlak[-2500:]' )

Ovdje koristimo funkciju 'load_dataset' za dohvaćanje dva podskupa IMDb skupa podataka. “Dataset_pos” sadrži 2500 pozitivnih recenzija, a “dataset_neg” sadrži 2500 negativnih recenzija. Parametar split koristimo za određivanje raspona primjera za učitavanje, što nam omogućuje odabir podskupa cijelog skupa podataka.

# Korak 3: Povežite skupove podataka

spojeni_skup_podataka = spojiti skupove_podataka ( [ dataset_pos , skup_neg ] )

U ovom koraku povezujemo dva podskupa IMDb skupa podataka u jedan skup podataka pod nazivom 'concatenated_dataset'. Koristimo funkciju 'concatenate_datasets' i prosljeđujemo je s popisom koji sadrži dva skupa podataka za spajanje. Budući da oba skupa podataka imaju iste značajke, povezujemo ih duž osi=0 što znači da su redovi naslagani jedan na drugi.

# Korak 4: Analizirajte spojeni skup podataka

broj_pozitivnih_recenzija = iznos ( 1 za označiti u

spojeni_skup_podataka [ 'označiti' ] ako označiti == 1 )

broj_negativnih_recenzija = iznos ( 1 za označiti u

spojeni_skup_podataka [ 'označiti' ] ako označiti == 0 )

Ovdje provodimo jednostavnu analizu spojenog skupa podataka. Koristimo razumijevanje popisa zajedno s funkcijom 'zbroj' za brojanje pozitivnih i negativnih recenzija. Ponavljamo kroz label' u stupcu 'concatenated_dataset' i povećavaju zbrojeve kad god naiđemo na pozitivnu oznaku (1) ili negativnu oznaku (0).

# Korak 5: Prikažite rezultate

ispisati ( 'Broj pozitivnih recenzija:' , broj_pozitivnih_recenzija )

ispisati ( 'Broj negativnih recenzija:' , broj_negativnih_recenzija )

U ovom koraku ispisujemo rezultate naše analize – broj pozitivnih i negativnih recenzija u spojenom skupu podataka.

# Korak 6: Ispišite nekoliko primjera recenzija

ispisati ( ' \n Neki primjeri recenzija:' )

za ja u domet ( 5 ) :

ispisati ( f 'Pregled {i + 1}: {concatenated_dataset['text'][i]}' )

Na kraju prikazujemo nekoliko primjera recenzija iz spojenog skupa podataka. Prolazimo kroz prvih pet primjera u skupu podataka i ispisujemo njihov tekstualni sadržaj pomoću stupca 'tekst'.

Ovaj kod pokazuje izravan primjer korištenja biblioteke 'setova podataka' Hugging Facea za učitavanje, spajanje i analizu skupova podataka o pregledu filmova IMDb. Ističe sposobnost knjižnice da pojednostavi rukovanje NLP skupom podataka i prikazuje njezin potencijal za izgradnju sofisticiranijih modela i aplikacija za obradu prirodnog jezika.

Zaključak

Program Python koji koristi biblioteku 'setova podataka' Hugging Facea uspješno demonstrira ulančavanje dva skupa podataka o recenziji filmova IMDb. Učitavanjem podskupa pozitivnih i negativnih recenzija, program ih kombinira u jedan skup podataka pomoću funkcije concatenate_datasets(). Zatim provodi jednostavnu analizu brojanjem pozitivnih i negativnih recenzija u kombiniranom skupu podataka.

Biblioteka 'setovi podataka' pojednostavljuje proces rukovanja i manipuliranja NLP skupovima podataka, čineći je moćnim alatom za istraživače, programere i NLP praktičare. Sa svojim sučeljem prilagođenim korisniku i opsežnim funkcionalnostima, knjižnica omogućuje pretprocesiranje, istraživanje i transformaciju podataka bez napora. Program koji je predstavljen u ovoj dokumentaciji služi kao praktičan primjer kako se knjižnica može iskoristiti za pojednostavljenje zadataka ulančavanja podataka i analize.

U scenarijima stvarnog života ovaj program može poslužiti kao temelj za složenije zadatke obrade prirodnog jezika kao što su analiza osjećaja, klasifikacija teksta i jezično modeliranje. Koristeći biblioteku 'setova podataka', istraživači i programeri mogu učinkovito upravljati skupovima podataka velikih razmjera, olakšati eksperimentiranje i ubrzati razvoj najmodernijih NLP modela. Sveukupno, biblioteka 'skupova podataka' Hugging Face predstavlja ključnu prednost u potrazi za napretkom u obradi i razumijevanju prirodnog jezika.