Kako spojiti skupove podataka u Hugging Face

Biblioteka 'skupova podataka' iz Hugging Face-a pruža prikladan način za rad i manipuliranje skupovima podataka za zadatke obrade prirodnog jezika. Jedna korisna funkcija koju nudi biblioteka je concatenate_datasets() koja vam omogućuje spajanje više skupova podataka u jedan skup podataka. Slijedi kratak pregled funkcije concatenate_datasets() i načina njezine upotrebe.

spoji skupove_podataka()

Opis:

Biblioteka skupova podataka Hugging Face pruža funkciju concatenate_datasets(). Koristi se za spajanje više skupova podataka, kombinirajući ih u jedan skup podataka duž određene osi. Ova je funkcija posebno korisna kada imate više skupova podataka koji dijele istu strukturu i želite ih spojiti u objedinjeni skup podataka za daljnju obradu i analizu.

Sintaksa:

iz skupovi podataka uvoz spojiti skupove_podataka

spojeni_skup_podataka = spojiti skupove_podataka ( skupovi podataka , os = 0 , info = Nijedan )

Parametri:

skupovi podataka (popis skupova podataka): popis skupova podataka koje želite spojiti. Ovi skupovi podataka trebaju imati kompatibilne značajke što znači da imaju istu shemu, nazive stupaca i vrste podataka.

os (int, izborno, zadano=0): Os duž koje bi trebalo biti izvedeno spajanje. Za većinu NLP skupova podataka koristi se zadana vrijednost 0 što znači da su skupovi podataka okomito spojeni. Ako postavite os=1, skupovi podataka se spajaju vodoravno, pod pretpostavkom da imaju različite stupce kao značajke.

info (datasets.DatasetInfo, izborno): Informacije o spojenom skupu podataka. Ako nije navedena, informacija se izvodi iz prvog skupa podataka na popisu.

Povratak:

spojeni_skup_podataka (Skup podataka): Rezultirajući skup podataka nakon ulančavanja svih ulaznih skupova podataka.

Primjer:

# Korak 1: Instalirajte biblioteku skupova podataka

# Možete ga instalirati koristeći pip:

# !pip instalirajte skupove podataka

# Korak 2: Uvezite potrebne biblioteke

iz skupovi podataka uvoz učitaj skup_podataka , spojiti skupove_podataka

# Korak 3: Učitajte IMDb skupove podataka o recenziji filmova

# Koristit ćemo dva IMDb skupa podataka, jedan za pozitivne recenzije

#i još jedan za negativne kritike.

# Učitaj 2500 pozitivnih recenzija

dataset_pos = učitaj skup_podataka ( 'imdb' , podjela = 'vlak[:2500]' )

# Učitaj 2500 negativnih recenzija

skup_neg = učitaj skup_podataka ( 'imdb' , podjela = 'vlak[-2500:]' )

# Korak 4: Povežite skupove podataka

# Spajamo oba skupa podataka duž osi=0, kao što jesu

ista shema ( iste karakteristike ) .

spojeni_skup_podataka = spojiti skupove_podataka ( [ dataset_pos , skup_neg ] )

# Korak 5: Analizirajte povezani skup podataka

# Radi jednostavnosti, izbrojimo broj pozitivnih i negativnih

# recenzija u spojenom skupu podataka.

broj_pozitivnih_recenzija = iznos ( 1 za označiti u

spojeni_skup_podataka [ 'označiti' ] ako označiti == 1 )

broj_negativnih_recenzija = iznos ( 1 za označiti u

spojeni_skup_podataka [ 'označiti' ] ako označiti == 0 )

# Korak 6: Prikažite rezultate

ispisati ( 'Broj pozitivnih recenzija:' , broj_pozitivnih_recenzija )

ispisati ( 'Broj negativnih recenzija:' , broj_negativnih_recenzija )

# Korak 7: Ispišite nekoliko primjera recenzija iz povezanog skupa podataka

ispisati ( ' \n Neki primjeri recenzija:' )

za ja u domet ( 5 ) :

ispisati ( f 'Pregled {i + 1}: {concatenated_dataset['text'][i]}' )

Izlaz:

Slijedi objašnjenje za program biblioteke 'setova podataka' Hugging Face-a koji povezuje dva skupa podataka o recenziji filmova na IMDb-u. Ovo objašnjava svrhu programa, njegovu upotrebu i korake uključene u kod.

Dajmo detaljnije objašnjenje svakog koraka u kodu:

# Korak 1: Uvezite potrebne biblioteke

iz skupovi podataka uvoz učitaj skup_podataka , spojiti skupove_podataka

U ovom koraku uvozimo potrebne biblioteke za program. Potrebna nam je funkcija “load_dataset” za učitavanje skupova podataka o recenziji IMDb filmova i “concatenate_datasets” za njihovo kasnije spajanje.

# Korak 2: Učitajte skupove podataka IMDb Movie Review

# Učitaj 2500 pozitivnih recenzija

dataset_pos = učitaj skup_podataka ( 'imdb' , podjela = 'vlak[:2500]' )

# Učitaj 2500 negativnih recenzija

skup_neg = učitaj skup_podataka ( 'imdb' , podjela = 'vlak[-2500:]' )

Ovdje koristimo funkciju 'load_dataset' za dohvaćanje dva podskupa IMDb skupa podataka. “Dataset_pos” sadrži 2500 pozitivnih recenzija, a “dataset_neg” sadrži 2500 negativnih recenzija. Parametar split koristimo za određivanje raspona primjera za učitavanje, što nam omogućuje odabir podskupa cijelog skupa podataka.

# Korak 3: Povežite skupove podataka

spojeni_skup_podataka = spojiti skupove_podataka ( [ dataset_pos , skup_neg ] )

U ovom koraku povezujemo dva podskupa IMDb skupa podataka u jedan skup podataka pod nazivom 'concatenated_dataset'. Koristimo funkciju 'concatenate_datasets' i prosljeđujemo je s popisom koji sadrži dva skupa podataka za spajanje. Budući da oba skupa podataka imaju iste značajke, povezujemo ih duž osi=0 što znači da su redovi naslagani jedan na drugi.

# Korak 4: Analizirajte spojeni skup podataka

broj_pozitivnih_recenzija = iznos ( 1 za označiti u

spojeni_skup_podataka [ 'označiti' ] ako označiti == 1 )

broj_negativnih_recenzija = iznos ( 1 za označiti u

spojeni_skup_podataka [ 'označiti' ] ako označiti == 0 )

Ovdje provodimo jednostavnu analizu spojenog skupa podataka. Koristimo razumijevanje popisa zajedno s funkcijom 'zbroj' za brojanje pozitivnih i negativnih recenzija. Ponavljamo kroz “ label' u stupcu 'concatenated_dataset' i povećavaju zbrojeve kad god naiđemo na pozitivnu oznaku (1) ili negativnu oznaku (0).

# Korak 5: Prikažite rezultate

ispisati ( 'Broj pozitivnih recenzija:' , broj_pozitivnih_recenzija )

ispisati ( 'Broj negativnih recenzija:' , broj_negativnih_recenzija )

U ovom koraku ispisujemo rezultate naše analize – broj pozitivnih i negativnih recenzija u spojenom skupu podataka.

# Korak 6: Ispišite nekoliko primjera recenzija

ispisati ( ' \n Neki primjeri recenzija:' )

za ja u domet ( 5 ) :

ispisati ( f 'Pregled {i + 1}: {concatenated_dataset['text'][i]}' )

Na kraju prikazujemo nekoliko primjera recenzija iz spojenog skupa podataka. Prolazimo kroz prvih pet primjera u skupu podataka i ispisujemo njihov tekstualni sadržaj pomoću stupca 'tekst'.

Ovaj kod pokazuje izravan primjer korištenja biblioteke 'setova podataka' Hugging Facea za učitavanje, spajanje i analizu skupova podataka o pregledu filmova IMDb. Ističe sposobnost knjižnice da pojednostavi rukovanje NLP skupom podataka i prikazuje njezin potencijal za izgradnju sofisticiranijih modela i aplikacija za obradu prirodnog jezika.

Zaključak

Program Python koji koristi biblioteku 'setova podataka' Hugging Facea uspješno demonstrira ulančavanje dva skupa podataka o recenziji filmova IMDb. Učitavanjem podskupa pozitivnih i negativnih recenzija, program ih kombinira u jedan skup podataka pomoću funkcije concatenate_datasets(). Zatim provodi jednostavnu analizu brojanjem pozitivnih i negativnih recenzija u kombiniranom skupu podataka.

Biblioteka 'setovi podataka' pojednostavljuje proces rukovanja i manipuliranja NLP skupovima podataka, čineći je moćnim alatom za istraživače, programere i NLP praktičare. Sa svojim sučeljem prilagođenim korisniku i opsežnim funkcionalnostima, knjižnica omogućuje pretprocesiranje, istraživanje i transformaciju podataka bez napora. Program koji je predstavljen u ovoj dokumentaciji služi kao praktičan primjer kako se knjižnica može iskoristiti za pojednostavljenje zadataka ulančavanja podataka i analize.

U scenarijima stvarnog života ovaj program može poslužiti kao temelj za složenije zadatke obrade prirodnog jezika kao što su analiza osjećaja, klasifikacija teksta i jezično modeliranje. Koristeći biblioteku 'setova podataka', istraživači i programeri mogu učinkovito upravljati skupovima podataka velikih razmjera, olakšati eksperimentiranje i ubrzati razvoj najmodernijih NLP modela. Sveukupno, biblioteka 'skupova podataka' Hugging Face predstavlja ključnu prednost u potrazi za napretkom u obradi i razumijevanju prirodnog jezika.

Kako spojiti skupove podataka u Hugging Face

spoji skupove_podataka()

Opis:

Parametri:

Povratak:

Zaključak

Kategorija

Popularni Postovi

Kako instalirati AnyDesk na Linux Mint 21

Kako instalirati Sublime Text na Raspberry Pi OS

Najbolji web preglednici za Raspberry Pi

Kako rijetko preuzeti samo jednu datoteku iz Git spremišta?

Kako ukloniti zaštićene pakete iz Fedora/CentOS/RHEL/Rocky Linux

Što je naredba Rename-Item u PowerShell-u?

Dobna preporuka i roditeljska kontrola – Roblox

Kako stvoriti različite varijacije AI slika koristeći MidJourney?

Kako promijeniti vrijeme u Minecraftu

Kako instalirati NVIDIA CUDA i cuDNN na Debian 12 Bookworm

Kako dodijeliti zadane vrijednosti za polja strukture u Golangu?

Kako pratiti ili se pridružiti drugim igračima u iskustvu – Roblox

Izrazi filtera DynamoDB: Sve što trebate znati

Što je mapa PerfLogs u sustavu Windows

Kako pretvoriti int u double u Javi

OneDrive datoteke na zahtjev za preuzimanje - blokirajte i deblokirajte aplikacije putem postavki - Winhelponline

Kako instalirati NVIDIA upravljačke programe na Windows 10/11

Kako popraviti neuspjelu verifikaciju Python SSL certifikata

Kako promijeniti boju gumba pri lebdenju u CSS-u?

Koji HP laptop ima Bang & Olufsen