Kako koristiti tokenizere u transformatorima grlećih lica?

Kako Koristiti Tokenizere U Transformatorima Grlecih Lica



Obrada prirodnog jezika (NLP) radi na sirovom obliku podataka. Modeli strojnog učenja treniraju se na složenim podacima, ali ne mogu razumjeti sirove podatke. Ovaj neobrađeni oblik podataka mora imati neku numeričku vrijednost pridruženu sebi. Ova vrijednost određuje vrijednost i važnost riječi u podacima i na temelju toga se izvode izračuni.

Ovaj članak pruža vodič korak po korak o korištenju Tokenizersa u Hugging Face Transformers.

Što je tokenizator?

Tokenizer je važan koncept NLP-a, a njegov glavni cilj je prevesti neobrađeni tekst u brojeve. U tu svrhu postoje različite tehnike i metodologije. Međutim, vrijedi napomenuti da svaka tehnika služi određenoj svrsi.
Kako koristiti tokenizere u transformatorima grlećih lica?







Kako koristiti tokenizere u transformatorima grlećih lica?

Biblioteka tokenizatora mora se prvo instalirati prije njezine upotrebe i uvoza funkcija iz nje. Nakon toga obučite model pomoću AutoTokenizera, a zatim dajte unos za izvođenje tokenizacije.



Hugging Face uvodi tri glavne kategorije tokenizacije koje su navedene u nastavku:



  • Tokenizator temeljen na riječima
  • Tokenizer temeljen na znakovima
  • Tokenizator na temelju podriječi

Ovdje je vodič korak po korak za korištenje Tokenizersa u Transformersima:





Korak 1: Instalirajte transformatore
Za instaliranje transformatora koristite naredbu pip u sljedećoj naredbi:

! pip instalirati transformatori



Korak 2: Uvezite razrede
Od transformatora, uvoz cjevovod , i AutoModelForSequenceClassification biblioteka za obavljanje klasifikacije:

iz transformatora uvoz cjevovoda, AutoModelForSequenceClassification

Korak 3: Uvezite model
' AutoModelForSequenceClassification ” je metoda koja pripada Auto-Class za tokenizaciju. The from_prettrained() metoda se koristi za vraćanje ispravne klase modela na temelju tipa modela.

Ovdje smo naveli naziv modela u ' Ime modela ” varijabla:

Ime modela = 'distilbert-base-uncased-finetuned-sst-2-engleski'
model prije_treninga =AutoModelForSequenceClassification.from_pretrained ( Ime modela )

Korak 4: Uvezite AutoTokenizer
Unesite sljedeću naredbu za generiranje tokena prosljeđivanjem ' Ime modela ” kao argument:

iz transformatora import AutoTokenizer

generirani token =AutoTokenizer.from_pretrained ( Ime modela )

Korak 5: Generirajte token
Sada ćemo generirati tokene na rečenici “Volim dobru hranu” pomoću ' generirani token ” varijabla:

riječi =generirati token ( 'Volim dobru hranu' )
ispisati ( riječi )

Izlaz je dan na sljedeći način:

Kod gore navedenog Google Co je dano ovdje.

Zaključak

Da biste koristili Tokenizers u Hugging Face, instalirajte biblioteku pomoću naredbe pip, uvježbajte model pomoću AutoTokenizera, a zatim dajte unos za izvođenje tokenizacije. Korištenjem tokenizacije dodijelite težine riječima na temelju kojih su sekvencirane kako biste zadržali značenje rečenice. Ovaj rezultat također određuje njihovu vrijednost za analizu. Ovaj je članak detaljan vodič o tome kako koristiti Tokenizers u Hugging Face Transformers.