Ovaj članak pruža vodič korak po korak o korištenju Tokenizersa u Hugging Face Transformers.
Što je tokenizator?
Tokenizer je važan koncept NLP-a, a njegov glavni cilj je prevesti neobrađeni tekst u brojeve. U tu svrhu postoje različite tehnike i metodologije. Međutim, vrijedi napomenuti da svaka tehnika služi određenoj svrsi.
Kako koristiti tokenizere u transformatorima grlećih lica?
Kako koristiti tokenizere u transformatorima grlećih lica?
Biblioteka tokenizatora mora se prvo instalirati prije njezine upotrebe i uvoza funkcija iz nje. Nakon toga obučite model pomoću AutoTokenizera, a zatim dajte unos za izvođenje tokenizacije.
Hugging Face uvodi tri glavne kategorije tokenizacije koje su navedene u nastavku:
- Tokenizator temeljen na riječima
- Tokenizer temeljen na znakovima
- Tokenizator na temelju podriječi
Ovdje je vodič korak po korak za korištenje Tokenizersa u Transformersima:
Korak 1: Instalirajte transformatore
Za instaliranje transformatora koristite naredbu pip u sljedećoj naredbi:
Korak 2: Uvezite razrede
Od transformatora, uvoz cjevovod , i AutoModelForSequenceClassification biblioteka za obavljanje klasifikacije:
Korak 3: Uvezite model
' AutoModelForSequenceClassification ” je metoda koja pripada Auto-Class za tokenizaciju. The from_prettrained() metoda se koristi za vraćanje ispravne klase modela na temelju tipa modela.
Ovdje smo naveli naziv modela u ' Ime modela ” varijabla:
Ime modela = 'distilbert-base-uncased-finetuned-sst-2-engleski'model prije_treninga =AutoModelForSequenceClassification.from_pretrained ( Ime modela )
Korak 4: Uvezite AutoTokenizer
Unesite sljedeću naredbu za generiranje tokena prosljeđivanjem ' Ime modela ” kao argument:
generirani token =AutoTokenizer.from_pretrained ( Ime modela )
Korak 5: Generirajte token
Sada ćemo generirati tokene na rečenici “Volim dobru hranu” pomoću ' generirani token ” varijabla:
ispisati ( riječi )
Izlaz je dan na sljedeći način:
Kod gore navedenog Google Co je dano ovdje.
Zaključak
Da biste koristili Tokenizers u Hugging Face, instalirajte biblioteku pomoću naredbe pip, uvježbajte model pomoću AutoTokenizera, a zatim dajte unos za izvođenje tokenizacije. Korištenjem tokenizacije dodijelite težine riječima na temelju kojih su sekvencirane kako biste zadržali značenje rečenice. Ovaj rezultat također određuje njihovu vrijednost za analizu. Ovaj je članak detaljan vodič o tome kako koristiti Tokenizers u Hugging Face Transformers.