Tesseract je besplatno dostupan alat za prepoznavanje teksta otvorenog koda poznat i kao OCR (optičko prepoznavanje znakova). Prvenstveno se koristi za prepoznavanje i izdvajanje teksta iz slika. Čitat će tekst iz slikovnih podataka i pisati izlaz u novu .txt datoteku. Tesseract također radi pod Pythonom, jer se uglavnom koristi za prepoznavanje rukopisa sa slika. Koristi LSTR (long short-term memory) model. Tesseract radi pod licencom Apache 2.0.
Razradit ćemo metodu instaliranja Tesseracta na Windows u ovom blogu.
Dakle, počnimo!
Kako instalirati Tesseract na Windows?
Tesseract je alat naredbenog retka koji se koristi za izdvajanje teksta iz slika. Da biste instalirali Tesseract na Windows, morate slijediti dolje navedene upute.
Korak 1: Preuzmite Tesseract Installer
Prvo idite na donju poveznicu i preuzmite Tesseract instalacijski program prema specifikaciji vašeg sustava:
https: // github.com / UB-Mannheim / teserakt / tjedan
Korak 2: Pokrenite Tesseract Installer
Posjetiti ' Preuzimanja ” direktorij u koji se preuzima instalacijski program Tesseract. Kako biste instalirali Tesseract na Windows, pokrenite instalacijski program Tesseract dvostrukim klikom na njega:
Korak 3: Odaberite jezik
Tesseract instalacijski program podržava mnoge jezike. Za interakciju s korisničkim sučeljem programa za instalaciju odaberite ' Engleski ” kao svoj jezik i kliknite na “ u redu ”:
Korak 4: Instalirajte Tesseract
Nakon što to učinite, na zaslonu će se pojaviti čarobnjak za postavljanje Tesseract OCR-a. Za početak instalacije Tesseracta pritisnite ' Sljedeći ' dugme:
Prihvatiti ' Licencni ugovor ', kliknite na ' Slažem se ' dugme:
Odaberite ' Instalirajte za sve koji koriste ovo računalo ' opciju i pritisnite ' Sljedeći ' dugme:
Ako želite dodati podatke o skripti ili uključiti drugi jezik, označite odgovarajuće potvrdne okvire i pritisnite ' Sljedeći ' dugme. Budući da ne želimo dodatnu podatkovnu skriptu ili jezik, nastavit ćemo sa zadano odabranim opcijama:
Odaberite mjesto instalacije i kliknite na ' Sljedeći ' dugme:
Ako ne želite stvoriti prečac u izborniku Start, označite ' Ne stvaraj precice ' potvrdni okvir i pritisnite ' Instalirati ' dugme:
Nakon toga će se pokrenuti Tesseract instalacija. Pričekajte da se instalacija završi i pritisnite ' Sljedeći ' dugme:
Na kraju kliknite na ' Završi ' dugme:
Korak 5: Postavite varijablu okruženja
Nakon instalacije morate postaviti varijablu okruženja Tesseracta. Da biste to učinili, prvo posjetite direktorij gdje ste instalirali Tesseract i kopirajte put iz ' Adresa ” traka:
Potražite ' Varijable okoline ' u ' Pokretanje 'izbornik i otvori' Uredite varijable okoline sustava ”:
Unutar postavki idite na ' Napredna ” izbornik postavki i kliknite na „ Varijable okoline ' dugme:
Odaberi ' Staza ' Varijabla iz ' Varijable sustava ' i pritisnite ' Uredi ' dugme:
Nakon toga' Uredi varijablu okruženja ” prozor će se pojaviti na ekranu. Pritisni ' Novi ” i ovdje zalijepite kopiranu stazu direktorija za instalaciju Tesseracta. Na kraju kliknite na ' u redu ' dugme:
Korak 6: Provjerite instalaciju Tesseracta
Da biste provjerili instalaciju Tesseracta, otvorite Windows naredbeni redak pretraživanjem ' Naredbeni redak ' u ' Pokretanje ' izbornik:
Provjerite verziju Tesseracta koristeći danu naredbu:
> teserakt --verzija
Donji rezultat pokazuje da smo uspješno instalirali Tesseract verziju ' v5.2.0 ” u sustavu Windows:
Idemo naprijed da provjerimo kako koristiti Tesseract u sustavu Windows.
Kako koristiti Tesseract u sustavu Windows?
Tesseract se koristi za čitanje rukopisa ili izdvajanje teksta sa slika. Pogledajmo kako funkcionira:
Korak 1: Odaberite sliku
Odaberite sliku iz koje želite izdvojiti tekst. Kao što smo odabrali' 1.png ”:
Korak 2: Izdvojite tekst sa slike
Nakon što se CMD otvori. Iskoristite ' CD ” za promjenu direktorija u kojem je pohranjena slika. Zatim pokrenite ' teserakt ” i definirajte naziv slikovne datoteke kako smo naveli “ 1.png ”. ' Tekst ” Parametar pokazuje označava naziv izlazne datoteke:
> CD C:\Korisnici\anuma\OneDrive\Pictures\Spremljene slike> teserakt 1 .png 'Tekst'
Korak 3: Provjerite ekstrakciju teksta
Da biste provjerili izdvajanje teksta, idite u direktorij u kojem postoji slikovna datoteka. Možete vidjeti da je izlazna datoteka ' Tekst ” također je spremljeno ovdje. Dvaput kliknite na izlaznu datoteku da provjerite je li teserakt izdvojio tekst sa slike ili ne:
Možete vidjeti da smo uspješno izdvojili tekst pomoću alata naredbenog retka Tesseract:
Demonstrirali smo tehniku instaliranja i korištenja Tesseracta na Windowsima.
Zaključak
Da biste instalirali Tesseract na Windows, potrebno je preuzeti Tesseract instalacijski program. U tu svrhu slijedite prvu sesiju ovog članka. Zatim postavite varijablu okruženja Path za korištenje i pristup Tesseractu iz Windows naredbenog retka. Zatim odaberite slikovnu datoteku i upotrijebite ' Teserakt ” za prepoznavanje i izdvajanje teksta sa slike. Ovdje ste naučili instalirati i koristiti ' Teserakt ” na prozorima.