Comment utiliser Tesseract OCR en Java

Vidéo: How to use Tesseract OCR with Java? | Extract text from image

Contenu

Les instructions

Les bibliothèques de reconnaissance optique de caractères de Tesseract offrent aux développeurs un moyen de numériser des documents et du texte dans une image. Ils servent à stocker des images de documents dont vous n'avez plus besoin sur papier. Vous pouvez les utiliser en Java en créant des boucles de contrôle pour chaque caractère et en les écrivant dans un fichier. Pour utiliser les bibliothèques Tesseract, vous devez inclure le "namespace" Java pour les fonctions OCR.

Les instructions

Les bibliothèques Tesseract permettent aux utilisateurs de numériser leurs documents (John Foxx / Stockbyte / Getty Images)

Cliquez avec le bouton droit sur le fichier Java que vous souhaitez utiliser pour créer le document OCR. Cliquez sur "Ouvrir avec" et sélectionnez l'éditeur Java de votre choix.
Ajoutez l'espace de nom de la bibliothèque OCR en haut du fichier. Copiez et collez le code suivant dans votre fichier source:

com.touch.robot.imagecomparison.tesseractocr
Créez le code responsable de l'analyse des caractères pour un fichier. Par exemple, le code suivant crée des boucles à travers chaque caractère d'un fichier et les écrit dans un fichier image:

(I = 1; {i} <{lignes} +1; i = {i}) est un ensemble de valeurs définies comme suit: +1) {Typeline "{_TOCR_LINE {i}}"}
Cliquez sur le bouton "Enregistrer" de l'éditeur et cliquez sur "Exécuter" pour exécuter le code dans un compilateur Java.