Comment OCR Texte en PDF et Fichiers Image dans Adobe Acrobat

Les documents numérisés sont excellents. Ils vous permettent d’archiver des piles de papier dans des dossiers de votre ordinateur, d’occuper beaucoup moins d’espace et d’être infiniment plus faciles à organiser, à déplacer et à copier. Ce qui n’est pas si bon, c’est de trouver du contenu stocké dans l’un de vos centaines de documents numérisés. Par défaut, il ne s'agit guère que d'une image de votre document. Si vous souhaitez y trouver des informations, vous devez les ouvrir et les lire vous-même..

Vous pouvez également laisser votre ordinateur faire le gros du travail pour vous, en transformant votre image en texte et en vous permettant de parcourir vos documents numérisés aussi facilement que vous le feriez avec tout autre document. C'est ce que l'OCR-Optique Crageur Recognition-fait. Il utilise l'intelligence de votre ordinateur pour reconnaître les formes de lettre d'une image ou d'un document numérisé, et les transformer en texte numérique que vous pouvez copier et éditer à votre guise..

Voici comment vous pouvez utiliser l'outil de ROC intégré à Adobe Acrobat pour transformer vos documents numérisés et vos images de texte en texte numérique réel.

OCR un document ou une image dans Acrobat

Adobe Acrobat est le programme standard d'origine pour la création, la modification et la visualisation de fichiers PDF. Il est couramment utilisé dans les entreprises et est fourni avec Adobe Creative Suite et la version complète de Creative Cloud. Il est donc probable que votre ordinateur professionnel l’a déjà installé. Vous pouvez également l’installer gratuitement à partir de votre abonnement Creative Cloud. Si tel est le cas, c’est un outil formidable pour l’OCR de vos documents rapidement sur un Mac ou un PC..

Remarque: ce tutoriel nécessite Adobe Acrobate, ne pas Adobe Lecteur. Ce dernier est une application gratuite destinée uniquement à la visualisation de fichiers PDF. Si c'est tout ce que vous avez, passez à la fin de ce didacticiel pour découvrir d'autres outils OCR performants que vous pouvez utiliser..

Ouvrez votre image ou votre PDF et commencez à reconnaître votre texte dans Acrobat. 

Acrobat peut reconnaître du texte dans n'importe quel fichier PDF ou image dans des dizaines de langues. Tout ce que vous avez à faire est d’ouvrir le document ou l’image numérisée que vous souhaitez utiliser pour la ROC, puis de cliquer sur le bouton bleu. Outils bouton en haut à droite de la barre d’outils. Dans cette barre latérale, sélectionnez le Reconnaître le texte onglet, puis cliquez sur le Dans ce fichier bouton.

Vous aurez maintenant quelques options pour peaufiner votre OCR. Si vous reconnaissez un document dans les langues par défaut de votre ordinateur (anglais (US) dans mon cas), cliquez simplement sur D'accord pour que votre texte soit reconnu. Sinon, cliquez sur le Modifier… bouton pour sélectionner votre langue d'OCR, choisir votre style de sortie PDF et la résolution à utiliser par Acrobat lors de la reconnaissance de votre texte.

Ajustez vos paramètres d'OCR

Après une brève pause indiquée par une barre de progression au bas de la fenêtre, votre texte sera pleinement reconnu. Il n’a fallu qu’environ 15 secondes pour reconnaître le texte d’un formulaire numérisé d’une page de mon MacBook Air 2012, mais quelques minutes pour un manuel PDF de 30 pages en couleur. Une fois cela fait, vous pouvez sélectionner n'importe quel texte du document et le copier comme d'habitude, ou rechercher du texte dans le document. Par défaut, Acrobat enregistre le texte reconnu dans le fichier d'origine lorsque vous effectuez une OCR d'un fichier PDF. Si vous effectuez une OCR d'une image, il enregistre l'image avec son texte dans un nouveau fichier PDF. Quoi qu'il en soit, le texte reconnu apparaîtra ensuite dans n'importe quel lecteur PDF, comme s'il s'agissait d'un document numérique original..

Copiez le texte d'un document numérisé sous forme de texte brut ou avec une mise en forme ou utilisez simplement le PDF en tant que PDF normal

Une fois le texte reconnu, vous pouvez maintenant baliser le PDF à l'aide de tous les outils de balisage habituels: vous pouvez mettre en surbrillance, rayer du texte, etc. Vous pouvez même copier le texte avec le formatage détecté, bien que ce soit souvent moins précis que la reconnaissance de texte elle-même..

Exportez vos documents OCRed

Si vous souhaitez modifier vos documents numérisés d'origine, ou peut-être réutiliser les informations qu'ils contiennent dans un nouveau document, vous souhaiterez plus que du texte sélectionnable sur un PDF. Vous voudrez que le document complet soit converti. Acrobat facilite également les choses: OCRer le texte et l'exporter en tant que nouveau document en une seule étape..

Il suffit d’ouvrir le document que vous souhaitez convertir en OCR, cliquez sur FichierEnregistrer sous… et choisissez le format que vous souhaitez. Vous pouvez exporter en tant que document Word ou RTF, feuille de calcul Excel ou CSV, ou HTML. Ajoutez le nom de fichier souhaité et l’emplacement où vous souhaitez enregistrer votre nouveau fichier, puis cliquez sur sauvegarder. Acrobat affichera la même barre de progression au bas de la fenêtre, car il reconnaît le texte et le formatage de votre document, puis enregistre la copie exportée..

Exportez vos images et vos fichiers PDF depuis Acrobat avec des résultats variables.

Les exportations Acrobat à partir de documents numérisés sont à la fois étonnamment bonnes et frustrantes. Il reconnaîtra la majeure partie du texte et de la mise en forme, et vous serez probablement surpris de voir à quel point le document exporté fini a belle apparence s'il n'est pas trop complexe. Mais alors, ce n'est pas encore le document original. Il y aura des erreurs, le formatage que vous devrez corriger, et plus encore. Le meilleur moyen consiste toujours à utiliser le document numérique original, mais il s'agit d'un excellent moyen de récupérer une copie numérique d'un document si vous ne disposez que d'une numérisation..

Bien que l'OCR ne soit pas parfait, celui d'Acrobat est plutôt bon. Dans ce formulaire scanné, presque chaque mot a été détecté correctement, bien qu’une instance du mot prénom a été détecté comme N "" e. Cela suffit parfaitement si vous souhaitez simplement pouvoir effectuer une recherche grossière dans vos documents à l'aide de l'outil de recherche de votre lecteur PDF. Toutefois, si vous utilisez réellement l'OCR pour effectuer une copie du texte d'origine, vous devez vérifier -Lisez-le d'abord et assurez-vous de corriger les erreurs évidentes.

OCR plusieurs documents à la fois

Vous avez une tonne de documents que vous souhaitez utiliser pour la ROC? Acrobat est idéal pour ça aussi. Ouvrez simplement un document dans Acrobat, puis ouvrez le Reconnaître le texte volet de la barre latérale comme avant. Cette fois, sélectionnez Dans plusieurs fichiers bouton, et vous verrez une fenêtre où vous pouvez faire glisser tous vos fichiers que vous souhaitez OCR. Là encore, vous pouvez ajouter des fichiers PDF ou des images. Acrobat reconnaîtra le texte et les enregistrera au format PDF. Il y a aussi quelques options supplémentaires, où vous pouvez choisir où sauvegarder les fichiers finis et comment vous voudriez qu'ils soient nommés.

Autres outils d'OCR

Bien entendu, Acrobat n’est pas le seul moyen d’obtenir du texte OCR à partir de vos documents numérisés. Si vous n'en avez pas déjà une copie, vous pouvez utiliser une tonne d'autres outils. Nous avons déjà présenté les meilleurs outils d’OCR sur votre Mac: Prizmo, FineReader, l’application Doxie, PDFPen et Evernote. Prizmo et PDFPen fonctionneraient également sur vos appareils iOS pour l’OCR lorsqu’ils se déplacent, et l’application Doxie fonctionne également sur les PC. Evernote ne vous permet pas de copier du texte, mais cela fonctionne partout. Sur le PC, l'OCR de OneNote est excellent et gratuit..

Il y a aussi la bibliothèque d'OCR Tesseract gratuite, avec une application Mac gratuite extrêmement basique qui peut reconnaître du texte pour vous. Le pica text est un autre outil d’OCR abordable pour 3,99 dollars. Quoi qu'il en soit, si l'OCR est tout ce dont vous avez besoin, vous n'avez pas besoin d'obtenir une copie d'Acrobat uniquement pour cela, mais si vous avez Acrobat, son outil OCR est un outil très utile..

Conclusion

Prendre quelques minutes pour OCR vos documents PDF suffit pour les transformer en images de base de vos documents papier en documents numériques complets dans lesquels vous pouvez rechercher, copier du texte, annoter et exporter au format Office. Acrobat a été critiqué pour son lecteur PDF, mais il possède toujours une tonne de fonctionnalités exceptionnelles, et l'OCR en fait partie..

Si vous disposez d'une copie d'Acrobat ou d'un abonnement Creative Cloud, essayez-le et obtenez vos documents numérisés avec OCRed. Ils vous donneront instantanément plus de valeur que de simples analyses.