5 façons d'OCR des documents sur votre Mac

Si vous avez été incité à essayer de passer à un bureau sans papier, vous n'êtes pas seul! L'année 2013 est celle de la dématérialisation. Cela ne signifie pas seulement numériser ces vieux reçus et correspondance, il faut aussi les numériser intégralement. Dans ce guide, nous vous montrerons cinq applications différentes capables de convertir des documents numérisés en documents entièrement interrogeables à l'aide d'une technologie appelée OCR..

Mise à jour: vous pouvez également numériser facilement des documents avec la technologie OCR via votre iPhone, en utilisant le nouveau Application DocScan sur le marché Envato.

L'application DocScan sur le marché Envato

Si vous préférez utiliser un scanner traditionnel pour numériser vos documents, lisez la suite pour en savoir plus sur la procédure à suivre..

Qu'est-ce que l'OCR??

OCR signifie Reconnaissance optique de caractères. Chaque fois que vous numérisez un document, le scanner lui-même n'a aucun moyen de savoir quelle est la différence entre un texte et une image. Par conséquent, tout ce que vous numérisez est en réalité une image. Cela s'applique également même si vous avez choisi de l'enregistrer au format PDF, car vous ne pourrez pas (encore) sélectionner de texte..

La technologie OCR existe depuis assez longtemps, mais il s’agit d’une caractéristique souvent sous-estimée qui n’est en général jamais ignorée. Si vous avez acheté un scanner au cours des dernières années, il est fort probable que vous ayez déjà installé un logiciel de reconnaissance optique de caractères assez astucieux sur le disque qui l'accompagnait! En tant qu'utilisateurs Mac, nous sommes parfois gâtés par le fait que nous n'avons presque jamais à nous soucier de l'installation de pilotes, de sorte que les logiciels sur les mêmes disques sont souvent ignorés..

Pointe: Un PDF est simplement un conteneur de texte et d'images. Ainsi, les reçus ou la correspondance que vous avez numérisés et enregistrés au format PDF ne sont pas encore consultables..


1. Prizmo

Prizmo est une application OCR dédiée. Il n'est pas conçu pour vous aider à rogner ou à redresser vos documents numérisés, il a pour seul objectif d'analyser le texte de tous les numérisations et de le convertir en texte interrogeable. Prizmo va même analyser de vieux journaux et magazines, des couvertures de livres, pratiquement tout ce qui peut avoir une forme, une taille ou une couleur de texte est ce que Prizmo convertira.

Prizmo inclut la possibilité de capturer des numérisations directement à partir de Capture d'image, L'application d'importation de caméra et de scanner intégrée à OS X vous permet de l'utiliser avec n'importe quel scanner existant. Vous pouvez également importer des fichiers existants si vous les avez déjà analysés..

Étape 1

Lorsque vous lancez Prizmo, vous êtes invité à créer un nouveau document ou à en ouvrir un. Avant de continuer, cela fait référence à un Prizmo document et non celui que vous voulez analyser. Cela peut paraître un peu déroutant, mais Prizmo peut enregistrer les analyses que vous avez effectuées si vous devez un jour revenir en arrière et modifier le texte, par exemple si vous aviez numérisé dans un fichier PDF de 200 pages et constaté que certaines pages n'étaient pas correctement analysées. le milieu et un texte manquait. Enregistrer votre travail dans Prizmo signifie que vous pouvez revenir en arrière et apporter les modifications nécessaires..


Prizmo crée ses propres documents afin que vous puissiez les consulter (et les éditer) ultérieurement

Sélectionner Nouveau document… et vous serez présenté avec un nouveau document Prizmo pour commencer à utiliser.


Prizmo crée ses propres documents afin que vous puissiez les consulter (et les éditer) ultérieurement

Nous pouvons soit faire glisser un fichier image (JPG, PDF, TIFF, etc.), l'importer à partir de notre scanner ou même parcourir une photothèque.

Étape 2

Pour les besoins de ce tutoriel, j'utilise un document existant que j'avais scanné à l'aide de mon scanner à plat. Il a été enregistré directement au format PDF et, comme vous pouvez le constater, je ne peux mettre en évidence aucun texte..

Sélectionner Ouvrir un fichier image… et sélectionnez une image à utiliser.

Étape 3

Une fois que l'image est chargée, une mise en page familière vous est présentée, avec des miniatures de page sur le côté gauche..


Prizmo a une apparence très similaire à l'application Preview d'Apple

Nous avons quelques commandes de réglage en bas où nous pouvons ajuster la rotation, rogner l'image, etc. Prizmo détecte automatiquement les exigences du document et procède automatiquement aux modifications des paramètres nécessaires, mais nous pouvons toujours les ajuster si nécessaire..

Étape 4

Je suis heureux avec les paramètres par défaut, alors cliquez simplement sur Reconnaître et Prizmo détectera automatiquement toutes les zones de texte et les analysera presque instantanément.


Prizmo peut OCR des documents rapidement et avec précision

De la même manière que vous dessiniez une zone à numériser lorsque vous numérisez un document, vous pouvez faire de même pour les zones de texte. Prizmo tentera cela automatiquement mais, encore une fois, vous avez le contrôle total.

Le texte analysé est ensuite affiché à droite du document. A ce stade, rien n'est enregistré. Si l'OCR n'était pas complètement précis, vous pouvez y apporter des modifications..

Étape 5

Prizmo était précis à 100% avec mon document, il n'y a donc aucun changement à faire. Vous pouvez exporter votre document vers un certain nombre de services cloud, tels que Dropbox et Google Drive, ou les joindre à un nouveau message.


Prizmo prend en charge un certain nombre de services cloud

Je vais sauvegarder mon document sur mon bureau, je vais donc sélectionner Fichier…

Prizmo est extrêmement utile pour quiconque numérise régulièrement des documents avec n'importe quel type de scanner. Les commandes avancées auxquelles vous avez accès vous permettent d’affiner le fonctionnement du processus de ROC au lieu de vous fier à des paramètres entièrement automatiques..

En savoir plus sur Prizmo.


2. ABBYY FineReader Express

ABBYY FineReader Express est un autre outil OCR spécialisé, conçu spécialement pour cette tâche, et le fait très bien. Le processus d'OCR étant automatisé, la seule interaction avec l'utilisateur consiste à indiquer à ABBYY FineReader Express le document à charger et l'emplacement d'enregistrement de la version d'OCR..

Au lieu de créer un nouveau document ou d’ouvrir un document existant, ABBYY FineReader Express dispose Tâches rapides panneau qui s'ouvre au lancement. C'est un moyen rapide de faire de la ROC avec un minimum de clics de souris.

Vous pouvez convertir des documents numérisés dans un certain nombre de formats différents. Un atout supplémentaire est la possibilité de faire de la ROC sur une feuille de calcul et de produire une feuille de calcul entièrement consultable - et modifiable - qui la rend très tentante pour les utilisateurs professionnels..

Étape 1

Comme nous avons déjà un fichier PDF dont nous avons besoin pour l'OCR, lancez ABBYY FineReader Express et sélectionnez Convertir en PDF consultable et choisissez le document que vous voulez OCR.


ABBYY FineReader Express comprend un panneau Tâches rapides pour faciliter l’OCR

Étape 2

C'est en fait ça! ABBYY FineReader Express vous invitera à enregistrer le nouveau document OCR dans l'emplacement de votre choix. Étrangement, vous êtes invité à enregistrer le document avant le chargement de l'aperçu. Pour savoir si ABBYY FineReader Express a été en mesure de faire une OCR du document, vous devez Annuler enregistrer le document, puis enregistrez-le à partir du menu.


ABBYY est l’une des applications les plus simples à utiliser en matière de ROC

En savoir plus sur ABBYY FineReader Express.


3. Doxie

Nous avons couvert le scanner et le logiciel Doxie dans notre précédent guide “Allez sans papier avec Doxie”Mais il convient de mentionner à nouveau ses fonctionnalités OCR intégrées.

Doxie inclut OCR intégré dans son application d'importation afin que tous les documents que vous numérisez aient la possibilité d'être analysés. Cependant, Doxie ne contient pas beaucoup de contrôles et automatise la plupart du processus.


Doxie a moins de contrôles qu'une application telle que Prizmo

Étape 1

Numérisez n'importe quel document que vous souhaitez utiliser pour l'OCR, puis lancez le logiciel. Doxie app, en vous assurant que votre scanner Doxie est connecté.

Étape 2

Une fois que vous avez importé votre document numérisé, vous pouvez sélectionner où et comment vous souhaitez l'exporter. Dans ce cas, je vais sélectionner PDF avec OCR (noir et blanc). Il est préférable de sélectionner le type de document, car cela vous permet d'utiliser un format moins encombrant..


Doxie inclut la possibilité d'exporter au format PDF ou avec OCR ajouté

Pointe: Vous constatez souvent que de nombreuses entreprises envoient des lettres de correspondance d'une couleur particulière à conserver avec leur marque. Je vous recommande de les enregistrer en noir et blanc afin de réduire au maximum la taille du fichier..

Étape 3

Une fois que vous avez sélectionné l'emplacement de sauvegarde du fichier PDF, Doxie enregistre le document par OCR et l'exporte. Le texte est entièrement interrogeable et ne remplace pas le texte de l'analyse. Il utilise plutôt une fonctionnalité astucieuse de fichiers PDF appelée superposition de texte. Votre document a peut-être la même apparence qu'auparavant, mais c'est une bonne chose. Au lieu de cela, le texte est placé de manière transparente sur le texte, ce qui le rend consultable et surlignable..


Doxie conserve toujours l'aspect du PDF, mais superpose le texte pouvant être mis en surbrillance

Bien que le processus Doxie soit très simple, il n’ya pas autant d’options qu’une application OCR dédiée telle que Prizmo. Cependant, cela signifie que si vous êtes déjà un utilisateur de Doxie ou si vous faites seulement un balayage léger, alors ces fonctionnalités pourraient ne pas vous être très bénéfiques..

Les scanners Doxie commencent à 119 $ et sont disponibles auprès de Getdoxie.com.


4. PDFPen

PDFPen est un peu différent de Prizmo car ce n'est pas simplement un outil de ROC. C'est un outil tout-en-un conçu pour remplir, éditer et modifier des PDF. L'une de ses caractéristiques est qu'il peut détecter les documents numérisés et effectuer une OCR en une seule étape..

Étape 1

Lancez PDFPen et il vous sera automatiquement demandé de sélectionner un PDF à ouvrir. Sélectionnez un document numérisé et cliquez sur Ouvrir.

Étape 2

Une fois que PDFPen ouvre le document et détecte qu'il a été numérisé (plutôt que téléchargé ou généré par ordinateur), il vous demandera si vous souhaitez l'analyser et numériser le texte. Vous avez la possibilité d'exécuter simplement l'outil OCR sur la page actuelle ou le document entier..


PDFPen est une autre application conçue pour automatiser la plupart des processus de ROC

Spécifiez la langue requise et sélectionnez le bouton approprié - dans ce cas, je viens de sélectionner Document OCR.

Étape 3

Une fois terminé, enregistrez le PDF. Contrairement à Doxie ou à Prizmo, vous ne créez pas une autre copie immédiatement. PDFPen modifie les fichiers PDF existants afin que vous puissiez simplement enregistrer les modifications, en éliminant le désagrément de la gestion d'un fichier supplémentaire..

En savoir plus sur PDFPen.


5. Evernote

Evernote est un service de synchronisation de notes extrêmement populaire qui agit davantage comme un hybride entre un album et un ordinateur portable. Voyez cela comme un classeur plein d'informations toujours disponibles et faciles à consulter.

Nous avons déjà beaucoup couvert Evernote sur Mactuts + et j’encourage tous ceux qui utilisent Evernote (ou sont intéressés à en utiliser davantage) à lire notre article «Apprivoiser l'éléphant: Trucs et astuces géniaux Evernote”Pour en savoir plus.

Le service OCR automatique est une caractéristique d’Evernote qui est souvent négligée et jamais vraiment présentée à l’utilisateur. Oui, toute image que vous ajoutez à Evernote est numérisée et ajoutée à votre note. Il est effectué côté serveur, de sorte que l'ajout d'un document à Evernote n'est pas converti instantanément. En raison du nombre d'utilisateurs Evernote, ce n'est pas instantané. Pour éviter les problèmes de serveur, tous les documents nécessitant une reconnaissance optique des caractères sont mis en file d'attente. Il n'y a aucun moyen de savoir quand il sera numérisé, mais c'est habituellement dans les 24 à 48 heures. Si vous êtes un membre premium, c'est plus rapide.

Étape 1

Pour numériser un document, faites-le simplement glisser et ajoutez-le à une note, nouvelle ou existante, en veillant à synchroniser Evernote dès que vous l'avez terminé. C'est tout ce qu'on peut en dire.


Evernote prend en charge les pièces jointes pour les notes et toutes les images seront automatiquement OCR par leurs serveurs.

Étape 2

Finalement, Evernote numérisera le document et effectuera l’OCR. Une fois que cela se produit, le document sera mis à jour et synchronisé. retour sur Evernote sur votre appareil. Evernote a mis environ 10 minutes à OCR pour ajouter le document que j'ai ajouté (je suis un abonné Evernote Premium, les délais varient donc)..

L'OCR est généralement très précis, mais il n'y a pas de contrôle sur le fonctionnement de l'OCR. Cela se fait automatiquement, sans entrée ni réglage de l'utilisateur.

Étape 3

Vous pouvez ensuite rechercher du texte et, comme vous pouvez le constater, le texte est mis en surbrillance pendant la recherche. Après avoir parcouru la note, elle semble avoir été précise à 100%..


Une fois le document converti en OCR par les serveurs d’Evernote, il sera interrogeable dans Evernote et vous pourrez également exporter le document au format PDF interrogeable.

Étape 4 (facultatif)

Si vous souhaitez conserver une version PDF interrogeable en dehors d'Evernote, vous pouvez cliquer avec le bouton droit de la souris et sélectionner Enregistrer le fichier PDF indexable sous…

Ce n’est pas idéal car Evernote enveloppe chaque mot avec une boîte verte; l’impression n’est donc peut-être pas une si bonne idée, mais cela fonctionne..

Bien que ses fonctionnalités soient assez basiques, l'utilisation d'Evernote en tant que hub central pour votre bureau sans papier devient de plus en plus populaire. Si vous souhaitez en faire de même, vous pouvez supprimer n'importe quel processus de ROC et déposer des numérisations directement dans Evernote. Il se chargera de l'OCR pour vous et comme la plupart des articles seront des reçus et de la correspondance, vous n'aurez probablement aucun problème avec le service OCR d'Evernote..

Evernote est gratuit, avec des comptes premium à 5 $ par mois ou 35 $ par an.


Emballer

Vous pouvez numériser ces documents numérisés de différentes manières pour les rendre consultables en texte, et les coûts d'utilisation d'un outil de ROC ont considérablement diminué. Le temps où vous étiez coincé dans l'application que votre scanner vous avait fournie était révolu. Vous êtes maintenant libre d'utiliser à peu près n'importe quelle application OCR de votre choix..

Si vous souhaitez utiliser non seulement des outils de ROC, mais aussi un moyen de manipuler des fichiers PDF, PDFPen est le meilleur choix. Pour ceux qui veulent juste un moyen de faire de la ROC, je recommanderais Prizmo. Même si vous avez un Doxie, Prizmo vous donne plus de contrôle sur le fonctionnement du processus d'OCR.

L'option la plus économique est de créer un compte Evernote gratuit pour quiconque souhaite faire de la ROC à l'occasion..

Avez-vous essayé d'aller sans papier? Avez-vous des problèmes avec l'OCR ou est-ce que tout est consultable dans votre bureau numérique? Nous aimerions beaucoup avoir de vos nouvelles, alors, comme toujours, discutez du sujet plus en profondeur dans les commentaires..