Extraire du texte à partir de fichiers PDF et image

Vous avez un document PDF(PDF document) dont vous souhaitez extraire tout le texte ? Qu'en est-il des fichiers image d'un document numérisé que vous souhaitez convertir en texte modifiable ? Ce sont quelques-uns des problèmes les plus courants que j'ai rencontrés sur le lieu de travail lorsque je travaillais avec des fichiers.

Dans cet article, je parlerai de plusieurs façons différentes d'essayer d'extraire du texte d'un PDF ou d'une image. Les résultats de l'extraction varient en fonction du type et de la qualité(type and quality) du texte du PDF ou de l'image(PDF or image) . De plus, vos résultats varieront en fonction de l'outil que vous utilisez, il est donc préférable d'essayer autant d'options ci-dessous que possible pour obtenir les meilleurs résultats.

Extraire le texte d'une image ou d'un PDF

La façon la plus simple et la plus rapide de commencer est d'essayer un service d'extraction de (extractor service)texte PDF(PDF text) en ligne . Ceux-ci sont normalement gratuits et peuvent vous donner exactement ce que vous cherchez sans avoir à installer quoi que ce soit sur votre ordinateur. En voici deux que j'ai utilisé avec des résultats très bons à excellents :

ExtrairePDF

extraitpdf

ExtractPDF est un outil gratuit pour extraire des images, du texte et des polices(text and fonts) d'un fichier PDF(PDF file) . La seule limitation est que la taille maximale(max size) du fichier PDF(PDF file) est de 10 Mo. C'est un peu petit; donc si vous avez un fichier plus volumineux, essayez certaines des autres méthodes ci-dessous. Choisissez votre fichier puis cliquez sur le bouton Envoyer le fichier(Send file) . Les résultats sont normalement très rapides et vous devriez voir un aperçu du texte lorsque vous cliquez sur l' onglet Texte(Text tab) .

télécharger le texte

C'est aussi un bel avantage supplémentaire qu'il extrait également des images du fichier PDF(PDF file) , juste au cas où vous en auriez besoin ! Dans l'ensemble, l'outil en ligne fonctionne très bien, mais j'ai rencontré quelques documents PDF(PDF docs) qui me donnent une sortie amusante. Le texte est très bien extrait, mais pour une raison quelconque, il y aura un saut de ligne(line break) après chaque mot ! Ce n'est pas un gros problème pour un fichier PDF(PDF file) court , mais certainement un problème pour les fichiers contenant beaucoup de texte. Si cela vous arrive, essayez l'outil suivant.

ROC en ligne

L'OCR en ligne(Online OCR) avait généralement tendance à fonctionner pour les documents qui n'étaient pas convertis correctement avec ExtractPDF , c'est donc une bonne idée d'essayer les deux services pour voir lesquels vous donnent une meilleure sortie. L'OCR en ligne(Online OCR) possède également des fonctionnalités plus intéressantes qui peuvent s'avérer utiles pour quiconque possède un fichier PDF(PDF file) volumineux qui n'a besoin de convertir que du texte sur quelques pages plutôt que sur l'ensemble du document.

La première chose que vous voulez faire est d'aller de l'avant et de créer un compte gratuit. C'est un peu ennuyeux, mais si vous ne créez pas le compte gratuit, il ne convertira que partiellement votre PDF plutôt que l'intégralité du document. De plus, au lieu de ne pouvoir télécharger qu'un document de 5 Mo(MB document) , vous pouvez télécharger jusqu'à 100 Mo par fichier avec un compte.

ROC en ligne

Tout d'abord, choisissez une langue, puis choisissez le type de formats de sortie que vous souhaitez pour le fichier converti. Vous avez plusieurs options et vous pouvez en choisir plusieurs si vous le souhaitez. Sous Document multipage(Multipage document) , vous pouvez sélectionner Numéros de page(Page numbers) , puis choisir uniquement les pages que vous souhaitez convertir. Ensuite, vous sélectionnez le fichier et cliquez sur (file and click) Convertir(Convert) !

documents ocr en ligne

Après la conversion, vous serez amené à la section Documents (si vous êtes connecté) où vous pourrez voir le nombre de pages gratuites disponibles et les liens pour télécharger vos fichiers convertis. Il semble que vous n'ayez que 25 pages gratuites par jour, donc si vous avez besoin de plus que cela, vous devrez soit attendre un peu, soit acheter plus de pages.

L'OCR en ligne(Online OCR) a fait un excellent travail de conversion de mes PDF car il a pu conserver la mise en page réelle du texte. Lors de mon test, j'ai pris un document Word(Word doc) qui utilisait des puces, différentes tailles de police, etc. et je l'ai converti en PDF . Ensuite, j'ai utilisé l' OCR en ligne(Online OCR) pour le reconvertir au format Word(Word format) et il était à environ 95% identique à l'original. C'est assez impressionnant pour moi.

De plus, si vous cherchez à convertir une image en texte, l' OCR en ligne(Online OCR) peut le faire aussi facilement que l'extraction de texte à partir de fichiers PDF .

ROC en ligne gratuite

Puisque nous parlions d'image au texte OCR , permettez-moi de mentionner un autre bon site Web qui fonctionne très bien sur les images. L'OCR en ligne gratuit(Free Online OCR) était très bon et très précis lors de l'extraction du texte de mes images de test. J'ai pris quelques photos depuis mon iPhone de pages de livres, de brochures, etc. et j'ai été surpris de voir à quel point il était capable de convertir le texte.

ROC en ligne gratuit

Choisissez votre fichier puis cliquez sur le bouton Upload(Upload button) . Sur l'écran suivant, il y a quelques options et un aperçu de l'image. Vous pouvez le recadrer si vous ne voulez pas tout ROC. Ensuite, cliquez simplement sur le bouton OCR(OCR button) et votre texte converti apparaîtra sous l' aperçu de l'image(image preview) . Il n'a pas non plus de limitations, ce qui est vraiment agréable.

En plus des services en ligne, il existe deux convertisseurs PDF gratuits que je souhaite mentionner au cas où vous auriez besoin d'un logiciel exécuté localement sur votre ordinateur pour effectuer les conversions. Avec les services en ligne, vous aurez toujours besoin d'une connexion Internet(Internet connection) et cela peut ne pas être possible pour tout le monde. Cependant, j'ai remarqué que la qualité des conversions des programmes gratuits était nettement inférieure à celle des sites Web.

Extracteur de texte A-PDF

A-PDF Text Extractor est un logiciel gratuit qui extrait assez bien le texte des fichiers PDF(PDF file) . Une fois que(Once) vous l'avez téléchargé et installé, cliquez sur le bouton Ouvrir(Open button) pour choisir votre fichier PDF(PDF file) . Cliquez ensuite sur Extraire le texte(Extract text) pour démarrer le processus.

extracteur apdf

Il vous demandera un emplacement pour stocker le fichier de sortie texte(text output file) , puis il commencera l'extraction. Vous pouvez également cliquer sur le bouton Option , qui vous permet de choisir uniquement certaines pages à extraire et le type d'extraction(extraction type) . La deuxième option est intéressante car elle extrait le texte dans différentes mises en page et cela vaut la peine d'essayer les trois pour voir celles qui vous donnent le meilleur résultat.

Pilote PDF2Text

PDF2Text Pilot  fait un bon travail d'extraction de texte. Il n'a aucune option; vous ajoutez simplement des fichiers ou des dossiers, convertissez et espérez(convert and hope) le meilleur. Cela a bien fonctionné sur certains PDF(PDFs) , mais pour la majorité d'entre eux, il y avait de nombreux problèmes.

pdf2text

Cliquez simplement sur Ajouter des fichiers(Add Files) , puis sur Convertir(Convert) . Une fois la conversion terminée, cliquez sur Parcourir(Browse) pour ouvrir le fichier. Votre kilométrage variera en utilisant ce programme, alors ne vous attendez pas à grand-chose.

En outre, il convient de mentionner que si vous êtes dans un environnement d'entreprise ou si vous pouvez mettre la main sur une copie d' Adobe Acrobat au travail, vous pouvez vraiment obtenir de bien meilleurs résultats. Acrobat n'est évidemment pas gratuit, mais il dispose d'options pour convertir des PDF(PDF) au format Word , Excel et HTML(Excel and HTML format) . Il fait également le meilleur travail de maintien de la structure du document original et de conversion de texte compliqué.



About the author

Je suis un ingénieur windows,ios,pdf,erreurs,gadgets avec plus de 10 ans d'expérience. J'ai travaillé sur de nombreuses applications et frameworks Windows de haute qualité tels que OneDrive for Business, Office 365, etc. Mes travaux récents ont inclus le développement du lecteur pdf pour la plate-forme Windows et travaillé à rendre les messages d'erreur plus clairs pour les utilisateurs. De plus, je suis impliqué dans le développement de la plate-forme ios depuis quelques années maintenant et je connais très bien ses fonctionnalités et ses particularités.



Related posts