Extraire du texte à partir de fichiers PDF et image
Vous avez un document PDF(PDF document) dont vous souhaitez extraire tout le texte ? Qu'en est-il des fichiers image d'un document numérisé que vous souhaitez convertir en texte modifiable ? Ce sont quelques-uns des problèmes les plus courants que j'ai rencontrés sur le lieu de travail lorsque je travaillais avec des fichiers.
Dans cet article, je parlerai de plusieurs façons différentes d'essayer d'extraire du texte d'un PDF ou d'une image. Les résultats de l'extraction varient en fonction du type et de la qualité(type and quality) du texte du PDF ou de l'image(PDF or image) . De plus, vos résultats varieront en fonction de l'outil que vous utilisez, il est donc préférable d'essayer autant d'options ci-dessous que possible pour obtenir les meilleurs résultats.
Extraire le texte d'une image ou d'un PDF
La façon la plus simple et la plus rapide de commencer est d'essayer un service d'extraction de (extractor service)texte PDF(PDF text) en ligne . Ceux-ci sont normalement gratuits et peuvent vous donner exactement ce que vous cherchez sans avoir à installer quoi que ce soit sur votre ordinateur. En voici deux que j'ai utilisé avec des résultats très bons à excellents :
ExtrairePDF
ExtractPDF est un outil gratuit pour extraire des images, du texte et des polices(text and fonts) d'un fichier PDF(PDF file) . La seule limitation est que la taille maximale(max size) du fichier PDF(PDF file) est de 10 Mo. C'est un peu petit; donc si vous avez un fichier plus volumineux, essayez certaines des autres méthodes ci-dessous. Choisissez votre fichier puis cliquez sur le bouton Envoyer le fichier(Send file) . Les résultats sont normalement très rapides et vous devriez voir un aperçu du texte lorsque vous cliquez sur l' onglet Texte(Text tab) .
C'est aussi un bel avantage supplémentaire qu'il extrait également des images du fichier PDF(PDF file) , juste au cas où vous en auriez besoin ! Dans l'ensemble, l'outil en ligne fonctionne très bien, mais j'ai rencontré quelques documents PDF(PDF docs) qui me donnent une sortie amusante. Le texte est très bien extrait, mais pour une raison quelconque, il y aura un saut de ligne(line break) après chaque mot ! Ce n'est pas un gros problème pour un fichier PDF(PDF file) court , mais certainement un problème pour les fichiers contenant beaucoup de texte. Si cela vous arrive, essayez l'outil suivant.
ROC en ligne
L'OCR en ligne(Online OCR) avait généralement tendance à fonctionner pour les documents qui n'étaient pas convertis correctement avec ExtractPDF , c'est donc une bonne idée d'essayer les deux services pour voir lesquels vous donnent une meilleure sortie. L'OCR en ligne(Online OCR) possède également des fonctionnalités plus intéressantes qui peuvent s'avérer utiles pour quiconque possède un fichier PDF(PDF file) volumineux qui n'a besoin de convertir que du texte sur quelques pages plutôt que sur l'ensemble du document.
La première chose que vous voulez faire est d'aller de l'avant et de créer un compte gratuit. C'est un peu ennuyeux, mais si vous ne créez pas le compte gratuit, il ne convertira que partiellement votre PDF plutôt que l'intégralité du document. De plus, au lieu de ne pouvoir télécharger qu'un document de 5 Mo(MB document) , vous pouvez télécharger jusqu'à 100 Mo par fichier avec un compte.
Tout d'abord, choisissez une langue, puis choisissez le type de formats de sortie que vous souhaitez pour le fichier converti. Vous avez plusieurs options et vous pouvez en choisir plusieurs si vous le souhaitez. Sous Document multipage(Multipage document) , vous pouvez sélectionner Numéros de page(Page numbers) , puis choisir uniquement les pages que vous souhaitez convertir. Ensuite, vous sélectionnez le fichier et cliquez sur (file and click) Convertir(Convert) !
Après la conversion, vous serez amené à la section Documents (si vous êtes connecté) où vous pourrez voir le nombre de pages gratuites disponibles et les liens pour télécharger vos fichiers convertis. Il semble que vous n'ayez que 25 pages gratuites par jour, donc si vous avez besoin de plus que cela, vous devrez soit attendre un peu, soit acheter plus de pages.
L'OCR en ligne(Online OCR) a fait un excellent travail de conversion de mes PDF car il a pu conserver la mise en page réelle du texte. Lors de mon test, j'ai pris un document Word(Word doc) qui utilisait des puces, différentes tailles de police, etc. et je l'ai converti en PDF . Ensuite, j'ai utilisé l' OCR en ligne(Online OCR) pour le reconvertir au format Word(Word format) et il était à environ 95% identique à l'original. C'est assez impressionnant pour moi.
De plus, si vous cherchez à convertir une image en texte, l' OCR en ligne(Online OCR) peut le faire aussi facilement que l'extraction de texte à partir de fichiers PDF .
ROC en ligne gratuite
Puisque nous parlions d'image au texte OCR , permettez-moi de mentionner un autre bon site Web qui fonctionne très bien sur les images. L'OCR en ligne gratuit(Free Online OCR) était très bon et très précis lors de l'extraction du texte de mes images de test. J'ai pris quelques photos depuis mon iPhone de pages de livres, de brochures, etc. et j'ai été surpris de voir à quel point il était capable de convertir le texte.
Choisissez votre fichier puis cliquez sur le bouton Upload(Upload button) . Sur l'écran suivant, il y a quelques options et un aperçu de l'image. Vous pouvez le recadrer si vous ne voulez pas tout ROC. Ensuite, cliquez simplement sur le bouton OCR(OCR button) et votre texte converti apparaîtra sous l' aperçu de l'image(image preview) . Il n'a pas non plus de limitations, ce qui est vraiment agréable.
En plus des services en ligne, il existe deux convertisseurs PDF gratuits que je souhaite mentionner au cas où vous auriez besoin d'un logiciel exécuté localement sur votre ordinateur pour effectuer les conversions. Avec les services en ligne, vous aurez toujours besoin d'une connexion Internet(Internet connection) et cela peut ne pas être possible pour tout le monde. Cependant, j'ai remarqué que la qualité des conversions des programmes gratuits était nettement inférieure à celle des sites Web.
Extracteur de texte A-PDF
A-PDF Text Extractor est un logiciel gratuit qui extrait assez bien le texte des fichiers PDF(PDF file) . Une fois que(Once) vous l'avez téléchargé et installé, cliquez sur le bouton Ouvrir(Open button) pour choisir votre fichier PDF(PDF file) . Cliquez ensuite sur Extraire le texte(Extract text) pour démarrer le processus.
Il vous demandera un emplacement pour stocker le fichier de sortie texte(text output file) , puis il commencera l'extraction. Vous pouvez également cliquer sur le bouton Option , qui vous permet de choisir uniquement certaines pages à extraire et le type d'extraction(extraction type) . La deuxième option est intéressante car elle extrait le texte dans différentes mises en page et cela vaut la peine d'essayer les trois pour voir celles qui vous donnent le meilleur résultat.
Pilote PDF2Text
PDF2Text Pilot fait un bon travail d'extraction de texte. Il n'a aucune option; vous ajoutez simplement des fichiers ou des dossiers, convertissez et espérez(convert and hope) le meilleur. Cela a bien fonctionné sur certains PDF(PDFs) , mais pour la majorité d'entre eux, il y avait de nombreux problèmes.
Cliquez simplement sur Ajouter des fichiers(Add Files) , puis sur Convertir(Convert) . Une fois la conversion terminée, cliquez sur Parcourir(Browse) pour ouvrir le fichier. Votre kilométrage variera en utilisant ce programme, alors ne vous attendez pas à grand-chose.
En outre, il convient de mentionner que si vous êtes dans un environnement d'entreprise ou si vous pouvez mettre la main sur une copie d' Adobe Acrobat au travail, vous pouvez vraiment obtenir de bien meilleurs résultats. Acrobat n'est évidemment pas gratuit, mais il dispose d'options pour convertir des PDF(PDF) au format Word , Excel et HTML(Excel and HTML format) . Il fait également le meilleur travail de maintien de la structure du document original et de conversion de texte compliqué.
Related posts
Comment combiner ou fusionner plusieurs fichiers texte
Meilleur lecteur PDF alternatif gratuit à Adobe Reader
Convertir un PC Windows en une machine virtuelle à l'aide d'Hyper-V
Comment changer la couleur de l'icône du dossier dans Windows
Le meilleur outil de défragmentation gratuit pour Windows est lui-même
Téléchargements de logiciels gratuits essentiels pour Windows
3 meilleures applications pour utiliser Instagram sur votre PC
L'application de bureau Kindle : est-ce une bonne chose ?
Copiez des fichiers volumineux sur le réseau plus rapidement avec TeraCopy
Partager des fichiers volumineux en configurant un serveur de fichiers domestique
Image Editing Software and Editors pour Windows 11/10 gratuit
Comment partager des fichiers entre PC, smartphones et tablettes
8 sites de téléchargement de logiciels gratuits et sécurisés pour Windows
HoneyView Review: Fast Image Viewer Software pour Windows 10
Code HTML pour envelopper le texte autour de l'image
Online OCR sites gratuits et des services pour extraire Text de Image
Voir les images et PDF Docs rapidement via PRIMA Rapid Image Viewer
Formater une carte SD en toute simplicité
Comment épingler Text and Image à Clipboard History dans Windows 10
Comment supprimer ou désinstaller Java (JRE) sur Windows et Mac