Comment extraire des tableaux à partir de documents PDF

Cet article vous montrera comment extraire des tableaux à partir de documents PDF(extract tables from PDF documents) . Vous pouvez avoir de nombreux fichiers PDF contenant plusieurs tableaux que vous souhaitez utiliser séparément. Copier(Copying) et coller ces tableaux n'est pas une bonne option car cela peut ne pas donner le résultat attendu, vous avez donc besoin d'autres options simples qui peuvent extraire des tableaux d'un fichier PDF et enregistrer ces tableaux en tant que fichiers séparés.

La plupart de ces outils d'extraction de tableau PDF(PDF table extractor tools) ne peuvent pas aider si le tableau PDF est numérisé. Dans ce cas, vous devez d'abord rendre le PDF consultable(make the PDF searchable)  , puis essayer ces options.

Extraire des tableaux de documents PDF

Dans cet article, nous avons ajouté 2 services en ligne gratuits et 3 logiciels gratuits pour extraire des tableaux d'un fichier PDF :

  1. PDF vers XLS
  2. PDFtoExcel.com
  3. Tabula
  4. Outil multifonction ByteScout PDF
  5. Bureau Sejda PDF.

1] PDF vers XLS

Service PDF vers XLS

PDF vers XLS est l'une des meilleures options pour extraire des tableaux à partir de PDF . Il a deux fonctionnalités qui le rendent pratique. Vous pouvez récupérer des tableaux à partir de 20 documents PDF(20 PDF) ensemble. De plus, l' extraction du tableau PDF est automatique. (PDF)Il génère la sortie sous forme de fichier XLSX . Si un PDF comporte plusieurs tables, chaque table est stockée séparément dans différentes feuilles du fichier XLSX de sortie .

Ouvrez la page d'accueil(Open the homepage) de ce service. Après cela, faites glisser et déposez des fichiers PDF ou utilisez le bouton TÉLÉCHARGER DES FICHIERS . (UPLOAD FILES)Chaque PDF téléchargé est automatiquement converti en fichier au format XLSX. Lorsque les fichiers de sortie sont prêts, vous pouvez les télécharger un par un ou télécharger un fichier ZIP qui contiendra tous les fichiers de sortie.

2] PDFtoExcel.com

Extraire des tableaux de documents PDF

Le service PDFtoExcel.com(PDFtoExcel.com) peut extraire des tableaux d'un PDF à la fois, mais il prend en charge plusieurs plates-formes pour télécharger des PDF(PDF) . Il prend en charge les plates-formes OneDrive , de bureau(desktop) , Google Drive et Dropbox pour télécharger un PDF . De plus, le processus de conversion est automatique.

Cette page d'accueil du service est ici(here) . Là, sélectionnez une option de téléchargement pour ajouter un PDF . Après cela, il télécharge et convertit automatiquement le fichier PDF(PDF) en fichier Excel ( XLSX ). Lorsque la sortie est prête, vous obtiendrez le lien de téléchargement pour enregistrer le fichier de sortie contenant le(s) tableau(x) PDF .

Remarque :(Note: ) Bien que ce service mentionne qu'il peut également extraire des tableaux à partir de fichiers PDF numérisés, cela n'a pas fonctionné pour moi. (PDF)Vous pouvez toujours l'essayer pour un PDF(PDF) scanné .

3] Tableau

Logiciel d'extraction de tabula PDF

Tabula est un logiciel puissant capable de détecter automatiquement les tableaux présents dans un PDF , puis de les enregistrer au format TSV , JSON ou CSV . Vous pouvez sélectionner l'option d'enregistrer des fichiers CSV séparés pour chaque tableau (CSV)PDF ou enregistrer tous les tableaux dans un seul fichier CSV .

Pour télécharger cet extracteur de table PDF open-source , cliquez ici(click here) . Il nécessite également Java(requires Java) pour s'exécuter et l'utiliser avec succès.

Extrayez le fichier ZIP que vous avez téléchargé et exécutez le fichier tabula.exe . Il ouvrira une page dans votre navigateur par défaut. Si la page n'est pas ouverte, ajoutez http://localhost:8080 dans votre navigateur et appuyez sur Entrée(Enter) .

Vous verrez maintenant son interface où vous pouvez utiliser l' option Parcourir(Browse) pour ajouter un PDF . Après cela, appuyez sur le bouton Importer . (Import)Lorsque le PDF est ajouté, vous pouvez voir les pages PDF sur son interface.

Utilisez le bouton Autodetect Tables et il mettra automatiquement en surbrillance tous les tableaux présents dans ce PDF . Vous pouvez également mettre en surbrillance manuellement une table en sélectionnant une table particulière. Si vous le souhaitez, vous pouvez également supprimer les tables sélectionnées(remove selected tables) de votre choix.

Cela vous aidera à enregistrer uniquement les tables que vous souhaitez. Lorsque les tableaux PDF sont en surbrillance, cliquez sur le bouton (PDF)Aperçu et exportation des données extraites(Preview & Export Extracted Data) .

Enfin, utilisez le menu déroulant disponible dans la partie supérieure pour sélectionner un format de sortie et appuyez sur le bouton Exporter . (Export)Cela enregistrera les tableaux PDF dans le fichier de format de sortie que vous avez sélectionné.

4] Outil multifonction ByteScout PDF

ByteScout PDF Multitool - ajouter un pdf et détecter des tableaux

Comme son nom l'indique, ce logiciel est livré avec plusieurs outils. Il dispose d'outils tels que convertir un PDF en TIFF multipage(convert PDF to multipage TIFF) , faire pivoter un document PDF(rotate PDF document) , rendre un PDF impossible(make PDF unsearchable) à rechercher , optimiser un PDF(optimize PDF) , ajouter une image au PDF(add an image to PDF) , etc. La fonction de détection de table PDF(PDF) est également là, ce qui est assez génial. L'avantage de cet outil est que vous pouvez également extraire des tableaux à partir de PDF numérisés(extract tables from scanned PDF) . Vous pouvez détecter des tableaux dans plusieurs pages, puis extraire ces tableaux au format CSV , XLS , XML , TXT ou JSON . Avant l'extraction, il vous permet également de définir une plage de pages(page range)pour extraire les tableaux des pages spécifiées uniquement.

Vous pouvez récupérer ce logiciel ici(here) . Il est gratuit pour une utilisation non commerciale(free for non-commercial use) uniquement. Après l'installation, exécutez ce logiciel et utilisez l'option Ouvrir le document(Open Document) pour ajouter un fichier PDF(PDF) . Après cela, cliquez sur l' outil Détecter les tables(Detect tables) comme indiqué dans l'image ci-dessus. Cet outil est présent dans la catégorie Extraction de données(Data Extraction) .

Cela ouvrira une boîte où vous pourrez définir des conditions pour détecter les tables. Par exemple, vous pouvez définir un nombre minimum de colonnes, de lignes, des sauts de ligne minimum entre les tableaux, définir le mode de détection de tableau sur tableau avec ou sans bordure, etc. Utilisez les options ou conservez les paramètres par défaut.

Après cela, appuyez sur le bouton Détecter la table suivante dans cette case. (Detect next table)Il identifiera et sélectionnera une table sur la page en cours. De cette façon, vous pouvez passer à une autre page et détecter plus de tables.

détecter les tableaux et enregistrer les tableaux pdf avec la sortie sélectionnée

Lorsque vous avez terminé, utilisez le bouton Procéder à l'extraction(Proceed to extraction) et sélectionnez le format de sortie. Enfin, vous pouvez utiliser des options pour enregistrer les tableaux de la page actuelle ou définir une plage de pages et enregistrer la sortie.

L'outil donne un résultat satisfaisant. Mais parfois, il peut détecter d'autres contenus dans PDF et ne pas être en mesure d'extraire des tableaux de plusieurs pages. Dans ce cas, vous devez l'utiliser pour récupérer et enregistrer les tables une par une.

5] Sejda PDF Bureau

Sejda PDF Desktop avec convertisseur pdf vers excel

Sejda PDF Desktop est également un logiciel polyvalent. Il peut optimiser ou compresser le PDF(compress PDF) , ajouter un filigrane au PDF, supprimer les restrictions du PDF(remove restrictions from PDF) , modifier le document PDF , etc. Cependant, son plan gratuit a des limites. Dans le plan gratuit, seules 3 tâches par jour peuvent être effectuées. De plus, la limite de taille des PDF est de (PDF)50 Mo(50 MB) ou 10 pages .

Vous pouvez utiliser son outil de conversion PDF vers Excel(PDF to Excel) pour extraire des tableaux PDF . Il détecte automatiquement les tableaux dans les pages PDF et vous permet d'enregistrer ces tableaux au format XLSX ou CSV .

Son lien de téléchargement est ici(here) . Après l'installation, utilisez l'outil PDF vers Excel à partir de son interface principale. Après avoir sélectionné cet outil, utilisez le bouton Choisir les fichiers PDF . (Choose PDF files)Un seul PDF peut être ajouté au plan gratuit.

Lorsque le PDF est ajouté, il fournira les boutons Convertir PDF en CSV(Convert PDF to CSV) et Convertir PDF en Excel . (Convert PDF to Excel)Utilisez un bouton et vous pouvez ensuite enregistrer la sortie à l'emplacement souhaité sur votre PC.

convertir un tableau pdf en excel ou csv

Son outil de détection de tableau PDF est bon. (PDF)Vous n'avez pas besoin de détecter manuellement les tables. Pourtant, il peut parfois inclure un autre contenu textuel sous forme de tableau PDF et le stocker dans la sortie. (PDF)Mais les résultats globaux sont bons.

C'est tout.

Ce sont quelques bons outils pour extraire des tableaux à partir de PDF . Le logiciel Tabula est plus efficace que les autres outils. (Tabula)Néanmoins, vous pouvez essayer tous les outils et vérifier ceux qui vous aident.

Lectures similaires :(Similar reads:)



About the author

Je suis un ingénieur windows,ios,pdf,erreurs,gadgets avec plus de 10 ans d'expérience. J'ai travaillé sur de nombreuses applications et frameworks Windows de haute qualité tels que OneDrive for Business, Office 365, etc. Mes travaux récents ont inclus le développement du lecteur pdf pour la plate-forme Windows et travaillé à rendre les messages d'erreur plus clairs pour les utilisateurs. De plus, je suis impliqué dans le développement de la plate-forme ios depuis quelques années maintenant et je connais très bien ses fonctionnalités et ses particularités.



Related posts