3 votes

Tika renvoyant une chaîne vide

Je utilise Apache Tika 1.14 et pdf box 2.0.5. Lorsque j'essaie d'extraire le contenu d'un document pdf, il retourne une chaîne vide.

import java.io.File;
import java.io.IOException;

import org.apache.tika.Tika;
import org.apache.tika.exception.TikaException;

public class Test {
    public static void main(String args[]) throws IOException, TikaException{
        String filePath = "sample.pdf";

        Tika tika = new Tika();
        String content = tika.parseToString(new File(filePath));

        System.out.println(content);
    }
}

Voici les dépendances Maven que j'utilise.

        org.apache.tika
        tika-core
        1.14

        org.apache.pdfbox
        pdfbox
        2.0.5

5voto

Hari Krishna Points 797

Vous devez ajouter la bibliothèque 'tika-parsers' à votre projet. Ajoutez la dépendance suivante et réessayez.

    org.apache.tika
    tika-parsers
    1.14

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X