Je utilise Apache Tika 1.14 et pdf box 2.0.5. Lorsque j'essaie d'extraire le contenu d'un document pdf, il retourne une chaîne vide.
import java.io.File;
import java.io.IOException;
import org.apache.tika.Tika;
import org.apache.tika.exception.TikaException;
public class Test {
public static void main(String args[]) throws IOException, TikaException{
String filePath = "sample.pdf";
Tika tika = new Tika();
String content = tika.parseToString(new File(filePath));
System.out.println(content);
}
}
Voici les dépendances Maven que j'utilise.
org.apache.tika
tika-core
1.14
org.apache.pdfbox
pdfbox
2.0.5