6 votes

Comment puis-je configurer le pom.xml de Tika pour ne plus recevoir tous les avertissements de dépendance de licence ?

Je reçois tous ces avertissements de Tika quand j'essaie de l'utiliser :

24 févr. 2018 9:24:35 PM org.apache.tika.config.InitializableProblemHandler$3 handleInitializableProblem WARNING : JBIG2ImageReader non chargé. jbig2 [ ] https://pdfbox.apache.org/2.0/dependencies.html#jai-image-io f dépendances optionnelles. TIFFImageWriter non chargé. Les fichiers tiff ne seront pas traités. [ ] https://pdfbox.apache.org/2.0/dependencies.html#jai-image-io pour les dépendances facultatives. J2KImageReader non chargé. Les fichiers JPEG2000 ne seront ne seront pas traités. Voir https://pdfbox.apache.org/2.0/dependencies.html#jai-image-io f les dépendances facultatives.

24 févr. 2018 9:24:35 PM org.apache.tika.config.InitializableProblemHandler$3 handleInitializableProblem WARNING : sqlite-jdbc de org.xerial n'est pas chargé. Veuillez fournir le jar dans votre classpath pour analyser les fichiers sqlite dans votre classpath. Voir tika-parsers/pom.xml pour la version correcte.

J'ai essayé d'ajouter ceci (dans le pom.xml de Tika) :

            <dependency>
                <groupId>org.bouncycastle</groupId>
                <artifactId>bcprov-jdk15on</artifactId>
                <version>1.57</version>
            </dependency>
            <dependency>
                <groupId>org.bouncycastle</groupId>
                <artifactId>bcmail-jdk15on</artifactId>
                <version>1.57</version>
            </dependency>
            <dependency>
                <groupId>org.bouncycastle</groupId>
                <artifactId>bcpkix-jdk15on</artifactId>
                <version>1.57</version>
            </dependency>
            <dependency>
                <groupId>log4j</groupId>
                <artifactId>log4j</artifactId>
                <version>1.2.17</version>
            </dependency>

            <dependency>
                <groupId>com.levigo.jbig2</groupId>
                <artifactId>levigo-jbig2-imageio</artifactId>
                <version>2.0</version>
                <scope>test</scope>
            </dependency>
            <dependency>
                <groupId>com.github.jai-imageio</groupId>
                <artifactId>jai-imageio-core</artifactId>
                <version>1.3.1</version>
                <scope>test</scope>
            </dependency>    
            <dependency>
                <groupId>com.github.jai-imageio</groupId>
                <artifactId>jai-imageio-jpeg2000</artifactId>
                <version>1.3.0</version>
                <scope>test</scope>
            </dependency>

            <dependency>
                    <groupId>org.xerial</groupId>
                    <artifactId>sqlite-jdbc</artifactId>
                    <version>3.20.1</version>
            </dependency>

Mais je reçois toujours les mêmes avertissements.

Comment puis-je résoudre ce problème ?

MISE À JOUR 1

Mes dépendances ont été ajoutées ici : https://github.com/apache/tika/blob/1.17/pom.xml#L164-L170

J'ai aussi essayé sans le jeu pour tester. Cela n'a rien fait.

Les dépendances que j'ai ajoutées semblent être pour PDFBox une dépendance de Tika.

6voto

J'ai ajouté les dépendances suivantes et je n'ai pas eu d'autre avertissement

    <dependency>
        <groupId>org.apache.tika</groupId>
        <artifactId>tika-core</artifactId>
        <version>1.18</version>
    </dependency>
    <dependency>
        <groupId>org.apache.tika</groupId>
        <artifactId>tika-parsers</artifactId>
        <version>1.18</version>
    </dependency>
    <dependency>
        <groupId>org.apache.pdfbox</groupId>
        <artifactId>jbig2-imageio</artifactId>
        <version>3.0.1</version>
    </dependency>
    <dependency>
        <groupId>com.github.jai-imageio</groupId>
        <artifactId>jai-imageio-jpeg2000</artifactId>
        <version>1.3.0</version>
    </dependency>

1voto

derfsubterfuge Points 58

Il est difficile de voir exactement ce qui se passe parce que vous n'avez pas inclus l'ensemble de vos données. <dependencies>...</dependencies> de votre pom.xml, mais je soupçonne que cela est dû à des dépendances maven optionnelles. Selon documentation sur maven vous devez déclarer les dépendances optionnelles dans votre pom, sinon elles ne seront pas chargées.

De plus, toutes vos dépendances imageio ont toutes <scope>test</scope> ce qui les rend uniquement utilisables pendant les tests unitaires.

0voto

Gregor Points 312

Ceci est maintenant documenté dans le journal des erreurs :

19 Fév 2019 3:18:44 PM org.apache.tika.config.InitializableProblemHandler$3 handleInitializableProblem WARNING : J2KImageReader non chargé. Les fichiers JPEG2000 ne seront pas traités. Voir https://pdfbox.apache.org/2.0/dependencies.html#jai-image-io pour les dépendances facultatives.

Cependant, je préférerais avoir une version de Tika (par exemple, avec un classificateur) qui n'inclut pas le traitement OCR/image lorsque je veux seulement analyser du texte, ou avoir une option pour désactiver l'enregistrement des erreurs (et n'enregistrer une erreur que lorsque j'essaie réellement de charger un format non supporté).

0voto

aarkerio Points 91

En clojure, je l'ai corrigé avec :

(System/setProperty "tika.config" "tika-config.xml")

dans mon fichier config.clj. Le xml est juste :

<?xml version="1.0" encoding="UTF-8"?>
<properties>
   <service-loader initializableProblemHandler="ignore"/>
</properties>

le fichier xml doit se trouver dans le répertoire "resources" et ce répertoire doit être dans votre chemin.

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X