J'utilise actuellement PDFBox qui offre un bon support pour la sortie graphique. Il existe un bon support pour l'extraction des traits vectoriels et pour la gestion des polices. Il existe quelques bons outils pour l'essayer (par exemple, PDFReader s'affichera comme Java Graphics2D). Vous pouvez intercepter l'outil graphique avec un outil SVG comme Batik (je fais cela et cela donne une bonne capture).
Il n'existe pas de méthode simple pour convertir tous les PDF en SVG - cela dépend de la stratégie et des outils utilisés pour créer les PDF. Certains textes sont convertis en vecteurs et ne peuvent pas être facilement reconstruits - vous devez installer des polices vectorielles et les rechercher.
MISE À JOUR : J'ai maintenant développé ceci en un paquet PDF2SVG qui n'utilise plus de Batik :
qui a été testé sur une série de PDF. Il produit une sortie SVG composée de
- personnages comme un seul
<svg:text>
par caractère
- comme
<svg:path>
- images comme
<svg:image>
Des paquets ultérieurs convertiront (on l'espère) les caractères en texte courant et les chemins en objets graphiques de plus haut niveau.
MISE À JOUR : Nous pouvons maintenant recréer le texte courant à partir des caractères SVG. Nous avons également converti les diagrammes en XML spécifique au domaine (par exemple, les spectres chimiques). Voir https://bitbucket.org/petermr/svg2xml-dev . Il est encore en phase alpha, mais il avance à une vitesse utile. Tout le monde peut participer !