39 votes

Convertir pdf, doc, ppt en html5

J'ai cherché sur Google (sans succès) un logiciel open source capable de convertir les fichiers doc, ppt et pdf en HTML5. (Exactement ce que Scribd fait) Existe-t-il des équivalents open source à ce type de conversion réalisé par Scribd?

Si quelqu'un connaît un service payant, cela pourrait également convenir. Scribd propose une API, mais elle est destinée à être utilisée avec le lecteur flash. De plus, j'aimerais héberger mon propre contenu car j'ai besoin d'un contrôle accru sur le document html converti.

15voto

imoatama Points 774

Il est peu probable que vous trouviez une seule solution qui fasse tout cela, surtout dans le monde open source. Il est plus probable que vous finissiez par compter sur un amalgame de choses, et que vous ayez peut-être même besoin d'enchaîner des convertisseurs pour arriver à l'HTML. (par exemple PDF -> ps -> HTML)

OpenOffice prend en charge la conversion en HTML, et peut être appelé depuis la ligne de commande.

http://pdftohtml.sourceforge.net/ semble assez bon pour convertir pdf en html.

Pour les doc WordML ou format OpenXML, il est concevable que vous puissiez utiliser des transformations XSLT puisque les deux formats d'entrée et de sortie sont XML. J'ai vu quelques feuilles de style circuler sur le net qui font cela, mais votre expérience peut varier.

En passant, pourquoi y a-t-il une exigence spécifique pour l'open source? MS Powerpoint prend déjà en charge l'enregistrement en HTML par exemple.

5voto

Mark Essel Points 1082

Open Office va convertir le PDF en HTML mais vous risquerez une perte de qualité de design.

Je suggère soit : Crocodoc en tant que service payant (Il propose différentes variantes pour différentes plateformes telles que les développeurs Python, Ruby, Java, PHP peuvent travailler sur leurs APIs) ou d'attendre un outil Adobe officiel (il est en cours de développement).

3voto

amit_saxena Points 2434

Pour la conversion de PDF en HTML, pdf2htmlEX semble être un outil assez bon (en regardant tous les exemples) :

https://github.com/coolwanglu/pdf2htmlEX

1voto

PF4Public Points 96

http://wvware.sourceforge.net/

wvHtml : convertir votre document Word en HTML4.0.

Peut-être : http://www.abisource.com/ mais dans ce cas, il semble que "ouvrir le document" > "exporter en html" manuellement, peut-être que des plugins peuvent aider. Pas sûr de ce que vous voulez dire par "logiciel source qui peut convertir".

Ou ceci : http://www.zope.org/Members/sf/NuxDocument

Également, pdftohtml vous permettra d'obtenir une page html en sortie. Mais vous devrez travailler sur son interface graphique. Comme elle ne semble pas très interactive.

1voto

Doua Beri Points 984

Pour les fichiers PDF, il y a un projet open source lancé par Mozilla et c'est très bon : https://github.com/mozilla/pdf.js/

Vous pouvez voir un exemple de bonjour tout le monde : https://github.com/mozilla/pdf.js/tree/master/examples/helloworld

Pour le reste des types de documents, je pense que LibreOffice a dit qu'ils prévoyaient de construire quelque chose en html5, mais jusqu'à présent, rien n'a été fait.

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X