Peut-être un peu simpliste mais Googler "bibtex + titre de l'article" ussualy vous obtient un formatage entrée bibtex de l'ACM,Citeseer, ou toute autre référence de suivi des sites. Bien sûr, c'est en supposant que le papier n'est pas à partir d'un non-calcul de journal :D
-- EDIT --
J'ai le sentiment que vous ne trouverez pas une solution personnalisée pour cela, vous pouvez écrire à la citation de trackers comme citeseer, ACM et google scholar pour avoir des idées de ce qu'ils ont fait. Il y a des tonnes d'autres personnes et vous pourriez trouver leurs implémentations ne sont pas à code source fermé, mais pas dans un formulaire publié. Il ya des tonnes de documents de recherche sur le sujet.
L'équipe de recherche, je suis partie de l'a regardé de tels problèmes, et nous sommes venus à la conclusion que la main écrit extraction des algorithmes ou d'apprentissage de la machine sont le moyen de le faire. Écrite à la main algorithmes sont probablement votre meilleur pari.
C'est un problème difficile en raison de la quantité de variation possible. Je suggère à la normalisation du format PDF-texte (ce qui vous obtenez à partir de l'une des dizaines de programmatiques bibliothèques PDF). Vous devez ensuite mettre en œuvre un texte personnalisé démolition des algorithmes.
Je voudrais commencer en arrière à partir de la fin de la PDF et regardez ce genre de citation, il existe des clés-par exemple, [1], [l'auteur-année], (auteur-année) et ensuite essayer d'analyser la phrase suivante. Vous aurez probablement à écrire du code pour normaliser le texte que vous obtenez à partir d'une bibliothèque (en supprimant les espaces superflus et tel). Je tiens seulement à regarder pour la citation de touches que le premier mot d'une ligne, et seulement pour 10 pages par document -- le premier mot doit avoir la clé de délimiteurs -- par exemple, '[' ou '('. Si aucune clés peuvent être trouvés dans les 10 pages alors ignorer le PDF et le drapeau pour l'intervention de l'homme.
Vous pourriez vouloir une bibliothèque que vous pouvez plus par programme à consulter pour la mise en forme de méta-données dans les citations --par exemple, itallics ont une signification spéciale.
Je pense que vous pourriez finir par dépenser assez de temps pour obtenir une solution de travail, puis un processus continu d'adaptation et d'ajouter à la démolition des algorithmes de moteur.