Je me lance dans un projet pour une organisation à but non lucratif pour aider à traiter et classer des milliers de rapports annuellement de leurs travailleurs sur le terrain / sous-traitants du monde entier. Je suis relativement nouveau dans le NLP et donc je voulais demander l'aide du groupe sur l'approche pour résoudre notre problème.
Je vais mettre en évidence le processus actuel, et nos défis et j'aimerais votre aide sur la meilleure façon de résoudre notre problème.
Processus actuel: Les agents sur le terrain soumettent des rapports des projets locaux sous forme de bonnes pratiques. Ces rapports sont ensuite traités par une équipe à temps plein de curateurs qui (i) s'assurent qu'ils respectent un modèle de bonnes pratiques et (ii) éditent les documents pour améliorer le langage / le style / la grammaire.
Défi: Avec l'augmentation du nombre de travailleurs sur le terrain, le volume de rapports générés a augmenté et nos éditeurs sont maintenant un goulot d'étranglement.
Solution: Nous aimerions automatiser la 1ère étape de notre processus, c'est-à-dire, vérifier le document pour le respect du modèle de bonnes pratiques de l'organisation.
Essentiellement, nous devons nous assurer que chaque rapport a 3 composantes à savoir: 1. Indique son objectif: De quel sujet / problème cette meilleure pratique traite-t-elle? 2. Identifie le public: Pour qui est-ce? 3. Met en évidence la pertinence: Que peut faire le lecteur après l'avoir lu?
Voici un exemple de bon rapport soumis.
"Ce document présente des techniques pour appliquer avec succès les meilleures pratiques dans les pays en développement. Cette étude vise à aider les agriculteurs à faible revenu à identifier un ensemble de meilleures pratiques pour la tarification des produits agricoles dans des endroits où il n'y a pas de transparence des prix. En mettant en œuvre ces processus, les agriculteurs pourront obtenir de meilleurs prix pour leurs produits et augmenter leurs revenus familiaux."
Jusqu'à présent, notre approche a été d'utiliser RegEx et de vérifier les mots-clés. c'est-à-dire, pour vérifier la conformité, nous utilisons la logique suivante: 1 Pour vérifier "déclare l'objectif" = nous faisons un regex pour les termes 'objectif', 'intention' 2 Pour vérifier "identifie le public" = nous faisons un regex pour les termes 'identifie', 'est pour' 3 Pour vérifier "met en évidence la pertinence" = nous faisons un regex pour les termes 'capable de', 'permet', 'autorise'
L'approche actuelle de RegEx semble très primitive et limitée alors je voulais demander à la communauté s'il y a une meilleure façon de résoudre ce problème en utilisant quelque chose comme NLTK, CoreNLP.
Merci d'avance.