Quelqu'un aurait-il une sagesse sur les flux de travail pour l'analyse des données liées à la coutume de la rédaction du rapport? Le cas d'utilisation est essentiellement ceci:
Des commissions de clients un rapport qui utilise l'analyse de données, par exemple une estimation de la population et cartes relatives pour un district de l'eau.
L'analyste télécharge des données, munges les données et enregistre le résultat (par exemple, l'ajout d'une colonne pour la population par unité, ou. les données sont basées sur les limites du district).
L'analyste analyse les données créées dans (2), est proche de son but, mais voit qui a besoin de plus de données et va donc revenir à (1).
Rincer répéter jusqu'à ce que les tableaux et les graphiques rencontrer d'AQ/CQ et de satisfaire le client.
Rédiger le rapport intégrant des tableaux et des graphiques.
L'année prochaine, le client heureux est de retour et veut une mise à jour. Cela devrait être aussi simple que la mise à jour des données en amont, par un nouveau téléchargement (par exemple, obtenir le permis de construire de l'année dernière), et appuyez sur "RECALCULER" bouton, à moins que les spécifications de changement.
Pour le moment, je viens de commencer un répertoire ad-hoc mieux que je peux. Je voudrais adopter une approche plus systématique, donc je suis en espérant que quelqu'un a compris cela... j'utilise un mélange de feuilles de calcul, SQL, ARCGIS, R, et des outils Unix.
Merci!
PS:
Ci-dessous est une base Makefile qui vérifie les dépendances sur les différents intermédiaires ensembles de données (w/ .RData
suffixe) et les scripts (.R
suffixe). Faire utilise les horodatages pour vérifier les dépendances, donc si vous touch ss07por.csv
, il va voir que ce fichier est plus récent que tous les fichiers cibles, qui dépendent d'elle, et exécuter le scripts afin de les mettre à jour en conséquence. C'est toujours un travail en cours, y compris une étape pour la mise en base de données SQL, et une étape pour une création de modèles de langue comme sweave. Veuillez noter que la marque s'appuie sur des onglets dans sa syntaxe, afin de lire le manuel avant de découpage et de collage. Profiter et donner de la rétroaction!
http://www.gnu.org/software/make/manual/html_node/index.html#Top
R=/home/wsprague/R-2.9.2/bin/R persondata.RData : ImportData.R ../../DATA/ss07por.csv Fonctions.R $R --esclave -f ImportData.R persondata.Munged.RData : MungeData.R persondata.RData Fonctions.R $R --esclave -f MungeData.R report.txt: TabulateAndGraph.R persondata.Munged.RData Fonctions.R $R --esclave -f TabulateAndGraph.R > report.txt