En tant que programmeur, j'ai parfois besoin d'analyser de grandes quantités de données, comme des journaux de performances ou des données sur l'utilisation de la mémoire, et je suis toujours frustré par le temps qu'il me faut pour faire quelque chose qui devrait être plus facile.
Pour replacer la question dans son contexte, laissez-moi vous montrer rapidement un exemple tiré d'un fichier CSV que j'ai reçu aujourd'hui (fortement filtré pour des raisons de brièveté) :
date,time,PS Eden Space used,PS Old Gen Used, PS Perm Gen Used
2011-06-28,00:00:03,45004472,184177208,94048296
2011-06-28,00:00:18,45292232,184177208,94048296
J'ai environ 100 000 points de données de ce type avec différentes variables que je veux représenter dans un diagramme de dispersion afin de rechercher des corrélations. En général, les données doivent être traitées d'une manière ou d'une autre à des fins de présentation (comme la conversion des nanosecondes en millisecondes et l'arrondissement des valeurs fractionnaires), certaines colonnes doivent être ajoutées, inversées ou combinées (comme les colonnes de date et d'heure).
La recommandation habituelle pour ce type de travail est R et j'ai récemment fait un effort sérieux pour l'utiliser, mais après quelques jours de travail, mon expérience a été que la plupart des tâches que je m'attends à être simples semblent nécessiter de nombreuses étapes et avoir des cas particuliers ; les solutions sont souvent non génériques (par exemple, ajouter un ensemble de données à un graphique existant ). Il semble que ce soit l'un de ces langages que les gens aiment en raison de toutes les puissantes bibliothèques qui se sont accumulées au fil des ans, plutôt que pour la qualité et l'utilité du langage de base.
Ne vous méprenez pas, je comprends la valeur de R pour les personnes qui l'utilisent, mais étant donné que je consacre rarement du temps à ce genre de choses, je pense que je ne deviendrai jamais un expert en la matière, et pour un non-expert, chaque tâche devient trop lourde.
Microsoft Excel est excellent en termes de convivialité, mais il n'est tout simplement pas assez puissant pour traiter de grands ensembles de données. De plus, R et Excel ont tous deux tendance à se figer complètement ( !), sans autre issue que d'attendre ou de tuer le processus si vous réalisez accidentellement le mauvais type de graphique sur un trop grand nombre de données.
Alors, stack overflow, pouvez-vous me recommander quelque chose qui me convienne mieux ? Je ne voudrais pas avoir à abandonner et à développer mon propre outil, j'ai déjà assez de projets. J'aimerais quelque chose d'interactif qui pourrait utiliser l'accélération matérielle pour le tracé et/ou l'élimination pour éviter de passer trop de temps sur le rendu.