Quelqu'un peut-il m'indiquer une référence ou me donner une vue d'ensemble de la façon dont des entreprises comme Facebook, Yahoo, Google, etc. effectuent l'analyse des journaux à grande échelle (par exemple, une gamme de plusieurs TB) qu'elles font pour les opérations et surtout pour les analyses Web ?
En me concentrant sur l'analyse web en particulier, je m'intéresse à deux aspects étroitement liés : la performance des requêtes et le stockage des données.
Je sais que l'approche générale consiste à utiliser map reduce pour distribuer chaque requête sur un cluster (par exemple, en utilisant Hadoop). Cependant, quel est le format de stockage le plus efficace à utiliser ? Il s'agit de données de journal, nous pouvons donc supposer que chaque événement est horodaté et qu'en général, les données sont structurées et non éparses. La plupart des requêtes d'analyse Web consistent à analyser des tranches de données entre deux horodatages arbitraires et à récupérer des statistiques globales ou des anomalies dans ces données.
Une base de données orientée colonnes comme Big Table (ou HBase) serait-elle un moyen efficace de stocker et, surtout, d'interroger de telles données ? Le fait que vous sélectionniez un sous-ensemble de lignes (basé sur l'horodatage) ne va-t-il pas à l'encontre du principe de base de ce type de stockage ? Serait-il préférable de les stocker sous forme de données non structurées, par exemple dans un index inversé ?