Je suis à essayer de comprendre exactement ce que ces nouvelles ultramodernes magasins de données tels que bigtable, hbase et cassandra sont vraiment.
Je travaille avec des quantités massives de données boursières, des milliards de lignes de prix/devis de données qui peut ajouter jusqu'à 100s de giga-octets de tous les jours (bien que ces fichiers texte souvent compresser au moins un ordre de grandeur). Ces données sont essentiellement une poignée de chiffres, deux ou trois chaînes courtes et un horodatage (habituellement de l'ordre de la milliseconde niveau). Si je devais choisir un identificateur unique pour chaque ligne, j'aurais à choisir la ligne entière (étant donné qu'un échange peut générer plusieurs valeurs pour un même symbole dans le même ordre de la milliseconde).
Je suppose que la façon la plus simple de cartographier ces données pour bigtable (je suis, y compris ses dérivés) est le nom du symbole et de la date (qui peut retourner un très grand moment de la série, plus d'un million de points de données n'est pas rare). À partir de la lecture de leurs descriptions, il ressemble à plusieurs clés peuvent être utilisés avec ces systèmes. Je suis aussi en supposant que les nombres décimaux ne sont pas de bons candidats pour les clés.
Certains de ces systèmes (Cassandra, par exemple) prétend être capable de faire les requêtes d'intervalle. Serais-je capable de efficacement requête, disons, toutes les valeurs de MSFT, pour un jour donné, entre 11:00 et 1:30 pm ?
Que faire si je veux lancer une recherche sur TOUS les symboles pour un jour donné, et demande à tous les symboles qui ont un prix compris entre $10 et $10.25 (je suis donc à la recherche des valeurs, et que vous voulez les touches retournée comme résultat)?
Que faire si je veux obtenir deux fois de la série, soustraire l'un de l'autre, et le retour de la deux fois de la série et de leur résultat, vais-je avoir à faire de sa logique dans mon propre programme?
La lecture de documents pertinents semble montrer que ces systèmes ne sont pas d'un très bon ajustement pour un grand moment systèmes de la série. Cependant, si les systèmes tels que google maps sont basés sur eux, je pense que le temps de la série devrait fonctionner aussi bien. Par exemple, penser le temps comme l'axe des x, les prix comme axe des y et des symboles comme des lieux nommés--tout d'un coup il ressemble bigtable devrait être le magasin idéal pour les séries chronologiques (si la terre entière peut être le stockage, la récupération, d'un zoom et annoté, la bourse de données devrait être trivial).
Certains experts me pointer dans la bonne direction ou de dissiper tous les malentendus.
Merci