Je suis dans le milieu de tenter de remplacer une configuration de Solr avec Elasticsearch. C'est une nouvelle installation, qui n'a pas encore vu de production, j'ai donc beaucoup de place pour jouer avec les choses et de les faire bien le travail.
J'ai de très, de très grandes quantités de données. Je suis d'indexation de certaines données en direct et de s'y accrocher pour 7 jours (à l'aide de la _ttl champ). Je ne pas stocker les données dans l'index (et désactivé le _source champ). J'attends mon index à se stabiliser autour de 20 milliards de lignes. Je vais mettre ces données en 2-3 nommé index. La recherche de la performance à ce jour avec jusqu'à quelques milliards de lignes est tout à fait acceptable, mais les performances de l'indexation est un problème.
Je suis un peu confus sur la façon de l'ES utilise des éclats à l'interne. J'ai créé deux ES nœuds, chacun avec un répertoire de données, chacun avec 8 index et 1 réplique. Quand je regarde l'état du cluster, je ne vois qu'un éclat et une réplique pour chaque nœud. Ne pas chaque nœud conserver plusieurs index en cours d'exécution à l'interne? (Vérification du stockage sur disque de localisation montre qu'il ya certainement un seul index Lucene présent). -- Résolu, comme mon index paramètre n'a pas été repris correctement à partir de la config. La création de l'index à l'aide de l'API et en spécifiant le nombre de tessons et des répliques a désormais produit exactement ce que j'aurais attendu de voir.
Aussi, j'ai essayé plusieurs copies de la même ES nœud (à partir de la même configuration), et il reconnaît qu'il existe déjà une copie en cours d'exécution et crée son propre espace de travail. Ces nouvelles instances de nœuds semblent également avoir un seul indice sur disque. -- Maintenant que chaque nœud est fait à l'aide de plusieurs indices, un nœud unique avec de nombreux indices est plus que suffisant pour ralentir l'ensemble du système, donc c'est un non-problème.
Quand commencez-vous supplémentaires Elasticsearch nœuds, pour un maximum de performances de l'indexation? Je devrais avoir le nombre de nœuds de chaque course avec 1 indice 1 réplique, ou de moins en moins de nœuds avec des tonnes d'indices? Il y a une chose qui me manque avec ma configuration afin d'avoir des nœuds de faire plus de travail?
Aussi: Est-il en mesure de savoir quand un HTTP-un seul nœud est surchargé? Droit maintenant, j'ai un nœud consacré à HTTP seule, mais en plus de l'utilisation du PROCESSEUR, je ne peux pas dire si c'est fait OK ou pas. Quand est-il temps de commencer supplémentaire HTTP nœuds et de diviser votre logiciel d'indexation pour pointer vers les différents nœuds?