35 votes

Pentaho vs Microsoft BI Stack

Mon entreprise est fortement investie dans la pile BI de MS (SQL Server Reporting Services, -Analysis Services et -Integration Services), mais je veux jeter un coup d'œil à ce qu'est l'alternative open-source Pentaho, dont on parle le plus.

J'ai installé une version, et je l'ai fait fonctionner assez facilement. Donc c'est bien. Mais je n'ai pas vraiment eu le temps de commencer à l'utiliser pour un travail réel afin d'acquérir une compréhension approfondie du paquet.

L'un d'entre vous a-t-il une idée des avantages et des inconvénients de Pentaho par rapport à MS BI, ou des liens vers de telles comparaisons ?

Merci beaucoup !

53voto

Stradas Points 992

J'ai passé en revue plusieurs piles Bi alors que j'étais sur le point de quitter Business Objects. Beaucoup de mes commentaires sont des préférences. Les deux ensembles d'outils sont excellents. Pour certaines choses, c'est comme si je préférais la glace au chocolat au brownie au chocolat nature.

Pentaho a quelques gars très intelligents qui travaillent avec eux, mais Microsoft a suivi une voie bien financée et bien planifiée. Gardez à l'esprit que MS est toujours l'outsider sur le marché des bases de données. Oracle est le roi ici. Pour être compétitif, MS a donné beaucoup de cadeaux à l'achat de la base de données et a été obligé de réinventer sa plate-forme plusieurs fois. Je sais que cela n'a rien à voir avec la base de données, mais la bataille de la base de données a poussé MS à céder beaucoup de choses afin d'ajouter de la valeur à sa pile.

1.) Plate-forme
Le serveur SQL ne fonctionne pas sur Unix ou Linux, ils sont donc automatiquement exclus de ce marché. Windows est à peu près au même prix que certaines versions d'Unix maintenant. Windows est assez bon marché et fonctionne très bien maintenant. Il me pose à peu près autant de problèmes que Linux.

2.) OLAP
Analysis services a été réinventé en 2005 (la version actuelle est 2008) par rapport à la version 2000. Il est un ordre de grandeur plus puissant par rapport à 2000. Le pentaho (Mondrian) n'est pas aussi rapide une fois que vous devenez grand. Il a également peu de fonctionnalités. Il est assez bon mais il y a moins d'outils. Les deux supportent Excel comme plateforme, ce qui est essentiel. La version MS est plus robuste.

3.) ETL
MS - DTS a été remplacé par SSIS. Là encore, l'augmentation de la vitesse, de la puissance et des capacités est considérable. Il contrôle tous les mouvements de données ou le contrôle du programme. S'il ne peut pas le faire, vous pouvez écrire un script dans Powershell. Au même niveau qu'Informatica dans la version 2008. Pentaho - Beaucoup mieux qu'avant. Pas aussi rapide que je le voudrais mais je peux faire à peu près tout ce que je veux faire.

4.) tableau de bord
Pentaho a amélioré cela. Il est en quelque sorte inconfortable et peu convivial à développer, mais il n'y a pas vraiment d'équivalent pour MS.

5.) les rapports
Les rapports MS sont vraiment puissants mais pas si difficiles à utiliser. Je l'aime maintenant mais je l'ai détesté au début, jusqu'à ce que je le connaisse un peu mieux. J'avais utilisé Crystal Reports et le constructeur de rapports MS est beaucoup plus puissant. Il est facile de faire des choses difficiles dans MS, mais un peu plus difficile de faire des choses faciles. Pentaho est un peu maladroit. Je ne l'ai pas du tout aimé mais vous pourriez l'apprécier. Je l'ai trouvé trop complexe. J'aurais aimé qu'il ressemble davantage à Crystal Report Builder ou à MS Report Builder, mais il ressemble à Jasper. Je trouve que c'est difficile. C'est peut-être une préférence.

6.) ad hoc
MS - c'est le grand gagnant pour moi. Je l'ai testé avec mes utilisateurs et ils ont tout de suite adoré le générateur de rapports pour utilisateurs MS. Ce qui a fait la différence, c'est qu'il n'est pas seulement facile à utiliser, mais aussi productif. Pentaho - est bon mais assez vieux jeu. Il utilise le modèle plus typique basé sur un assistant et possède des outils puissants, mais je le déteste. C'est un excellent outil pour ce qu'il est, mais nous avons évolué par rapport à ce style et personne ne veut revenir en arrière. J'avais le même problème avec logiXML. L'interface fonctionnait bien pour ce qu'elle était, mais elle n'est pas vraiment très différente de ce que nous utilisions depuis 12 ans. http://wiki.pentaho.com/display/PRESALESPORTAL/Methods+d'un+rapport+interactif

Il existe des personnes expérimentées qui peuvent faire fonctionner Pentaho de manière optimale, mais je trouve que la suite MS est plus productive.

8voto

alchemical Points 4456

Avertissement : il existe de nombreux sites répertoriant les nombreux défauts, bogues et désagréments de SSIS. Je ne sais pas trop pourquoi SSIS est arrivé en tête de l'article, mais avant de miser votre projet sur lui, regardez ce que les gens ont à dire dans la blogosphère. D'après mon expérience, il y a environ 20 % de gens qui se plaignent de l'horreur de travailler avec SSIS - je suis d'accord avec eux et je cherche actuellement une alternative.

7voto

Lee Points 71

De bonnes informations ici ? Je n'ai pas encore essayé Pentaho mais j'ai l'intention de le faire. Je suis un consultant MS BI chevronné, je l'utilise depuis 1998. SSIS est très rapide et très puissant mais les critiques sont justes. J'ai trouvé les problèmes suivants avec SSIS :

(1) Il est difficile à déboguer, vous obtenez des erreurs cryptiques qui ne vous donnent aucun indice sur la nature et l'origine du problème.

(2) Selon un commentaire précédent, c'est l'environnement de développement le plus merdique qui soit ! Je n'ai aucune idée de ce à quoi ils pensent.

(a) Créez une table avec une centaine de colonnes ou plus et mettez-y une jointure de fusion. Ensuite, retournez-y et essayez d'effectuer une mise à jour de la jointure de fusion (comme faire passer une nouvelle colonne). Cela peut prendre plusieurs minutes, même sur la machine la plus rapide, après avoir cliqué sur ok sur la fusion pour enregistrer votre changement. J'ai un énorme flux de données avec beaucoup d'enregistrements larges et de nombreuses jointures de fusion. L'ajout d'une colonne au flux de données prend plus d'une demi-journée. Je mets à jour une fusion, puis je dois faire autre chose et revenir 5 à 10 minutes plus tard pour voir si tout est terminé. La réponse de Microsoft à ce problème est de diviser votre paquet en plusieurs paquets, de placer les données dans une table ou un binaire entre eux. Eh bien, si vous devez faire un disque entre toutes les étapes, vous pouvez tout aussi bien le faire en SQL ! L'un des principaux objectifs d'un outil ETL est de faire tout cela en mémoire et d'éviter les E/S sur disque.

(b) Le concepteur se plante carrément parfois, perdant tout votre travail depuis la dernière sauvegarde (je fais ctrl-S dans mon sommeil maintenant à cause de cela).

(c) J'ai dû trouver un moyen de générer le XML du paquet SSIS dans Excel pour de larges enregistrements. J'ai un client du secteur de la santé pour lequel les enregistrements de plus de 600 colonnes sont courants. Si vous essayez de définir un format de fichier avec 600 colonnes dans SSIS, vous devez saisir chaque colonne une par une ! !! Même MS Access vous permet de couper et de coller une mise en page d'une feuille de calcul dans un format de fichier, mais pas SSIS. J'ai donc dû générer le XML à partir de la présentation et coller le code XML au bon endroit dans le paquet. Ce n'est pas une bonne façon de faire, mais cela m'a épargné des jours entiers de travail et beaucoup d'erreurs.

(d) Comme en (c), si vous devez couper toutes vos colonnes et que vous en avez plus de 600, devinez quoi ? Dans le composant colonne dérivé, vous devez taper trim(column1) plus de 600 fois ! Je fais maintenant toutes les transformations simples comme celle-ci dans la requête SQL pour obtenir les données, puisque celles-ci peuvent facilement être générées à partir d'une feuille Excel.

(e) Il y a beaucoup de choses bizarres, des composants qui deviennent invisibles, parfois vous ouvrez le paquet et tous les composants sont complètement réarrangés de manière incohérente.

(f) La fonction FTP, qui est probablement l'une des choses les plus courantes dont vous avez besoin dans l'ETL, est faible et ne prend en charge que le FTP classique que personne n'utilise. Tout le monde utilise aujourd'hui SFTP, FTPS, https, etc... Ainsi, presque toutes les implémentations nécessitent l'utilisation d'une application de transfert de fichiers pilotée par une ligne de commande tierce que le paquet doit appeler.

(g) Dans un souci d'efficacité, à l'instar de la sécurité ridicule de Windows Vista, Microsoft a fait en sorte qu'il soit extrêmement difficile de promouvoir un paquet SSIS d'un environnement à un autre. La sécurité par défaut est celle du "cryptage des informations sensibles avec la clé de l'utilisateur", ce qui signifie qu'il doit être exécuté sous le même compte dans l'environnement où vous le déplacez que dans celui où vous l'avez développé, ce qui est rarement le cas. Il y a de meilleures façons de configurer mais il essaie toujours de revenir à cette protection de sécurité complètement inutile.

(h) Enfin, la plupart de ces problèmes en sont maintenant à leur troisième version, ce qui indique clairement que Microsoft n'a aucun plan pour les résoudre.

(i) Le débogage est loin d'être aussi facile que pour les autres langues.

SSIS présente encore de nombreux avantages, mais non sans mal.

4voto

Gary Brunton Points 629

J'ai commencé à utiliser MS Reporting Services il y a plusieurs années et je l'adore. Je n'ai pas essayé la solution de reporting de Pentaho et je ne peux donc pas faire de commentaires à son sujet. Je n'ai pas non plus essayé Analysis Services ou l'alternative de Pentaho.

Récemment, j'ai eu besoin d'une solution ETL et, étant familier avec MSSQL et MSRS, il semblait évident que j'allais examiner et probablement choisir MS Integration Service. Mais pour moi, MSIS était affreux. Principalement parce qu'il n'était pas intuitif. Après avoir passé quelques jours à essayer d'apprendre l'outil, j'ai décidé de chercher une alternative et je suis tombé sur Pentaho Data Integration, anciennement connu sous le nom de Kettle. Je l'ai mis en route en quelques minutes et j'ai immédiatement créé ma première transformation. Cela fonctionne tout simplement.

Certes, mes besoins sont assez simples, mais les performances sont excellentes et la communauté semble très utile.

4voto

geoffrobinson Points 845

J'ai utilisé SSIS et Pentaho Kettle, et je recommande vivement d'utiliser Pentaho Kettle pour votre outil ETL au lieu de SSIS.

Mes raisons : -le flux de SSIS est une tâche à la tâche. Kettle vous fait penser à des lignes de données qui circulent dans le système. L'approche de Kettle me semble beaucoup plus intuitive. -SSIS est mal documenté. Cela arrive. Mais il semble y avoir beaucoup de clics et de paramétrage de variables. C'est très complexe. Pentaho dispose d'un forum communautaire qui est très utile. -Je fais confiance à Pentaho pour s'intégrer avec de multiples types de bases de données, y compris SQL Server. Vous pouvez également utiliser JDBC, ce qui est agréable. De plus, je l'ai utilisé pour passer de SQL Server et Oracle d'un côté à Vertica de l'autre. Il dispose d'un chargeur de masse sur Vertica. C'est très bien. -J'ai trouvé qu'il était très, très difficile, relativement parlant, de faire fonctionner un paquet SSIS sur un serveur. Cela ne valait tout simplement pas la peine que je m'y attarde. -J'ai trouvé qu'il était assez facile pour Pentaho d'envoyer un message d'avertissement ou d'erreur à une personne ou à une liste de personnes. -Pentaho permet d'effectuer des tâches en JavaScript pour les choses qui nécessitent une certaine logique. C'est simple et facile à faire avec un langage que la plupart d'entre nous connaissent.

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X