De bonnes informations ici ? Je n'ai pas encore essayé Pentaho mais j'ai l'intention de le faire. Je suis un consultant MS BI chevronné, je l'utilise depuis 1998. SSIS est très rapide et très puissant mais les critiques sont justes. J'ai trouvé les problèmes suivants avec SSIS :
(1) Il est difficile à déboguer, vous obtenez des erreurs cryptiques qui ne vous donnent aucun indice sur la nature et l'origine du problème.
(2) Selon un commentaire précédent, c'est l'environnement de développement le plus merdique qui soit ! Je n'ai aucune idée de ce à quoi ils pensent.
(a) Créez une table avec une centaine de colonnes ou plus et mettez-y une jointure de fusion. Ensuite, retournez-y et essayez d'effectuer une mise à jour de la jointure de fusion (comme faire passer une nouvelle colonne). Cela peut prendre plusieurs minutes, même sur la machine la plus rapide, après avoir cliqué sur ok sur la fusion pour enregistrer votre changement. J'ai un énorme flux de données avec beaucoup d'enregistrements larges et de nombreuses jointures de fusion. L'ajout d'une colonne au flux de données prend plus d'une demi-journée. Je mets à jour une fusion, puis je dois faire autre chose et revenir 5 à 10 minutes plus tard pour voir si tout est terminé. La réponse de Microsoft à ce problème est de diviser votre paquet en plusieurs paquets, de placer les données dans une table ou un binaire entre eux. Eh bien, si vous devez faire un disque entre toutes les étapes, vous pouvez tout aussi bien le faire en SQL ! L'un des principaux objectifs d'un outil ETL est de faire tout cela en mémoire et d'éviter les E/S sur disque.
(b) Le concepteur se plante carrément parfois, perdant tout votre travail depuis la dernière sauvegarde (je fais ctrl-S dans mon sommeil maintenant à cause de cela).
(c) J'ai dû trouver un moyen de générer le XML du paquet SSIS dans Excel pour de larges enregistrements. J'ai un client du secteur de la santé pour lequel les enregistrements de plus de 600 colonnes sont courants. Si vous essayez de définir un format de fichier avec 600 colonnes dans SSIS, vous devez saisir chaque colonne une par une ! !! Même MS Access vous permet de couper et de coller une mise en page d'une feuille de calcul dans un format de fichier, mais pas SSIS. J'ai donc dû générer le XML à partir de la présentation et coller le code XML au bon endroit dans le paquet. Ce n'est pas une bonne façon de faire, mais cela m'a épargné des jours entiers de travail et beaucoup d'erreurs.
(d) Comme en (c), si vous devez couper toutes vos colonnes et que vous en avez plus de 600, devinez quoi ? Dans le composant colonne dérivé, vous devez taper trim(column1) plus de 600 fois ! Je fais maintenant toutes les transformations simples comme celle-ci dans la requête SQL pour obtenir les données, puisque celles-ci peuvent facilement être générées à partir d'une feuille Excel.
(e) Il y a beaucoup de choses bizarres, des composants qui deviennent invisibles, parfois vous ouvrez le paquet et tous les composants sont complètement réarrangés de manière incohérente.
(f) La fonction FTP, qui est probablement l'une des choses les plus courantes dont vous avez besoin dans l'ETL, est faible et ne prend en charge que le FTP classique que personne n'utilise. Tout le monde utilise aujourd'hui SFTP, FTPS, https, etc... Ainsi, presque toutes les implémentations nécessitent l'utilisation d'une application de transfert de fichiers pilotée par une ligne de commande tierce que le paquet doit appeler.
(g) Dans un souci d'efficacité, à l'instar de la sécurité ridicule de Windows Vista, Microsoft a fait en sorte qu'il soit extrêmement difficile de promouvoir un paquet SSIS d'un environnement à un autre. La sécurité par défaut est celle du "cryptage des informations sensibles avec la clé de l'utilisateur", ce qui signifie qu'il doit être exécuté sous le même compte dans l'environnement où vous le déplacez que dans celui où vous l'avez développé, ce qui est rarement le cas. Il y a de meilleures façons de configurer mais il essaie toujours de revenir à cette protection de sécurité complètement inutile.
(h) Enfin, la plupart de ces problèmes en sont maintenant à leur troisième version, ce qui indique clairement que Microsoft n'a aucun plan pour les résoudre.
(i) Le débogage est loin d'être aussi facile que pour les autres langues.
SSIS présente encore de nombreux avantages, mais non sans mal.