Vous comparez deux choses différentes. Apache Spark est un moteur de calcul, tandis que mentionné par vous Amazon et Microsoft solutions offrent des services. Ces services pourraient aussi bien avoir l'Étincelle avec MLlib derrière la scène. Ils vous sauver de la peine construction d'un service web vous-même, mais vous payez des frais supplémentaires.
Nombre d'entreprises, à l'instar de Données Domino Labo, Cloudera ou IBM offrir des produits que vous pouvez déployer sur votre propre Étincelle de cluster et facilement construire des services autour de vos modèles (avec différents degrés de flexibilité).
Naturellement, vous construire un service pour vous-même avec différents outils open source. Qui en particulier? Tout dépend de ce que vous êtes après. Comment l'utilisateur doit interagir avec le modèle? Devrait-il y avoir une sorte d'INTERFACE utilisateur ou la plaisanterie une API REST? Avez-vous besoin de modifier certains paramètres sur le modèle ou le modèle lui-même? Les emplois de plus d'un lot ou de la nature en temps réel? Vous pouvez naturellement vous construire tout-en-un solution, mais ça va être un énorme effort.
Ma recommandation personnelle serait de profiter, si vous le pouvez, de l'un des services offerts par Amazon, Google, Microsoft ou quoi que ce soit. Besoin d'un déploiement sur site? Vérifier les Données Domino Labo, leur produit est mature et permet facilement de travailler avec des modèles (à partir de la construction jusqu'à déploiement). Cloudera est plus axé sur le cluster de calcul (y compris l'Étincelle), mais il faudra un certain temps avant qu'ils ont quelque chose à maturité.
[EDIT] je vous recommande de regarder Apache PredictionIO, open source d'apprentissage de la machine serveur - projet fantastique avec beaucoup de potentiel.