Tout dépend des algorithmes dont vous avez besoin. Si ils peuvent être traduits dans différentiels forme (quand seulement une petite partie des données est nécessaire à un moment donné, par exemple pour les Naive Bayes, vous pouvez tenir dans la mémoire que le modèle lui-même et d'observation actuels en cours de traitement), alors la meilleure suggestion est d'effectuer l'apprentissage de la machine de manière incrémentielle, la lecture de nouveaux lots de données à partir du disque.
Cependant, de nombreux algorithmes et surtout de leurs implémentations vraiment besoin de l'ensemble du jeu de données. Si la taille de la base de données vous convient le disque (et les limitations de système de fichiers), vous pouvez utiliser mmap package qui permet de mapper le fichier sur le disque à la mémoire et à l'utiliser dans le programme. Notez cependant, que lisez-les écritures sur le disque sont chères, et les R aime parfois à se déplacer les données fréquemment. Donc, soyez prudent.
Si vos données ne peuvent être conservées même sur le disque dur, vous aurez besoin d'utiliser distribué machine de systèmes d'apprentissage. L'un de ces R-système, c'est la Révolution de R qui est conçu pour gérer de très grandes bases de données. Malheureusement, il n'est pas open source et coûte beaucoup d'argent, mais vous pouvez essayer d'obtenir gratuitement licence académique. Comme alternative, vous pouvez être intéressé par Java Apache Mahout - n'est pas élégant, mais très efficace, basée sur Hadoop et y compris de nombreux algorithmes importants.