Sérialisation haute performance : Java vs Google Protocol Buffers vs ... ?

Question

Sérialisation haute performance : Java vs Google Protocol Buffers vs ... ?

Demandé el 15 de Mars, 2009: Quand la question a-t-elle été
33591 affichage: Nombre de visites la question a
5 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Pour une partie de la mise en cache que j'envisage de faire pour un projet à venir, j'ai réfléchi à la sérialisation Java. A savoir, faut-il l'utiliser ?

J'ai déjà écrit des sérialisations et désérialisations personnalisées (Externalizable) pour diverses raisons dans le passé. Ces jours-ci, l'interopérabilité est devenue un problème encore plus important et je peux prévoir un besoin d'interagir avec des applications .Net. J'ai donc pensé à utiliser une solution indépendante de la plateforme.

Quelqu'un a-t-il fait l'expérience d'une utilisation performante du GPB ? Comment se compare-t-il en termes de vitesse et d'efficacité avec la sérialisation native de Java ? Sinon, existe-t-il d'autres systèmes qui méritent d'être pris en considération ?

Demandé el 15 de Mars, 2009 par cletus

Answer 1

5 Réponses

Answer 2

63voto

Jon Skeet Points 692016

Je n'ai pas comparé les Protocol Buffers avec la sérialisation native de Java en termes de vitesse, mais pour l'interopérabilité, la sérialisation native de Java est un sérieux non-non. Elle ne sera pas non plus aussi efficace en termes d'espace que Protocol Buffers dans la plupart des cas. Bien sûr, il est un peu plus flexible en termes de ce qu'il peut stocker, et en termes de références, etc. Protocol Buffers est très bon pour ce à quoi il est destiné, et quand il répond à vos besoins, il est excellent - mais il y a des restrictions évidentes dues à l'interopérabilité (et d'autres choses).

J'ai récemment publié un cadre d'évaluation des tampons de protocole en Java et .NET. La version Java est dans le principal projet Google (dans le répertoire des repères ), la version .NET est dans mon projet de portage en C# . Si vous voulez comparer la vitesse de PB avec la vitesse de sérialisation de Java, vous pouvez écrire des classes similaires et les évaluer. Cependant, si vous êtes intéressé par l'interopérabilité, je n'accorderais vraiment aucune importance à la sérialisation Java native (ou à la sérialisation binaire native de .NET).

Il existe d'autres options de sérialisation interopérable que les tampons de protocole. Économie d'argent , JSON et YAML viennent à l'esprit, et il y en a sans doute d'autres.

EDIT : Bon, l'interopérabilité n'étant pas si importante, cela vaut la peine d'essayer d'énumérer les différentes qualités que vous attendez d'un cadre de sérialisation. Une chose à laquelle vous devriez penser est le versioning - c'est une autre chose que PB est conçu pour bien gérer, à la fois vers l'arrière et vers l'avant (de sorte que les nouveaux logiciels peuvent lire les anciennes données et vice versa) - lorsque vous vous en tenez aux règles suggérées, bien sûr :)

Ayant essayé d'être prudent quant aux performances de Java par rapport à la sérialisation native, je ne serais vraiment pas surpris de constater que PB était plus rapide de toute façon. Si vous en avez l'occasion, utilisez la VM du serveur - mes récents benchmarks ont montré que la VM du serveur était plus de deux fois plus rapide à sérialiser et désérialiser les données de l'échantillon. Je pense que le code PB convient très bien au JIT de la VM du serveur :)

À titre d'exemple, la sérialisation et la désérialisation de deux messages (l'un de 228 octets, l'autre de 84750 octets) ont donné les résultats suivants sur mon ordinateur portable en utilisant la VM du serveur :

Benchmarking benchmarks.GoogleSize$SizeMessage1 with file google\_message1.dat 
Serialize to byte string: 2581851 iterations in 30.16s; 18.613789MB/s 
Serialize to byte array: 2583547 iterations in 29.842s; 18.824497MB/s 
Serialize to memory stream: 2210320 iterations in 30.125s; 15.953759MB/s 
Deserialize from byte string: 3356517 iterations in 30.088s; 24.256632MB/s 
Deserialize from byte array: 3356517 iterations in 29.958s; 24.361889MB/s 
Deserialize from memory stream: 2618821 iterations in 29.821s; 19.094952MB/s 

Benchmarking benchmarks.GoogleSpeed$SpeedMessage1 with file google\_message1.dat 
Serialize to byte string: 17068518 iterations in 29.978s; 123.802124MB/s 
Serialize to byte array: 17520066 iterations in 30.043s; 126.802376MB/s 
Serialize to memory stream: 7736665 iterations in 30.076s; 55.93307MB/s 
Deserialize from byte string: 16123669 iterations in 30.073s; 116.57947MB/s 
Deserialize from byte array: 16082453 iterations in 30.109s; 116.14243MB/s
Deserialize from memory stream: 7496968 iterations in 30.03s; 54.283176MB/s 

Benchmarking benchmarks.GoogleSize$SizeMessage2 with file google\_message2.dat 
Serialize to byte string: 6266 iterations in 30.034s; 16.826494MB/s 
Serialize to byte array: 6246 iterations in 30.027s; 16.776697MB/s 
Serialize to memory stream: 6042 iterations in 29.916s; 16.288969MB/s 
Deserialize from byte string: 4675 iterations in 29.819s; 12.644595MB/s 
Deserialize from byte array: 4694 iterations in 30.093s; 12.580387MB/s 
Deserialize from memory stream: 4544 iterations in 29.579s; 12.389998MB/s 

Benchmarking benchmarks.GoogleSpeed$SpeedMessage2 with file google\_message2.dat 
Serialize to byte string: 39562 iterations in 30.055s; 106.16416MB/s 
Serialize to byte array: 39715 iterations in 30.178s; 106.14035MB/s 
Serialize to memory stream: 34161 iterations in 30.032s; 91.74085MB/s 
Deserialize from byte string: 36934 iterations in 29.794s; 99.98019MB/s 
Deserialize from byte array: 37191 iterations in 29.915s; 100.26867MB/s 
Deserialize from memory stream: 36237 iterations in 29.846s; 97.92251MB/s

La différence entre "vitesse" et "taille" consiste à déterminer si le code généré est optimisé pour la vitesse ou la taille du code. (Les données sérialisées sont les mêmes dans les deux cas. La version "size" est prévue pour le cas où vous avez beaucoup de messages définis et ne voulez pas prendre beaucoup de mémoire pour le code).

Comme vous pouvez le voir, pour le plus petit message, il peut être très rapide - plus de 500 messages sérialisés ou non par milliseconde . Même avec les 87K messages, cela prend moins d'une milliseconde par message.

Répondu el 15 de Mars, 2009 par Jon Skeet (692016 Points )

Answer 3

16voto

StaxMan Points 34626

Un point de données supplémentaire : ce projet :

http://code.google.com/p/thrift-protobuf-compare/

donne une idée des performances attendues pour les petits objets, y compris la sérialisation Java sur PB.

Les résultats varient beaucoup en fonction de votre plateforme, mais il existe quelques tendances générales.

Répondu el 31 de Mars, 2009 par StaxMan (34626 Points )

Answer 4

7voto

Peter Lawrey Points 229686

Qu'entendez-vous par haute performance ? Si vous voulez une sérialisation en millisecondes, je vous suggère d'utiliser l'approche de sérialisation la plus simple. Si vous voulez du sous-milli-seconde, vous aurez probablement besoin d'un format binaire. Si vous voulez une sérialisation bien inférieure à 10 micro-secondes, vous aurez probablement besoin d'une sérialisation personnalisée.

Je n'ai pas vu beaucoup de benchmarks pour la sérialisation/désérialisation mais peu supportent moins de 200 micro-secondes pour la sérialisation/désérialisation.

Les formats indépendants de la plate-forme ont un coût (en termes d'effort de votre part et de latence). Vous devrez peut-être décider si vous souhaitez des performances ou l'indépendance de la plate-forme. Cependant, il n'y a aucune raison pour que vous ne puissiez pas disposer des deux en tant qu'option de configuration entre laquelle vous passez selon vos besoins.

Répondu el 15 de Mars, 2009 par Peter Lawrey (229686 Points )

Answer 5

6voto

instcode Points 978

Si vous hésitez entre la sérialisation PB et la sérialisation native java en termes de vitesse et d'efficacité, optez pour PB.

PB a été conçu pour atteindre ces facteurs. Voir http://code.google.com/apis/protocolbuffers/docs/overview.html
Les données PB sont très petites alors que la sérialisation java tend à reproduire un objet entier, y compris sa signature. Pourquoi j'obtiens toujours le nom de ma classe, le nom de mon champ... sérialisé, même si je le connais parfaitement au niveau du récepteur ?
Pensez à l'évolution du langage. Ça devient difficile si un côté utilise Java, un côté utilise C++...

Certains développeurs suggèrent Thrift, mais j'utiliserais Google PB car " je crois en google " :-) . Quoi qu'il en soit, cela vaut la peine de jeter un coup d'oeil : http://stuartsierra.com/2008/07/10/thrift-vs-protocol-buffers

Répondu el 15 de Mars, 2009 par instcode (978 Points )

Answer 6

2voto

jonathan Points 26

J'ai trouvé un gain de vitesse de presque 6x en passant à protobuf en Java. Je vous recommande de l'essayer.

Voir mon fil de discussion dans le groupe Google officiel ici :

http://groups.google.com/group/protobuf/browse_thread/thread/2c3790ca1c5b8496#

Répondu el 20 de Avril, 2010 par jonathan (26 Points )

Sérialisation haute performance : Java vs Google Protocol Buffers vs ... ?

Réponses

Questions en vedette

Top Tags

Prograide.com

Powered by:

Sérialisation haute performance : Java vs Google Protocol Buffers vs ... ?

Réponses

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: