199 votes

convertit les buffers de streaming en utf8-string

Je veux faire une requête HTTP en utilisant node.js pour charger du texte à partir d'un serveur web. Comme la réponse peut contenir beaucoup de texte (quelques mégaoctets), je veux traiter chaque morceau de texte séparément. Je peux y parvenir en utilisant le code suivant :

var req = http.request(reqOptions, function(res) {
    ...
    res.setEncoding('utf8');
    res.on('data', function(textChunk) {
        // process utf8 text chunk
    });
});

Cela semble fonctionner sans problème. Cependant, je souhaite prendre en charge la compression HTTP, et j'utilise donc zlib :

var zip = zlib.createUnzip();

// NO res.setEncoding('utf8') here since we need the raw bytes for zlib
res.on('data', function(chunk) {
    // do something like checking the number of bytes downloaded
    zip.write(chunk); // give the raw bytes to zlib, s.b.
});

zip.on('data', function(chunk) {
    // convert chunk to utf8 text:
    var textChunk = chunk.toString('utf8');

    // process utf8 text chunk
});

Cela peut poser un problème pour les caractères à plusieurs octets, tels que '\u00c4' qui consiste en deux octets : 0xC3 y 0x84 . Si le premier octet est couvert par le premier chunk ( Buffer ) et le second octet par le second chunk alors chunk.toString('utf8') produira des caractères incorrects à la fin ou au début du fragment de texte. Comment puis-je éviter cela ?

Indice : j'ai toujours besoin du tampon (plus précisément du nombre d'octets dans le tampon) pour limiter le nombre d'octets téléchargés. Ainsi, en utilisant res.setEncoding('utf8') comme dans le premier exemple, le code ci-dessus pour les données non compressées ne répond pas à mes besoins.

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X