Je veux faire une requête HTTP en utilisant node.js pour charger du texte à partir d'un serveur web. Comme la réponse peut contenir beaucoup de texte (quelques mégaoctets), je veux traiter chaque morceau de texte séparément. Je peux y parvenir en utilisant le code suivant :
var req = http.request(reqOptions, function(res) {
...
res.setEncoding('utf8');
res.on('data', function(textChunk) {
// process utf8 text chunk
});
});
Cela semble fonctionner sans problème. Cependant, je souhaite prendre en charge la compression HTTP, et j'utilise donc zlib :
var zip = zlib.createUnzip();
// NO res.setEncoding('utf8') here since we need the raw bytes for zlib
res.on('data', function(chunk) {
// do something like checking the number of bytes downloaded
zip.write(chunk); // give the raw bytes to zlib, s.b.
});
zip.on('data', function(chunk) {
// convert chunk to utf8 text:
var textChunk = chunk.toString('utf8');
// process utf8 text chunk
});
Cela peut poser un problème pour les caractères à plusieurs octets, tels que '\u00c4'
qui consiste en deux octets : 0xC3
y 0x84
. Si le premier octet est couvert par le premier chunk ( Buffer
) et le second octet par le second chunk alors chunk.toString('utf8')
produira des caractères incorrects à la fin ou au début du fragment de texte. Comment puis-je éviter cela ?
Indice : j'ai toujours besoin du tampon (plus précisément du nombre d'octets dans le tampon) pour limiter le nombre d'octets téléchargés. Ainsi, en utilisant res.setEncoding('utf8')
comme dans le premier exemple, le code ci-dessus pour les données non compressées ne répond pas à mes besoins.