Je ne parviens pas à faire correspondre les temps d'inférence indiqués par Google pour les modèles publiés dans son site Web. zoo modèle . Plus précisément, j'essaie leur faster_rcnn_resnet101_coco
modèle où le temps d'inférence rapporté est 106ms
sur un GPU Titan X.
Mon système de service utilise TF 1.4 qui fonctionne dans un conteneur construit à partir de la base de données de l'entreprise. Dockerfile publié par Google. Mon client est modelé sur le client initial également publié par Google.
Je fonctionne sur une Ubuntu 14.04, TF 1.4 avec 1 Titan X. Mon temps total d'inférence est 3x pire que celui rapporté par Google ~330ms. En faisant le proto tenseur prend ~150ms et Prévoir prend ~180ms. Mon saved_model.pb
est directement issu du fichier tar téléchargé depuis le zoo du modèle. Y a-t-il quelque chose qui m'échappe ? Quelles mesures puis-je prendre pour réduire le temps d'inférence ?