La présentation des recommandations peut être divisée en deux sections principales :
- Extraction de caractéristiques
- Recommandation
L'extraction de caractéristiques est très spécifique à l'objet recommandé. Pour la musique, par exemple, certaines caractéristiques de l'objet peuvent être la réponse en fréquence de la chanson, la puissance, le genre, etc. Les caractéristiques des utilisateurs peuvent être l'âge, le lieu, etc. Vous créez alors un vecteur pour chaque utilisateur et chaque chanson, les différents éléments du vecteur correspondant aux différentes caractéristiques d'intérêt.
L'exécution de la recommandation proprement dite ne nécessite que des vecteurs de caractéristiques bien pensés. Notez que si vous ne choisissez pas les bonnes caractéristiques, votre moteur de recommandation échouera. Ce serait comme vous demander de me dire mon sexe en fonction de mon âge. Bien sûr, mon âge peut fournir quelques informations, mais je pense que vous pouvez imaginer de meilleures questions à poser. Quoi qu'il en soit, une fois que vous aurez vos vecteurs de caractéristiques pour chaque utilisateur et chaque chanson, vous devrez entraîner le moteur de recommandation. Je pense que la meilleure façon de le faire serait de demander à un grand nombre d'utilisateurs de passer votre test démographique et de vous dire ensuite quelles chansons ils aiment. À ce stade, vous disposez de toutes les informations dont vous avez besoin. Votre travail consiste à tracer une frontière de décision avec les informations dont vous disposez. Prenons un exemple simple. Vous voulez prédire si un utilisateur aime ou non "Back in Black" d'AC/DC en fonction de son âge et de son sexe. Imaginez un graphique présentant 100 points de données. L'axe des x correspond à l'âge, l'axe des y au sexe (1 correspond à un homme, 2 à une femme). Une marque noire indique que l'utilisateur aime la chanson, tandis qu'une marque rouge signifie qu'il ne l'aime pas. Je pense que ce graphique pourrait avoir beaucoup de marques noires correspondant à des utilisateurs de sexe masculin et âgés de 12 à 37 ans, tandis que le reste des marques seront rouges. Donc, si nous devions sélectionner manuellement une limite de décision, ce serait un rectangle autour de cette zone contenant la majorité des marques noires. C'est ce qu'on appelle la frontière de décision car, si une personne totalement nouvelle vient vous voir et vous dit son âge et son sexe, il vous suffit de la reporter sur le graphique et de lui demander si elle entre ou non dans cette case.
Donc, la partie difficile ici est de trouver la limite de décision. La bonne nouvelle est que vous n'avez pas besoin de savoir comment le faire. Vous devez juste savoir comment utiliser certains des outils les plus courants. Vous pouvez envisager d'utiliser des réseaux neuronaux, des machines à vecteurs de support, des classificateurs linéaires, etc. Là encore, ne vous laissez pas abuser par les grands noms. Encore une fois, ne vous laissez pas tromper par les grands noms. La plupart des gens ne peuvent pas vous dire ce que font réellement ces outils. Ils savent juste comment brancher les choses et obtenir des résultats.
Je sais que c'est un peu tard, mais j'espère que cela aidera tous ceux qui tomberont sur ce fil.