2 votes

Conseils/Astuces sur la meilleure manière de fouiller/scraper/récupérer du contenu audio sur internet.

En fait, ce que j'essaie de faire est de comprendre comment fonctionne BEEMP3.COM.

En raison de la vitesse du site, je doute qu'ils grattent d'autres sites/sources sur place. Ils utilisent probablement une sorte de base de données (PostgreSQL ou MySQL) pour stocker les "résultats" et ensuite simplement interroger les termes de recherche.

Ma question est comment pensez-vous qu'ils parcourent/araignée ou obtiennent réellement les fichiers mp3/contenu? Ils doivent avoir un algorithme pour parcourir Internet OU utiliser l'astuce de l'index mp3 de Google pour trouver des hôtes avec les fichiers mp3 bruts.

Tous les commentaires, conseils ou idées sont appréciés :)

0voto

GSP Points 519

QueryPath est un excellent outil pour construire un spider web.

Je suppose qu'ils trouvent des fichiers MP3 en utilisant une approche combinée - ils disposent d'une liste de "sites semences" (collectés à partir de Google, Usenet ou insérés manuellement) qu'ils utilisent comme points de départ pour la recherche et ensuite lancent des spiders contre eux.

Vous devez écrire un script qui va :

  • Prendre une page web comme point de départ
  • Récupérer les données de la page web (utiliser cURL)
  • Utiliser une expression régulière pour extraire (a) tous les liens (b) tous les liens vers des fichiers mp3
  • Placer tous les liens mp3 dans une base de données
  • Ajouter la liste de liens vers d'autres pages web dans une file d'attente pour les traiter avec la méthode ci-dessus

Vous devrez également vérifier régulièrement vos liens MP3 pour effacer tous les liens morts.

0voto

Alternativement, vous pouvez explorer des araignées MP3 comme beemp3.com et extraire tous les liens de téléchargement direct et les sauvegarder dans votre base de données. vous avez seulement besoin de deux fichiers I. Simple html Dom. II. Une application qui peut prendre les liens extraits vers votre base de données.

Vérifiez ce que j'ai fait dans http://kenyaforums.com/bongomp3_external_link_search_engine_at_kenyaforums_com.php

N'hésitez pas à demander en cas de contradiction.

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X