75 votes

Rechercher dans la source html avec GOOGLE ?

J'ai plusieurs sites web, et je ne me souviens pas où j'ai écrit certaines lignes de code. Comme mes pages sont indexées par Google, j'aimerais savoir si Google propose une fonction permettant d'effectuer des recherches dans le code source HTML ou le texte lui-même, au lieu de permettant seulement la recherche dans la partie visuelle, rendue, d'une page ?

Gracias

0 votes

Le code se trouve-t-il du côté du client ou du serveur ?

0 votes

Très facile avec nerdydata.com

0 votes

Parfois, je ne comprends pas vraiment les modérateurs ici. Fermer cette question bien votée après 11 ans ?

42voto

Noah Freitas Points 3640

Il existe un nouveau moteur de recherche appelé NerdyData qui vous permet d'effectuer des recherches sur le code source HTML/CSS/JS

Ils indexent plus de 160 millions de domaines publics et j'ai trouvé les données utiles.

1 votes

Dans mon cas, le moteur du site laisse échapper des urls privées d'un domaine particulier. (Je suis sûr que cela ne vient pas des utilisateurs) . Comment puis-je faire la recherche dans la source d'un seul domaine ? (afin de trouver d'où vient la fuite)

6 votes

Puisque le PO a demandé une fonction de syntaxe Google pour effectuer des recherches en HTML, je suppose qu'il en cherchait une gratuite. NerdyData n'est pas ou n'est plus.

2 votes

@jj_, merci de le signaler. C'était un service gratuit lorsque j'ai posté le lien en 2013.

37voto

Big Rich Points 1833

J'ai trouvé les ressources suivantes au cours de mes voyages (certaines déjà mentionnées ci-dessus) :

Moteurs de recherche axés sur le balisage HTML

J'aimerais également ajouter ce qui suit :

D'énormes archives de données d'exploration de sites Web

Comment pouvons-nous analyser ces données de crawl ?

Pour avoir une idée de la façon dont vous pouvez commencer à analyser certaines de ces données massives, jetez un coup d'œil à Cadre(s) de travail de type Big Data/Map-reduce .

Google donne quelques idées sur l'utilisation du projet Spark d'Apache. d'analyser Décharge(s) du Crawl commun . Pour comprendre le(s) format(s) de fichier utilisé(s) par Common Crawl veuillez vous référer à ce qui suit :

L'article, Accéder à l'ensemble des données de crawl communes sur S3 et les grandes lignes de l'accès Le(s) dépôt(s) de plus de 250 To de Common Crawl de manière peu coûteuse sans en transférant cette charge de données en dehors du réseau AWS/S3 d'Amazon. Bien sûr, cela suppose que vous sont va utiliser une combinaison AWS/EC2/S3 etc. pour analyser les données de crawl.

Enfin, Patrick Durusau maintient quelques pages de blog intéressantes liées à l'utilisation du Common-Crawl .

Personnellement, je trouve ce sujet intriguant, je suggère que nous Obtenez ces données de crawl pendant qu'elles sont chaudes ! ;-)

13voto

James Andreenko Points 119

Vous pouvez essayer PublicWWW pour la recherche dans la source/la mémoire. Il permet de trouver n'importe quel code HTML, JavaScript, CSS et texte brut dans le code source des pages Web sur plus de 167 millions de sites Web.

Avec PublicWWW vous pouvez :

  • Trouvez des sites Web apparentés grâce aux codes HTML uniques qu'ils partagent, à savoir widgets et identifiants d'éditeur.

  • Identifier les sites utilisant certaines images ou badges.

  • Découvrez qui d'autre utilise votre thème.

  • Identifiez les sites qui vous mentionnent.

  • Trouvez les affiliés de votre concurrent.

  • Identifiez les sites où vos concurrents collaborent ou interagissent personnellement.

  • Références pour utiliser une bibliothèque ou une plateforme.

  • Trouvez des exemples de code sur le net.

  • Découvrez qui utilise quels widgets JS sur ses sites.

  • ...

Bien sûr, vous pouvez trouver non seulement vos sites Web qui utilisent un code/un extrait de marque.

2voto

Limon Pervez Points 29

Google ne peut pas faire de recherche sur votre code à partir du site. Vous pouvez utiliser http://nerdydata.com/ C'est le meilleur moteur de recherche de codes que j'ai utilisé ! Je pense que vous obtiendrez votre code exact à partir de ce site.

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X