Comment créer un robot d'exploration simple en PHP?

Question

Comment créer un robot d'exploration simple en PHP?

Demandé el 22 de Février, 2010: Quand la question a-t-elle été
43680 affichage: Nombre de visites la question a
5 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

J'ai une page Web avec un tas de liens. Je veux écrire un script qui viderait toutes les données contenues dans ces liens dans un fichier local.

Est-ce que quelqu'un a fait ça avec PHP? Les directives générales et les pièges suffiraient comme réponse.

Demandé el 22 de Février, 2010 par Kshitij Saxena -KJ-

Answer 1

5 Réponses

Answer 2

89voto

hobodave Points 14566

Meh. Ne pas analyser HTML avec regexes.

Voici un DOM version inspirée par Tatu:

<?php
function crawl_page($url, $depth = 5)
{
    static $seen = array();
    if (isset($seen[$url]) || $depth === 0) {
        return;
    }

    $seen[$url] = true;

    $dom = new DOMDocument('1.0');
    @$dom->loadHTMLFile($url);

    $anchors = $dom->getElementsByTagName('a');
    foreach ($anchors as $element) {
        $href = $element->getAttribute('href');
        if (0 !== strpos($href, 'http')) {
            $path = '/' . ltrim($href, '/');
            if (extension_loaded('http')) {
                $href = http_build_url($url, array('path' => $path));
            } else {
                $parts = parse_url($url);
                $href = $parts['scheme'] . '://';
                if (isset($parts['user']) && isset($parts['pass'])) {
                    $href .= $parts['user'] . ':' . $parts['pass'] . '@';
                }
                $href .= $parts['host'];
                if (isset($parts['port'])) {
                    $href .= ':' . $parts['port'];
                }
                $href .= $path;
            }
        }
        crawl_page($href, $depth - 1);
    }
    echo "URL:",$url,PHP_EOL,"CONTENT:",PHP_EOL,$dom->saveHTML(),PHP_EOL,PHP_EOL;
}
crawl_page("http://hobodave.com", 2);

Edit: j'ai corrigé quelques bugs de Tatu version fonctionne avec les Url relatives maintenant).

Edit: j'ai ajouté un peu de fonctionnalités qui l'empêche de suivre la même URL, deux fois.

Edit: en écho à la sortie sur STDOUT maintenant de sorte que vous pouvez le rediriger vers le fichier que vous voulez

Edit: correction d'un bug signalé par George dans sa réponse. Les url relatives de ne plus ajouter à la fin du chemin d'url, mais le remplacer. Merci à Georges pour cette. Notez que George de la réponse ne tient pas compte de tout: https, user, pass, ou le port. Si vous avez le http extension PECL chargé c'est tout simplement fait à l'aide de http_build_url. Sinon, j'ai manuellement collez-les ensemble à l'aide de parse_url. Merci encore George.

Répondu el 22 de Février, 2010 par hobodave (14566 Points )

Answer 3

15voto

WonderLand Points 1030

Voici ma mise en œuvre basée sur l'exemple / réponse ci-dessus.

C'est basé sur la classe
utilise Curl
supporte HTTP Auth
Ignorer l'URL n'appartenant pas au domaine de base
Renvoyer le code de réponse en-tête HTTP pour chaque page
Heure de retour pour chaque page

CLASSE AU CRAWL:

 class crawler
{
    protected $_url;
    protected $_depth;
    protected $_host;
    protected $_useHttpAuth = false;
    protected $_user;
    protected $_pass;
    protected $_seen = array();
    protected $_filter = array();

    public function __construct($url, $depth = 5)
    {
        $this->_url = $url;
        $this->_depth = $depth;
        $parse = parse_url($url);
        $this->_host = $parse['host'];
    }

    protected function _processAnchors($content, $url, $depth)
    {
        $dom = new DOMDocument('1.0');
        @$dom->loadHTML($content);
        $anchors = $dom->getElementsByTagName('a');

        foreach ($anchors as $element) {
            $href = $element->getAttribute('href');
            if (0 !== strpos($href, 'http')) {
                $path = '/' . ltrim($href, '/');
                if (extension_loaded('http')) {
                    $href = http_build_url($url, array('path' => $path));
                } else {
                    $parts = parse_url($url);
                    $href = $parts['scheme'] . '://';
                    if (isset($parts['user']) && isset($parts['pass'])) {
                        $href .= $parts['user'] . ':' . $parts['pass'] . '@';
                    }
                    $href .= $parts['host'];
                    if (isset($parts['port'])) {
                        $href .= ':' . $parts['port'];
                    }
                    $href .= $path;
                }
            }
            // Crawl only link that belongs to the start domain
            $this->crawl_page($href, $depth - 1);
        }
    }

    protected function _getContent($url)
    {
        $handle = curl_init($url);
        if ($this->_useHttpAuth) {
            curl_setopt($handle, CURLOPT_HTTPAUTH, CURLAUTH_ANY);
            curl_setopt($handle, CURLOPT_USERPWD, $this->_user . ":" . $this->_pass);
        }
        // follows 302 redirect, creates problem wiht authentication
//        curl_setopt($handle, CURLOPT_FOLLOWLOCATION, TRUE);
        // return the content
        curl_setopt($handle, CURLOPT_RETURNTRANSFER, TRUE);

        /* Get the HTML or whatever is linked in $url. */
        $response = curl_exec($handle);
        // response total time
        $time = curl_getinfo($handle, CURLINFO_TOTAL_TIME);
        /* Check for 404 (file not found). */
        $httpCode = curl_getinfo($handle, CURLINFO_HTTP_CODE);

        curl_close($handle);
        return array($response, $httpCode, $time);
    }

    protected function _printResult($url, $depth, $httpcode, $time)
    {
        ob_end_flush();
        $currentDepth = $this->_depth - $depth;
        $count = count($this->_seen);
        echo "N::$count,CODE::$httpcode,TIME::$time,DEPTH::$currentDepth URL::$url <br>";
        ob_start();
        flush();
    }

    protected function isValid($url, $depth)
    {
        if (strpos($url, $this->_host) === false
            || $depth === 0
            || isset($this->_seen[$url])
        ) {
            return false;
        }
        foreach ($this->_filter as $excludePath) {
            if (strpos($url, $excludePath) !== false) {
                return false;
            }
        }
        return true;
    }

    public function crawl_page($url, $depth)
    {
        if (!$this->isValid($url, $depth)) {
            return;
        }
        // add to the seen URL
        $this->_seen[$url] = true;
        // get Content and Return Code
        list($content, $httpcode, $time) = $this->_getContent($url);
        // print Result for current Page
        $this->_printResult($url, $depth, $httpcode, $time);
        // process subPages
        $this->_processAnchors($content, $url, $depth);
    }

    public function setHttpAuth($user, $pass)
    {
        $this->_useHttpAuth = true;
        $this->_user = $user;
        $this->_pass = $pass;
    }

    public function addFilterPath($path)
    {
        $this->_filter[] = $path;
    }

    public function run()
    {
        $this->crawl_page($this->_url, $this->_depth);
    }
}

USAGE:

 // USAGE
$startURL = 'http://YOUR_URL/';
$depth = 6;
$username = 'YOURUSER';
$password = 'YOURPASS';
$crawler = new crawler($startURL, $depth);
$crawler->setHttpAuth($username, $password);
// Exclude path with the following structure to be processed 
$crawler->addFilterPath('customer/account/login/referer');
$crawler->run();

Répondu el 4 de Juin, 2014 par WonderLand (1030 Points )

Answer 4

11voto

GeekTantra Points 2606

Découvrez PHP Crawler

http://sourceforge.net/projects/php-crawler/

Voyez si ça aide.

Répondu el 22 de Février, 2010 par GeekTantra (2606 Points )

Answer 5

5voto

Gordon Points 156415

Pourquoi utiliser PHP pour cela, lorsque vous pouvez utiliser wget, par exemple

wget -r -l 1 http://www.example.com

Pour analyser le contenu, voir Meilleures Méthodes pour analyser le code HTML et utiliser la fonction de recherche pour des exemples. Comment analyser HTML a été répondu plusieurs fois avant.

Répondu el 22 de Février, 2010 par Gordon (156415 Points )

Answer 6

5voto

Team Webgalli Points 630

Avec quelques petites modifications au code de hobodave , voici un code de code que vous pouvez utiliser pour explorer des pages. Cela nécessite que l'extension curl soit activée sur votre serveur.

 <?php
//set_time_limit (0);
function crawl_page($url, $depth = 5){
$seen = array();
if(($depth == 0) or (in_array($url, $seen))){
    return;
}   
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_TIMEOUT, 30);
curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);
$result = curl_exec ($ch);
curl_close ($ch);
if( $result ){
    $stripped_file = strip_tags($result, "<a>");
    preg_match_all("/<a[\s]+[^>]*?href[\s]?=[\s\"\']+"."(.*?)[\"\']+.*?>"."([^<]+|.*?)?<\/a>/", $stripped_file, $matches, PREG_SET_ORDER ); 
    foreach($matches as $match){
        $href = $match[1];
            if (0 !== strpos($href, 'http')) {
                $path = '/' . ltrim($href, '/');
                if (extension_loaded('http')) {
                    $href = http_build_url($href , array('path' => $path));
                } else {
                    $parts = parse_url($href);
                    $href = $parts['scheme'] . '://';
                    if (isset($parts['user']) && isset($parts['pass'])) {
                        $href .= $parts['user'] . ':' . $parts['pass'] . '@';
                    }
                    $href .= $parts['host'];
                    if (isset($parts['port'])) {
                        $href .= ':' . $parts['port'];
                    }
                    $href .= $path;
                }
            }
            crawl_page($href, $depth - 1);
        }
}   
echo "Crawled {$href}";
}   
crawl_page("http://www.sitename.com/",3);
?>

J'ai expliqué ce tutoriel dans ce tutoriel de script de robot

Répondu el 30 de Août, 2012 par Team Webgalli (630 Points )

Comment créer un robot d'exploration simple en PHP?

Réponses

Questions en vedette

Top Tags

Prograide.com

Powered by:

Comment créer un robot d'exploration simple en PHP?

Réponses

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: