Affichage hiérarchique

**ark** · 08-08-2014, 11h37

Yop all

Just 4 fun, je me suis amusé a faire un petit crawler d'url en python, c'est super basique, mais je trouve ca rigolo. En python, utilisant les modules requests et re.

Enjoy:

Code PYTHON :

#!/usr/bin/env python

#

#  BabyCrawler PoC

#  by Ark, just4fun

#  feel free to share =)

#

import re

import requests

import sys

def process(target, old_targets, target_r) :

    try :

        data = requests.request("GET", target, verify=False)

    except :

        return # if we fail, let's move on, there is plenty of stuff to discover anyway!

    uris = target_r.findall(data.content)

    print("{}".format(target))

    for uri in uris :

        if uri not in old_targets:

            old_targets.append(uri)

            process(uri, old_targets, target_r)

def main() :

    if len(sys.argv) != 2 :

        print("Usage: {} <start_uri>".format(sys.argv[0]))

        return 1

    target = sys.argv[1]

    old_targets = [target]

    target_r = re.compile("(https?://[a-z0-9\.\-_]+/?)")

    process(target, old_targets, target_r)

    print("No new uri found")

    return 0

if __name__ == "__main__" :

    exit(main())

Sur github: https://github.com/Ark444/PoCz/blob/mast...Crawler.py

Si vous avez des questions / remarques, n'hésitez pas !! Smile

***supersnail*** · 08-08-2014, 11h51

Sympa comme code Smile

Par contre, je vois pas trop l'utilité de la fonction récursive ici: je pense qu'utiliser une file ici et de boucler tant que la file n'est pas vide serait plus judicieux qu'utiliser une fonction récursive (qui risque d'éclater la pile s'il y a grand nombre d'URLs à crawler), à moins que python fasse tout seul les optimisations nécessaires pour convertir l'appel récursif en boucle.

**ark** · 08-08-2014, 11h55

Thx pour le commentaire.
En fait, dans l'idéal, je voudrais faire une map complete d'Internet, mais ca, ca va devenir tendu :p Mais bref, oui, ca va éclater la pile, mais tu récupere plus de donnes que si tu fais avec une boucle.
J'ai testé avec une boucle simple, mais ca sort pas des masses d'urls nouvelles. ;)

***supersnail*** · 09-08-2014, 11h53

Ben l'idée ce serait d'ajouter les nouvelles URLs dans une file d'attente, et de boucler tant que la file n'est pas vide en récupérant le premier élément (ie l'élément enfilé le plus ancien), c'est l'algo classique en quelque sorte

ark · (Modification du message : 11-08-2014, 17h00 par ark.)

Ouep, bon, j'ai fait comme t'as dit, j'ai update ma regexp aussi
Effectivement du coup c'est un peu mieux, ça permet de pas avoir le même début pour chaque sites en fait, genre a chaque fois ca tombais sur w3.org et du coup c’était toujours le même bordel.
Par contre du coup ca va être relou pour gérer l'héritage des liens.

Code PYTHON :

#!/usr/bin/env python

#

#  BabyCrawler PoC

#  by Ark, just4fun

#  feel free to share =)

#

import re

import random

import requests

import sys

def main() :

    if len(sys.argv) != 2 :

        print("Usage: {} <start_uri>".format(sys.argv[0]))

        return 1

    target_list = [sys.argv[1]]

    target_r = re.compile("href=[\"']([a-z]+://[a-z0-9\.\-_]+/?)[\"']")

    x = 0

    while True :

        print target_list[x]

        try :

            data = requests.request("GET", target_list[x], verify=False)

        except :

            pass

        for uri in target_r.findall(data.content) :

            if uri.strip('/') not in target_list :

                target_list.append(uri.strip('/'))

        x += 1

    return 0

if __name__ == "__main__" :

    exit(main())

AJOUT:
'fin bref, go voir sur mon github, c'est la bas que je vais update Wink

Sujets apparemment similaires…
Sujet		Auteur	Réponses	Affichages	Dernier message
	[Python]Situer mon niveau.	InforMods	19	1,191	10-11-2016, 00h03 Dernier message: ZeR0-@bSoLu
	[PYTHON] un bot IRC basique	darcosion	1	215	13-06-2016, 20h40 Dernier message: Yttrium
	[python] ANBU ::: TCP Session Hunter	St0rn	2	276	25-02-2016, 18h45 Dernier message: otherflow
	[Python] Une autre façon de gérer les Virtualenv et Packages	thxer	2	165	18-01-2016, 12h06 Dernier message: thxer
	[Python] rot script	ark	9	555	08-03-2015, 00h37 Dernier message: ark
	[Python] Todo Manager	ark	5	367	03-03-2015, 10h55 Dernier message: ark
	[python] Un décorateur pour inventorier les objets	b0fh	1	263	04-12-2014, 17h50 Dernier message: thxer
	[python] UPnP Scanner	St0rn	2	218	29-10-2014, 14h50 Dernier message: St0rn
	[python] Buffer Overflow : EBP et EIP	St0rn	0	165	25-10-2014, 12h58 Dernier message: St0rn
	[Python] QuickHex	thxer	9	500	15-08-2014, 20h26 Dernier message: sakiir

Identifiant Mot de passe
S’enregistrer \| Mot de passe oublié ? Se rappeler