[Python] Url crawler
|
08-08-2014, 11h37
Message : #1
|
|
ark
Psyckomodo! Messages : 1,033 Sujets : 48 Points: 317 Inscription : Sep 2011 |
[Python] Url crawler
Yop all
Just 4 fun, je me suis amusé a faire un petit crawler d'url en python, c'est super basique, mais je trouve ca rigolo. En python, utilisant les modules requests et re. Enjoy: Code PYTHON :
Sur github: https://github.com/Ark444/PoCz/blob/mast...Crawler.py Si vous avez des questions / remarques, n'hésitez pas !! |
|
08-08-2014, 11h51
Message : #2
|
|
supersnail
Éleveur d'ornithorynques Messages : 1,614 Sujets : 72 Points: 466 Inscription : Jan 2012 |
RE: [Python] Url crawler
Sympa comme code
Par contre, je vois pas trop l'utilité de la fonction récursive ici: je pense qu'utiliser une file ici et de boucler tant que la file n'est pas vide serait plus judicieux qu'utiliser une fonction récursive (qui risque d'éclater la pile s'il y a grand nombre d'URLs à crawler), à moins que python fasse tout seul les optimisations nécessaires pour convertir l'appel récursif en boucle.
Mon blog
Code : push esp ; dec eax ; inc ebp ; and [edi+0x41],al ; dec ebp ; inc ebp "VIM est merveilleux" © supersnail |
|
08-08-2014, 11h55
Message : #3
|
|
ark
Psyckomodo! Messages : 1,033 Sujets : 48 Points: 317 Inscription : Sep 2011 |
RE: [Python] Url crawler
Thx pour le commentaire.
En fait, dans l'idéal, je voudrais faire une map complete d'Internet, mais ca, ca va devenir tendu :p Mais bref, oui, ca va éclater la pile, mais tu récupere plus de donnes que si tu fais avec une boucle. J'ai testé avec une boucle simple, mais ca sort pas des masses d'urls nouvelles. ;) |
|
09-08-2014, 11h53
Message : #4
|
|
supersnail
Éleveur d'ornithorynques Messages : 1,614 Sujets : 72 Points: 466 Inscription : Jan 2012 |
RE: [Python] Url crawler
Ben l'idée ce serait d'ajouter les nouvelles URLs dans une file d'attente, et de boucler tant que la file n'est pas vide en récupérant le premier élément (ie l'élément enfilé le plus ancien), c'est l'algo classique en quelque sorte
Mon blog
Code : push esp ; dec eax ; inc ebp ; and [edi+0x41],al ; dec ebp ; inc ebp "VIM est merveilleux" © supersnail |
|
11-08-2014, 17h00
(Modification du message : 11-08-2014, 17h00 par ark.)
Message : #5
|
|
ark
Psyckomodo! Messages : 1,033 Sujets : 48 Points: 317 Inscription : Sep 2011 |
RE: [Python] Url crawler
Ouep, bon, j'ai fait comme t'as dit, j'ai update ma regexp aussi
Effectivement du coup c'est un peu mieux, ça permet de pas avoir le même début pour chaque sites en fait, genre a chaque fois ca tombais sur w3.org et du coup c’était toujours le même bordel. Par contre du coup ca va être relou pour gérer l'héritage des liens. Code PYTHON :
AJOUT: 'fin bref, go voir sur mon github, c'est la bas que je vais update |
|
« Sujet précédent | Sujet suivant »
|
Sujets apparemment similaires… | |||||
Sujet | Auteur | Réponses | Affichages | Dernier message | |
[Python]Situer mon niveau. | InforMods | 19 | 5,637 |
10-11-2016, 00h03 Dernier message: ZeR0-@bSoLu |
|
[PYTHON] un bot IRC basique | darcosion | 1 | 1,052 |
13-06-2016, 20h40 Dernier message: Yttrium |
|
[python] ANBU ::: TCP Session Hunter | St0rn | 2 | 1,288 |
25-02-2016, 18h45 Dernier message: otherflow |
|
[Python] Une autre façon de gérer les Virtualenv et Packages | thxer | 2 | 1,098 |
18-01-2016, 12h06 Dernier message: thxer |
|
[Python] rot script | ark | 9 | 2,753 |
08-03-2015, 00h37 Dernier message: ark |
|
[Python] Todo Manager | ark | 5 | 1,707 |
03-03-2015, 10h55 Dernier message: ark |
|
[python] Un décorateur pour inventorier les objets | b0fh | 1 | 1,223 |
04-12-2014, 17h50 Dernier message: thxer |
|
[python] UPnP Scanner | St0rn | 2 | 1,146 |
29-10-2014, 14h50 Dernier message: St0rn |
|
[python] Buffer Overflow : EBP et EIP | St0rn | 0 | 805 |
25-10-2014, 12h58 Dernier message: St0rn |
|
[Python] QuickHex | thxer | 9 | 2,536 |
15-08-2014, 20h26 Dernier message: sakiir |
Utilisateur(s) parcourant ce sujet : 2 visiteur(s)