Obtenir une liste des liens d'une page HTML en python

Published: 23 juillet 2014

DMCA.com Protection Status

Avec python il est possible d'obtenir une liste des liens provenant d'une page HTML en passant par le module beautifulsoup4. Dans cet exemple, on récupère tous les liens sur la page wikipedia sur Alan Turing:

# -*- coding: utf-8 -*-

from bs4 import BeautifulSoup
import urllib2
import re

html_page = urllib2.urlopen("http://fr.wikipedia.org/wiki/Alan_Turing")
soup = BeautifulSoup(html_page)

LinksList = []
for link in soup.findAll('a'):
    linkfound = link.get('href')
    LinksList.append(linkfound)
    print linkfound
print len(LinksList)

Recherches associées