Avec python il est possible d'obtenir une liste des liens provenant d'une page HTML en passant par le module beautifulsoup4. Dans cet exemple, on récupère tous les liens sur la page wikipedia sur Alan Turing:
# -*- coding: utf-8 -*-
from bs4 import BeautifulSoup
import urllib2
import re
html_page = urllib2.urlopen("http://fr.wikipedia.org/wiki/Alan_Turing")
soup = BeautifulSoup(html_page)
LinksList = []
for link in soup.findAll('a'):
linkfound = link.get('href')
LinksList.append(linkfound)
print linkfound
print len(LinksList)
Recherches associées
Liens | Site |
---|---|
Beautiful Soup Documentation | Python Doc |
beautifulsoup4 4.3.2 | Python Doc |
how can I get href links from html code | stackoverflow |