Criar um parse de XML em Python é trivial, especialmente quando se trata de um documento HTML.
Nesse exemplo, criamos uma classe Parser que vai informar quando se abre ou fecha uma tag. Depois que criamos e instanciamos o Parser, alimentamos ele com o método feed com um documento HTML. Esse documento é pego através do urlopen do módulo urllib, que é um stream e portanto usamos o método read para leitura.
from HTMLParser import HTMLParser
from urllib import urlopen
class Parser(HTMLParser):
def handle_starttag(self, tag, attrs):
print "abre tag %s" % tag
def handle_endtag(self, tag):
print "fecha tag %s" % tag
url = 'http://www.silveiraneto.net'
Parser().feed( urlopen(url).read() )
Esse é um exemplo bem legal se você quiser brincar com mineração ou obtenção de dados.
Be First to Comment