python – 使用HTMLParser从页面中提取绝对链接
发布时间:2020-12-20 11:19:34 所属栏目:Python 来源:网络整理
导读:我正在使用以下代码段使用 HTMLParser提取页面上的所有链接.我得到了不少相对网址.如何将这些转换为域的绝对网址,例如www.exmaple.com import htmllib,formatterimport urllib,htmllib,formatterclass LinksExtractor(htmllib.HTMLParser): def __init__(sel
我正在使用以下代码段使用
HTMLParser提取页面上的所有链接.我得到了不少相对网址.如何将这些转换为域的绝对网址,例如www.exmaple.com
import htmllib,formatter import urllib,htmllib,formatter class LinksExtractor(htmllib.HTMLParser): def __init__(self,formatter): htmllib.HTMLParser.__init__(self,formatter) self.links = [] def start_a(self,attrs): if len(attrs) > 0 : for attr in attrs : if attr[0] == "href": self.links.append(attr[1]) def get_links(self): return self.links format = formatter.NullFormatter() htmlparser = LinksExtractor(format) data = urllib.urlopen("http://cis.poly.edu/index.htm") htmlparser.feed(data.read()) htmlparser.close() links = htmlparser.get_links() print links 谢谢 解决方法
你要
urlparse.urljoin(base,url[,allow_fragments]) http://docs.python.org/library/urlparse.html#urlparse.urljoin 这允许您提供绝对或基本URL,并将其与相对URL连接.即使它们有重叠的部分,也应该有效. (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |