提取:从HTML文档获取元数据
提取(1), Python(59)我需要从HTML页面中提取标题,规范URL,描述和图像,并决定将该功能拆分为自己的库。然后我决定实际上通过将它上传到PYPI(第一个对我)的过程,结果是萃取
。
简单的内容提取是漂亮的例程,但经常出现并经常爆炸成难以保持混乱,而不是划痕而不是围绕处理多种提取技术的框架设计。
希望萃取
框架结果有点有用(当前技术本身是非常友好的,但应该变得更加强大,因为我更多地使用它)。
这在github上的自述文件比我在这里写的任何东西都是更沮丧的,所以我会做一个快速的例子。
pip安装提取pip安装请求pip安装html5lib
然后让我们玩一下。
>>>导入提取,请求>>> EXT =提取.Extractor()>>> URL =“http://www.cnn.com/2012/11/23/politics/fiscal-cliff/index.html”>>> x = ext.extract(请求。要点(URL).text,source_url = url)>>> x <提取:(标题:某人共和党人远离无税务保证,3更多),(URL:'http://www.cnn.com/2012/11/23/politics/fiscal-clif'),(图片:'http://i2.cdn.turner.com/cnn/dam/assets/1211',7更多),(Feed:'http://rss.cnn.com/rss/cnn_politics.rss'),(描述:'没有什么Riles上茶党聊天',5更多)>>>> x.title u“有些共和党人远离无税务誓言 - CNN.com'>>> X.Description U'Onting riles上升茶党喋喋不休课程...'>>> x.images [u'http:// i2。cdn.turner.com/cnn/dam/assets / ...',u'http://i.cdn.turner.com/cnn/images/1.gif'u“和五个......”]
让我们尝试对阵GitHub存储库萃取
:
>>> URL =“https://////////hethain/extraction”>>> x = ext.extract(请求。请求(url).text,source_url = url)>>> x <提取:(标题:'提取',7更多),(URL:'https://github.com/lethain/extraction'),(图片:'https://a248.e.akamai.net/assets.githu ...',4),(描述:'提取 - ex ...',6更多)>>> x.titles [u'extraction',u'extraction',u'extraction',u'lethin /提取\ xb7 github',U'公共丙基/提取',U“和四个......”]
这两个工作都很好地归功于实现Facebook OpenGraph标签 - 但这是一个新图书馆,所以它无疑会在各种网站上表现不佳。例如,它现在真正窒息了Pypi,我会弄清楚:
>>> URL =“http://pypi.python.org/pypi/extraction/0.1.0”>>> x = ext.extract(请求.get(url).text,source_url = url)>>> x<提取:>
我们将看到它是如何发展的。