注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

淘尽网 官方博客

淘尽网http://www.tao3w.com做最好的比价网站

 
 
 

日志

 
 
关于我

淘尽网 http://www.tao3w.com 做最好的比价网站,做最好的数据抓取专家。

网易考拉推荐

spynner过滤特定文件  

2013-09-04 18:24:42|  分类: PYQT |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
过滤图片文件
#!/usr/bin/python
import spynner
import pyquery
import os
  
def images_filter(operation, url):       
    return os.path.splitext(url)[1] not in (".jpg", ".png", ".gif")
  
browser = spynner.Browser(debug_level=spynner.INFO)
browser.set_html_parser(pyquery.PyQuery)
browser.set_url_filter(images_filter)
browser.create_webview()
browser.show()
browser.select("#esen")
browser.fill("input[name=enit]", "hola")
browser.click("input[name=b]")
browser.wait_page_load()
browser.soup.make_links_absolute(base_url=browser.url)
print "url:", browser.url
print "html:", browser.soup("#Otbl").html()
data = browser.download(browser.soup("img:first").attr('src'))
print "image length:", len(data)
#browser.browse()
browser.close()
http://nullege.com/codes/show/src@w@e@Webkitd-HEAD@depends@spynner-0.0.3@examples@wordreference2.py/12/spynner.Browser.set_url_filter
  评论这张
 
阅读(266)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017