注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

淘尽网 官方博客

淘尽网http://www.tao3w.com做最好的比价网站

 
 
 

日志

 
 
关于我

淘尽网 http://www.tao3w.com 做最好的比价网站,做最好的数据抓取专家。

网易考拉推荐

用selenium+pyquery爬取javascript生成的页面内容(转)  

2016-07-17 22:08:32|  分类: selenium |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
#!/usr/bin/env python
# -*- coding: UTF-8 -*-
from pyquery import PyQuery as pq
from selenium import webdriver
 
browser = webdriver.Firefox()
browser.get('http://www.baidu.com/')
 
html = browser.find_element_by_xpath("//*").get_attribute("outerHTML"# 不要用 browser.page_source,那样得到的页面源码不标准
browser.quit()
 
html = pq(html)
html.find("script").remove()    # 清理 <script>...</script>
html.find("style").remove()     # 清理 <style>...</style>
 
print html.outer_html()
http://blog.bccn.net/%E9%9D%99%E5%A4%9C%E6%80%9D/16743
  评论这张
 
阅读(50)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2018