您好,欢迎访问一九零五行业门户网

Python利用Phantomjs抓取渲染JS后的网页

最近需要爬取某网站,无奈页面都是js渲染后生成的,普通的爬虫框架搞不定,于是想到用phantomjs搭一个代理。
python调用phantomjs貌似没有现成的第三方库(如果有,请告知小2),漫步了一圈,发现只有pyspider提供了现成的方案。
简单试用了一下,感觉pyspider更像一个为新手打造的爬虫工具,好比一个老妈子,有时无微不至,有时喋喋不休。
轻巧的小工具应该更受人喜爱,我也怀着一点私心,可以带着我最爱的beautifulsoup一块儿用,而不用再学pyquery(pyspider用来解析html),更不用忍受浏览器写python的糟糕体验(偷笑)。
所以花了一个下午的时间,把pyspider当中实现phantomjs代理的部分拆了出来,独立成一个小的爬虫模块,希望大家会喜欢(感谢binux!)。
准备工作
你当然要有phantomjs,废话!(linux下最好用supervisord守护,必须保持抓取的时候phantomjs一直处于开启状态)
用项目路径下的phantomjs_fetcher.js启动:phantomjs phantomjs_fetcher.js [port]
安装tornado依赖(使用了tornado的httpclient模块)
调用是超级简单的
from tornado_fetcher import fetcher # 创建一个爬虫 >>> fetcher=fetcher( user_agent='phantomjs', # 模拟浏览器的user-agent phantomjs_proxy='http://localhost:12306', # phantomjs的地址 poolsize=10, # 最大的httpclient数量 async=false # 同步还是异步 ) # 开始连接phantomjs的代理,可以渲染js! >>> fetcher.phantomjs_fetch(url) # 渲染成功后执行额外的js脚本(注意用function包起来!) >>> fetcher.phantomjs_fetch(url, js_script='function(){settimeout(window.scrollto(0,100000)}, 1000)')
其它类似信息

推荐信息