手机版

用phantomjs实现网络爬行的代码

时间:2021-09-09 来源:互联网 编辑:宝哥软件园 浏览:

Phantomjs是一个可以运行js的无头浏览器,所以也可以运行dom节点,非常适合网页抓取。

比如我们需要批量抓取“历史上的今天”的内容。网站

观察dom结构,我们只需要得到。所以我们使用高级选择器来构建dom片段

var d=' ' var c=document . queryselectorall('。列出阿利)var l=c.lengthfor(var I=0;il;I)在{d=d c [I]之后。title' \ n'},就让js代码在phantomjs中运行吧~

var page=require('网页')。create();page . open(' http://www.todayonhistory.com/',function(状态){//如果(状态!==“成功”){ console . log(‘加载地址失败’);} else { console . log(page . evaluate(function(){ var d=' ' var c=document . queryselectorall ')。列出阿利)var l=c.lengthfor(var I=0;il;i ){d=d c[i]。title ' \ n ' } return d })} phantom . exit();});最后,我们将其保存为catch.js,在dos中执行,并将内容输出到txt文件(您也可以使用phantomjs的文件api编写)

版权声明:用phantomjs实现网络爬行的代码是由宝哥软件园云端程序自动收集整理而来。如果本文侵犯了你的权益,请联系本站底部QQ或者邮箱删除。