nodeJS实现简单网页爬虫功能的实例(分享)
本文将使用nodeJS实现一个简单的网页爬虫功能
网页源码
使用http.get()方法获取网页源码,以hao123网站的头条页面为例
http://tuijian.hao123.com/hotrank
var http=require(' http ');http。get(' http://tuijian。郝123。com/hot rank ',函数(RES){ var data=' ';res.on('data ',function(chunk){ data=chunk;});res.on('end ',function(){ console.log(数据);})});获得的结果如下所示:
!DOCTYPE html html lang=' zh _ CN ' big render=' Fe : widget/js/lib/big render。js ' headenoscriptmeta http-equiv=' refresh '内容=' 0;URL='/tuijian/hotrank?_ _无脚本_ _-=1 ' '//无脚本元字符集=' utf-8 '元http-equiv=' X-UA-Compatible '内容=' IE=edge '元名称=' viewport '内容=' width=device-width,initial-scale=1,maximum-scale=1,user-scalable=no '元名称=' referer '内容=' aly '元名称=' Baidu-site-verification '内容=' cchudsyep '/元名称=' Baidu _ union _ verify '内容=' d7d 6444头条,新闻,推荐,国内,国际,本地,财经,军事,娱乐,体育,社会,汽车,网站,新闻导航,今日头条,头条新闻,最新新闻,2017最新新闻,新闻名站,新闻大全,新闻门户/meta name=' description ' content=' Hao 123新闻频道,聚合全网最新的新闻,最热点的新闻,实时新闻热搜词,热门新闻报刊;更有军事新闻,娱乐新闻,体育新闻,图片新闻,汽车新闻,女性新闻,财经新闻,国内新闻,国际新闻等分类新闻/title热点排行榜-头条新闻hao123新闻导航_hao123上网导航/titlelink rel='快捷图标href='//www .郝123。com/fav图标。ico ' rel='外部无跟随'/脚本窗口。页面id=窗口。页面id | | '豪123-新文-推建-热门排名';窗户。pagevp=窗口。pagevp | | '豪123-新文-推剑-热秩';/脚本!-[if lt IE 7]脚本src=' http :http://s 0。郝123 img。com/RES/js/common/DD _迟来dpng。量滴js '/脚本脚本DD _迟来dpng。修复(' #频道标题');/脚本![endif] -脚本窗口.郝=窗口HOO | | { };窗户HAO.https=false窗户HAO.httpsTrans=函数(网址){ 0返回URL };/scriptlink rel='样式表S1。郝123 img。com/resource/Fe/pkg/AIO-eef 856 b5。231 bb 088 c . CSS ' rel='外部无跟随'/链接rel='样式表S2。郝123 img。com/resource/tui Jian/CSS/hot rank。38645 DD。CSS ' rel
版权声明:nodeJS实现简单网页爬虫功能的实例(分享)是由宝哥软件园云端程序自动收集整理而来。如果本文侵犯了你的权益,请联系本站底部QQ或者邮箱删除。