Node.js抓取豆瓣数据实例分析
一直觉得vue还行,一直觉得webpack还行。今天在海量开放在线课程中访问node的时候,发现自己还远远落后。众所周知,vue-cli是基于webpack的,而webpack是基于node的,所以我们对node并不了解。所以我给了自己一个问题,爬取了豆瓣的数据,目前还处于初级阶段。今天我就来说说豆瓣的数据爬取,然后在另一个页面用自己的方式展示出来,以后再跟进。
1.有待解决的问题
如何通过构建服务来处理爬取的数据如何自动打开默认浏览器2。建立服务
有几种方法可以构建服务。一开始我用的是http,但是http的缺点是不能解析https协议的url,所以我用的是express,我用的是request package解析https协议的URL。豆瓣的网址是https。
今天,我爬上了https://movie.douban.com/chart;的网站如下图,我想得到三个部分:图片、电影名和电影链接。
3.如何处理攀升的数据
如何处理我们根据要求爬上来的数据?cheerio包允许我们像Jq一样处理抓取的html数据。
(1)首先分析数据,得到抓取网页的html数据;
(2)然后使用cheerio包对抓取的数据进行操作,得到想要的数据。
获取数据,创建html,输出到页面。如下图,我用的是字符串拼接,有点笨,还没有找到更好的方法。
4.如何自动打开默认浏览器
不知道大家有没有看过vue-cli中webpack的配置,并自动打开浏览器,针对vue-cli的opn包。
这个包使用起来非常方便。只需介绍一下包,直接调用opn(url)。
5.显示
版权声明:Node.js抓取豆瓣数据实例分析是由宝哥软件园云端程序自动收集整理而来。如果本文侵犯了你的权益,请联系本站底部QQ或者邮箱删除。