手机版

Node.js抓取豆瓣数据实例分析

时间:2021-09-01 来源:互联网 编辑:宝哥软件园 浏览:

一直觉得vue还行,一直觉得webpack还行。今天在海量开放在线课程中访问node的时候,发现自己还远远落后。众所周知,vue-cli是基于webpack的,而webpack是基于node的,所以我们对node并不了解。所以我给了自己一个问题,爬取了豆瓣的数据,目前还处于初级阶段。今天我就来说说豆瓣的数据爬取,然后在另一个页面用自己的方式展示出来,以后再跟进。

1.有待解决的问题

如何通过构建服务来处理爬取的数据如何自动打开默认浏览器2。建立服务

有几种方法可以构建服务。一开始我用的是http,但是http的缺点是不能解析https协议的url,所以我用的是express,我用的是request package解析https协议的URL。豆瓣的网址是https。

今天,我爬上了https://movie.douban.com/chart;的网站如下图,我想得到三个部分:图片、电影名和电影链接。

3.如何处理攀升的数据

如何处理我们根据要求爬上来的数据?cheerio包允许我们像Jq一样处理抓取的html数据。

(1)首先分析数据,得到抓取网页的html数据;

(2)然后使用cheerio包对抓取的数据进行操作,得到想要的数据。

获取数据,创建html,输出到页面。如下图,我用的是字符串拼接,有点笨,还没有找到更好的方法。

4.如何自动打开默认浏览器

不知道大家有没有看过vue-cli中webpack的配置,并自动打开浏览器,针对vue-cli的opn包。

这个包使用起来非常方便。只需介绍一下包,直接调用opn(url)。

5.显示

版权声明:Node.js抓取豆瓣数据实例分析是由宝哥软件园云端程序自动收集整理而来。如果本文侵犯了你的权益,请联系本站底部QQ或者邮箱删除。