node.js爬虫抓取Lagou.com的位置信息
简介
用node.js编写了一个简单的爬虫,用来抓取Lagou上的招聘信息。对北京、上海、广州、深圳、杭州、Xi、成都的数据进行抓取,使用前端、PHP、java、C、python、Android、ios作为关键字,抓取的数据以json格式存储在本地。为了便于观察,我整理了一下资料。
数据结果
以上数据是3月13日22: 00抓取的数据,可以大致反映各个城市不同语言的需求。
爬升过程显示
控制爬网的并发性
已爬网数据文件
Json数据文件
电脑机器人
实现理念
请求“https://www . lagou.com/jobs/positionajax . JSON?”的hook net needaddionalresult=false city=city kd=关键字pn=page number "可以返回一个json格式的数据,其中包含了需要请求的位置的信息,免去了chreio解析的麻烦,所以可以通过superagent直接请求上面的地址,并将数据存储在本地,其中参数city是城市,KD是需要搜索的关键字,pn是需要请求的页码,async用来控制异步进程。
代码地址和用途
https://github.com/zsqosos/positionAnalysis
请检查github上的代码。要使用此程序,您需要安装节点环境。如果你觉得还不错,请给一颗星。欢迎您修改和使用本程序。
以上就是本文的全部内容。希望本文的内容能给大家的学习或工作带来一些帮助,也希望多多支持我们!
版权声明:node.js爬虫抓取Lagou.com的位置信息是由宝哥软件园云端程序自动收集整理而来。如果本文侵犯了你的权益,请联系本站底部QQ或者邮箱删除。