手机版

nodejs爬虫抓取数据的编码问题

时间:2021-09-09 来源:互联网 编辑:宝哥软件园 浏览:

当cheerio DOM解析和解析时,

1.如果。使用text()方法,一般不会有html实体编码的问题。

2.如果。使用html()方法,它会出现在很多情况下(其中大部分是非英语)。这时,它可能需要被逃脱。

类似于这些,因为需要数据存储,都需要转换

副本代码如下: .

大部分都是(x)?的格式

所以我使用常规转换

Var body=.//这是请求后得到的返回数据,或者是请求后得到的数据。html()//一般可以先转换成标准的unicode格式(必要时添加:当返回的数据呈现过多的\\\u等)。身体=逃避(身体。替换(/\ \ u/g,' %)//再次转义实体符号。//如果有X,表示十六进制,$1表示匹配是否有X,$2表示第二个括号捕获的内容。将$2转换为body=body.replace(/(x))对应的二进制表示形式。(\ w);/g,函数($,$1,$ 2){ return string . fromcharcode(parsent($ 2,$1?16:10));});好吧~

当然,网上也有很多转换版本,应用就好

后记:

在使用爬虫抓取网页数据时,经常会用到cheerio模块,它和jq一样方便快捷

(但是,有些函数不受支持或以某种形式更改,例如jquery('。my class’)。jq的prop ('outer html '),cheerio相当于jquery.html('。my class ')http://www.mgenware.com/blog/? p=2514)

版权声明:nodejs爬虫抓取数据的编码问题是由宝哥软件园云端程序自动收集整理而来。如果本文侵犯了你的权益,请联系本站底部QQ或者邮箱删除。