nodejs爬虫抓取数据的编码问题

时间：2021-09-09 来源：互联网编辑：宝哥软件园浏览：次

当cheerio DOM解析和解析时，

1.如果。使用text()方法，一般不会有html实体编码的问题。

2.如果。使用html()方法，它会出现在很多情况下(其中大部分是非英语)。这时，它可能需要被逃脱。

类似于这些，因为需要数据存储，都需要转换

副本代码如下： .

大部分都是(x)？的格式

所以我使用常规转换

Var body=.//这是请求后得到的返回数据，或者是请求后得到的数据。html()//一般可以先转换成标准的unicode格式(必要时添加：当返回的数据呈现过多的\\\u等)。身体=逃避(身体。替换(/\ \ u/g，' %)//再次转义实体符号。//如果有X，表示十六进制，$1表示匹配是否有X，$2表示第二个括号捕获的内容。将$2转换为body=body.replace(/(x))对应的二进制表示形式。(\ w)；/g，函数($，$1，$ 2){ return string . fromcharcode(parsent($ 2，$1？16:10));});好吧~

当然，网上也有很多转换版本，应用就好

后记：

在使用爬虫抓取网页数据时，经常会用到cheerio模块，它和jq一样方便快捷

(但是，有些函数不受支持或以某种形式更改，例如jquery('。my class’)。jq的prop ('outer html ')，cheerio相当于jquery.html('。my class ')http://www.mgenware.com/blog/? p=2514)