基于Python正则表达式从搜索结果中提取站点地�

时间：2021-09-30 来源：互联网编辑：宝哥软件园浏览：次

正则表达式并不是python独有的。最近谷歌搜索结果中的所有站点地址都导出了，所以我想到了用Python正则表达式来提取搜索结果中的站点地址。

这涉及到几个需要解决的问题：

1.获取搜索的结果文本。

为了获得更多的地址，我使用了谷歌的高级搜索功能，每个页面显示100个结果。

在获得显示的结果后，您可以查看源代码并将其保存为文本文件，您将拥有搜索结果文本。

2.分析如何提取站点信息。

首先，我们需要分析获得的页面，看看如何提取网站信息。

我用IE8自带的开发工具中的profiler功能(按F12会弹出)，看看我关心的内容有什么特殊格式。

从上图可以看出，我需要的站点在tag cite/cite中，那么可以用正则表达式从中提取文本吗？

3.编写正则表达式来获取站点地址。

下一步就是写表达式了，我在Python3.2中写的，方便易用(~ _ ~)。

代码如下：首先将搜索结果页面保留在e:/t3.txt中，并执行以下代码。

进口代表=re.compile(r'cite([^\/].)/cite') f=open ('e:/t3.txt '，编码=' utf-8 ')内容=f. read () print ('\ n '。join (p. find all (content))运行如下：

您可以检查正在运行的渲染，查看是否已获得所有站点地址。

热门手游排行榜