基于Python正则表达式从搜索结果中提取站点地�
正则表达式并不是python独有的。最近谷歌搜索结果中的所有站点地址都导出了,所以我想到了用Python正则表达式来提取搜索结果中的站点地址。
这涉及到几个需要解决的问题:
1.获取搜索的结果文本。
为了获得更多的地址,我使用了谷歌的高级搜索功能,每个页面显示100个结果。
在获得显示的结果后,您可以查看源代码并将其保存为文本文件,您将拥有搜索结果文本。
2.分析如何提取站点信息。
首先,我们需要分析获得的页面,看看如何提取网站信息。
我用IE8自带的开发工具中的profiler功能(按F12会弹出),看看我关心的内容有什么特殊格式。
从上图可以看出,我需要的站点在tag cite/cite中,那么可以用正则表达式从中提取文本吗?
3.编写正则表达式来获取站点地址。
下一步就是写表达式了,我在Python3.2中写的,方便易用(~ _ ~)。
代码如下:首先将搜索结果页面保留在e:/t3.txt中,并执行以下代码。
进口代表=re.compile(r'cite([^\/].)/cite') f=open ('e:/t3.txt ',编码=' utf-8 ')内容=f. read () print ('\ n '。join (p. find all (content))运行如下:
您可以检查正在运行的渲染,查看是否已获得所有站点地址。
版权声明:基于Python正则表达式从搜索结果中提取站点地�是由宝哥软件园云端程序自动收集整理而来。如果本文侵犯了你的权益,请联系本站底部QQ或者邮箱删除。