您现在的位置是:首页 > 软件下载 > 网络工具 > 上网辅助 >

后羿采集器 v3.6.1官方版

后羿采集器 v3.6.1官方版

后羿采集器 v3.6.1官方版

后羿采集器,后羿采集器是是原Google技术团队倾力打造的一款网页数据采集软件,可视化点选,一键采集网页数据,全平台,Win/Mac/Linux都可用,采集和导出全免费,无限制放心用,可后台运行,速度实时显示,您可以免费下载。

软件大小:47.7M

软件类型:国产软件

软件语言:简体中文

软件授权:自由软件

最后更新:2021-09-18 07:00:56

推荐指数

运行环境:WinAll

查看次数

后羿采集器是由原谷歌技术团队打造的网页数据采集软件。它可以通过视觉点击和一键来收集网页数据。它在所有平台和Win/Mac/Linux上都可用。它可以自由收集和出口,可以不受限制地使用。它可以在后台运行,并实时显示速度。

后羿采集器

软件功能

1.可视化和定制收集过程。

全程问答指导,可视化操作,自定义收集流程。

自动记录和模拟网页的操作顺序。

高级设置满足更多采集需求。

2.点击提取网页数据。

点击鼠标选择要抓取的网页内容,操作简单。

选择提取文本、链接、属性、html标签等。

3.运行批处理数据收集。

软件根据采集流程和提取规则自动批量采集。

快速、稳定、实时显示采集速度和过程。

可以切换软件在后台运行,不打扰前台工作。

4.导出并发布收集的数据。

收集的数据会自动制成表格,字段可以自由配置。

支持将数据导出到本地文件,如Excel。

并一键式发布到CMS网站/数据库/微信微信官方账号等媒体。

施用方式

用户自定义的收集百度搜索结果数据的方法。

第一步:创建采购任务。

1)启动后羿采集器,进入主界面,选择自定义采集,点击“创建任务”按钮,创建“自定义采集任务”。

后羿采集器

2)输入百度搜索的URL,包括三种方式。

1.手动输入:直接在输入框中输入URL,多个URL必须用新行隔开。

2.点击从文件中读取:用户选择一个文件存储URL,文件中可以有多个URL地址,地址之间需要用新的行隔开。

3.批量添加方式:通过添加和调整地址参数,生成多个常规地址。

后羿采集器

第二步:定制采集流程。

1)点击创建后,自动打开第一个URL,进入自定义设置页面。默认情况下,已经创建了开始、打开网页和结束的流程块。底部模板区域用于拖放到画布上以生成新的流块;点按打开的网页中的“属性”按钮以修改打开的网址。

后羿采集器

2)添加输入文本流块:将底部模板区域的输入文本块拖放到打开的网页块背面附近。当阴影区域出现时,可以松开鼠标,鼠标会自动连接添加。

后羿采集器

3)生成完整的流程图:在上面添加输入文本流块的拖放过程之后,添加一个新的块,如下图所示:

后羿采集器

关键步骤块设置介绍。

第二步:定时等待用于等待之前打开的网页完成。

第三步:点击输入框的Xpath属性按钮,点击属性菜单中的图标,在网页中点击输入框,点击输入文本属性按钮,在菜单中输入需要搜索的文本。

第四步:点击开始搜索按钮,点击元素的xpath属性按钮,点击菜单中的图标,然后点击网页中的百度按钮。

第五步:设置加载下一个列表页面的周期。在循环块内部的循环条件块中设置详细条件,点击这里的操作按钮,选择单个元素,然后在属性菜单中点击该元素的xpath属性按钮,在网页中点击下一页按钮,如上图。默认情况下,循环次数属性按钮可以设置为0,也就是说,对下一页的点击次数没有限制。

第六步:在循环抽取列表页面设置数据。在循环块内部的循环条件块中设置详细条件,点击这里的操作按钮,选择未固定元素的列表,然后在属性菜单中点击元素的xpath属性按钮,然后在网页中点击两次,提取第一个和第二个元素。默认情况下,循环次数属性按钮可以设置为0,即列表中充电字段的数量没有限制。

第七步:点击下一步按钮,点击元素xpath属性按钮,选择xpath选项使用当前周期的元素。

第八步:同样用于设置网页加载的等待时间。

第9步:设置从列表页提取的字段规则,单击属性按钮中的在循环中使用元素按钮,并选择在循环中使用元素选项。单击元素模板的属性按钮,在字段表中添加和删除字段。单击以添加字段,即单击加号,然后将鼠标移动到webp上

4)点击开始采集,开始采集。

后羿采集器

第三步:数据采集和导出。

1)采集任务正在运行。

后羿采集器

2)采集完成后,选择“导出数据”,将所有数据导出到本地文件。

后羿采集器

3)选择“导出方法”导出收集的数据。这里可以选择excel作为导出格式。

后羿采集器

4)收集的数据导出如下所示。

后羿采集器

后羿采集器类似的软件

相关教程

猜你喜欢