手机版

创建自己的谷歌[用PHPdig[图形教程]

时间:2021-11-27 来源:互联网 编辑:宝哥软件园 浏览:

1.什么是PHPdig?PHPdig是国外非常流行的垂直搜索引擎产品(与其说它是一个产品,不如说它是一种与传统搜索引擎不同的搜索技术)。它是用PHP语言编写的,利用了PHP程序的高效率,大大提高了搜索响应速度。它可以像谷歌或百度等搜索引擎一样搜索互联网。搜索内容除普通网页外,还包括txt、doc、xls、pdf等文件,具有强大的内容搜索和文件分析功能。PHPdig和传统搜索引擎一样,包括以下三个基本技术:1。蜘蛛技术;2.Web结构化信息抽取技术或元数据收集技术;3.分词和索引技术不同于传统的搜索引擎。PHPdig适用于专业化程度更强、层次更深的个性化搜索引擎,是构建某一领域垂直搜索引擎的最佳选择。二、这个PHPdig怎么弄?PHPdig为免费产品(需要版权),最新版本为phpdig-1.8.9。为了避免Apache和MYSQL之间的兼容性问题,建议采用较低的版本,其网址为http://www.phpdig.net,下载地址为http://www.phpdig.net/navigation.php? Action=download解释一下,我尝试过phpdig-1.8.9,但是问题很多,使用PHPdig-1.8.8问题会少一些。三、具体步骤1。获取产品访问http://www.phpdig.net/navigation.php?行动=下载下载PHPdig-1.8.8到桌面,解压到Apache服务器的html目录。一般路径是D:\usr\www\html\。(如果没有安装Apache服务器,请提前安装。建议使用Mappm-Server v1.1.9 Final,Mappm-Server安装方式比较糊弄,简单方便。2.运行并配置PHPdig数据库,打开浏览器输入http://localhost/phpdig/并按回车键。该页面列出了PHPdig的所有文件和包含的文件夹。搜索后发现没有默认的首页文件(默认,索引)。如果您单击search.php文件,您将收到一条错误消息:无法连接到数据库3360。请检查连接脚本。提示无法完成数据库连接。本来我们还没有完成PHPdig的数据库配置。回到管理目录找到install.php文件,然后单击运行。初看全英文界面(解释一下,目前所有版本的PHPdig都不支持中文界面)无所谓。如果你有中文经验,你可以自己用中文。这是我自己的中文cn-language.php文档的下载(请复制到本地目录)。此外,您需要在includes目录中修改config.php文件(语言修改)和style.css文件(字体修改和样式修改)。进入install.php后,系统要求我们输入PHPdig管理的用户名和密码,默认为admin。进入后,出现如下界面(本地化后):

(图1)需要提供的信息如下:如果是本地测试,请输入默认服务器名localhost(localhost是Mappm-Server下的默认服务器名,也就是mysql的默认服务器名,Mappm-Server是用mysql数据库构建的)。默认情况下,数据库服务器端口为3126,可以留空。默认情况下,数据库的sock协议为空,用户名为root(默认用户名root(Mappm-Server),密码为您在安装Mappm-Server时输入的用户密码,phpdig数据库名称默认为PHPdig,可以随意修改。同时,您可以在数据库中为数据表添加前缀,默认情况下它是空的。如果您想上传到连接到互联网的网络服务器,请向服务器提供商询问mysql服务器的名称或IP地址、数据库服务器端口、sock协议、用户名、密码等。数据库名称和数据表前缀的设置同上。至于右边的四个单选按钮,可以第一次使用(安装),选择默认的“创建数据库”确认以上信息正确,然后点击安装按钮。如果数据库连接不成功,系统将提示您错误消息“无法连接到数据库”。如果数据库连接成功,将直接跳转到如下图所示的管理页面:

(图2) 3。界面区介绍区1为文本输入区,默认文本有三行,均以http开头。一看就知道要在这里输入想要蜘蛛的网站的网址(建议一次只能有一个蜘蛛的网站)。区域2是蜘蛛选项,搜索深度指的是蜘蛛到这个网站的几级目录,每页的链接数指的是为一个网页抓取的以下链接网页的最大数量。默认都是0,表示这个站点的蜘蛛。3.该区域显示数据库的状态信息,包括已被蜘蛛的网站、关键词、索引以及被蜘蛛的网站信息等。区域4是一个下拉列表框,列出了蜘蛛网站的网址。选择其中一个站点,您可以在区域5中清除并更新它。区域5不仅为区域4中的选定站点提供清除和更新操作,还提供相关的统计信息输入和蜘蛛控制。4.针对特定站点运行spider。如果你对天机软件频道的内容感兴趣,可以做一个比谷歌更专业的搜索引擎来搜索天机软件的内容。你的搜索引擎会比谷歌更全面更深入。我们以蜘蛛天机软件频道的内容为例,介绍一下蜘蛛作为网站的使用方法。1)在图2的区域1中输入http://soft.yesky.com,搜索深度和每页的链接数默认保持为0。2)点击蜘蛛按钮,页面跳转到蜘蛛信息页面,程序开始自动蜘蛛网站http://soft.yesky.com的内容。注意:蜘蛛网站的进程很慢。如果网站包含的内容太多,这个过程可能会持续几个小时到一天,但您不必担心脚本运行超时,因为系统的超时时间设置为最多48小时。在此过程中,您还可以中断蜘蛛程序,并重新启动蜘蛛程序尚未完成运行的网站。需要注意的是,如果在这个过程中不小心关闭了spider运行页面,但实际上系统并没有停止spider,它仍然在消耗系统资源。您可以重新打开蜘蛛页面并单击停止蜘蛛链接来释放系统资源。

(图3) 5。经过PHPdig一段时间的搜索,spider程序的结果是将http://soft.yesky.com网站上的信息抓取到服务器数据库中,主要是对方内容的标题信息、关键词信息和页面地址信息。这时,你可以通过访问search.php进行搜索。

(图4)可以选择显示的搜索结果数量,模糊搜索或精确搜索,可以选择搜索某个网站。默认情况下,搜索所有已被蜘蛛的网站。

(图5)上图为“QQ2006”的搜索结果页面。6.存在的问题由于PHPdig的语言设置问题、系统的分词问题以及MYSQL数据库的字符处理问题,PHPdig的中文词汇搜索还存在很多不确定因素,需要进一步解决和改进。欢迎对此感兴趣的朋友访问网页上的Taoba -PHPdig主题社区进行讨论。

版权声明:创建自己的谷歌[用PHPdig[图形教程]是由宝哥软件园云端程序自动收集整理而来。如果本文侵犯了你的权益,请联系本站底部QQ或者邮箱删除。