基于PHP的简单数据采集和仓储程序
说到收集,无非是远程获取信息——提取所需内容——分类存储——阅读——展示
这也是一个简单的“小偷程序”的增强版本
以下是对应的核心代码(不要用它做坏事_)
需要收集的内容是游戏网站上的公告,如下图所示:
使用file_get_contents和简单正则化可以获得基本的页面信息
整理基本信息,收集并入库:
?PHP include _ once(' conn . PHP ');if($ _ GET[' id ']=8 $ _ GET[' id ']){ $ id=$ _ GET[' id '];$ conn=file _ get _ contents(' http://www . 93 moli.com/news _ list _ 4 _ $ id . html ');//获取页面内容$ pattern='/lia title=\ '(。*)\ ' target=\ ' _ blank ' href=\ '(。*)\ '/ius ';//常规preg _ match _ all ($ pattern,$ conn,$ arr);//将内容匹配到arr array//print _ r($ arr);死去;Foreach ($ arr [1]作为$ key=$ value){//二维数组[2]对应的id与[1]完全相同,所以使用key $ URL=' http://www.93moli.com/'.$ arr[2][$ key];$sql='插入列表(标题,url)值(' $value ',' $ URL ')';MySQL _ query($ SQL);//echo 'a href='content.php?URL=http://www . 93 moli.com/$ URL ' $ value/a '。br/';} $ id“回声”正在收集网址数据列表$id.请稍候.echo ' script window . location=' list . PHP?id=$ id '/script ';}else{ echo '数据采集结束。}?Conn.php是一个数据库连接文件
List.php在这一页
由于要采集的数据是以页面显示的,页面地址是有规律的递增的,所以我使用js跳转代码,通过id传输值来控制采集的页面数量,避免过多的for循环。
轻松地将数据存储起来,下一篇文章将写从特定网址收集信息的过程。
版权声明:基于PHP的简单数据采集和仓储程序是由宝哥软件园云端程序自动收集整理而来。如果本文侵犯了你的权益,请联系本站底部QQ或者邮箱删除。