基于PHP的简单数据采集和存储程序[续]
在上一篇文章中,我们已经收集了新闻信息页面的列表数据,接下来的操作是从数据库中读取要收集的URL并对页面进行爬网
创建新的内容表
但需要注意的是,不能再用增加id的方法来收集URL,因为数据表中可能存在间歇性的id,比如id=9、id=11。收集id=10时,URL为空,这可能会导致收集空字段。
这里使用的技术之一是数据库的查询语句。当我们收集第一批数据时,我们判断数据库中是否有大于这个id的id号。如果是,读一个,查询信息,重复以上工作。
具体代码如下:
?PHP include _ once(' conn . PHP ');$ id=(int)$ _ GET[' id '];$sql='从列表中选择*,其中id=$ id ';$ result=MySQL _ query($ SQL);$ row=MySQL _ fetch _ array($ result);//获取对应的url地址$ content=file _ get _ contents($ row[' URL ']);$pattern='/dd class=\'dataWrap\ '(。*)\/DD/iUs ';preg_match($pattern,$content,$ info);//获取内容存储信息回显$title=$row[1]。br/';echo $content=$info[0]。HR/';//插入数据库$ add=' insert in content(title,content)值(' $ title ',' $ content ')';MySQL _ query($ add);$sql2='从列表中选择*,其中id$id按id asc限制1排序';$ result 2=MySQL _ query($ SQL 2);$ row 2=MySQL _ fetch _ array($ result 2);//获取相应的url地址if($ row 2[' id ']){ echo ' script window . location=' content.php?id=$ row 2[0]'/script ';}?
这样,我们想要的新闻内容被收集起来并存储起来,然后我们只需要整理出数据的一些样式。
版权声明:基于PHP的简单数据采集和存储程序[续]是由宝哥软件园云端程序自动收集整理而来。如果本文侵犯了你的权益,请联系本站底部QQ或者邮箱删除。