基于PHP的简单数据采集和存储程序[续]

时间：2021-09-10 来源：互联网编辑：宝哥软件园浏览：次

在上一篇文章中，我们已经收集了新闻信息页面的列表数据，接下来的操作是从数据库中读取要收集的URL并对页面进行爬网

创建新的内容表

但需要注意的是，不能再用增加id的方法来收集URL，因为数据表中可能存在间歇性的id，比如id=9、id=11。收集id=10时，URL为空，这可能会导致收集空字段。

这里使用的技术之一是数据库的查询语句。当我们收集第一批数据时，我们判断数据库中是否有大于这个id的id号。如果是，读一个，查询信息，重复以上工作。

具体代码如下：

？PHP include _ once(' conn . PHP ')；$ id=(int)$ _ GET[' id ']；$sql='从列表中选择*，其中id=$ id '；$ result=MySQL _ query($ SQL)；$ row=MySQL _ fetch _ array($ result)；//获取对应的url地址$ content=file _ get _ contents($ row[' URL '])；$pattern='/dd class=\'dataWrap\ '(。*)\/DD/iUs '；preg_match($pattern，$content，$ info)；//获取内容存储信息回显$title=$row[1]。br/'；echo $content=$info[0]。HR/'；//插入数据库$ add=' insert in content(title，content)值(' $ title '，' $ content ')'；MySQL _ query($ add)；$sql2='从列表中选择*，其中id$id按id asc限制1排序'；$ result 2=MySQL _ query($ SQL 2)；$ row 2=MySQL _ fetch _ array($ result 2)；//获取相应的url地址if($ row 2[' id ']){ echo ' script window . location=' content.php？id=$ row 2[0]'/script '；}?

这样，我们想要的新闻内容被收集起来并存储起来，然后我们只需要整理出数据的一些样式。

基于PHP的简单数据采集和存储程序[续]

新天龙八部

热门手游排行榜