在上篇 基于PHP采集数据入库程序(一) 中提到采集新闻信息页的列表数据,接下来讲讲关于采集新闻具体内容

这是上篇博客的最终数据表截图:

接下来要做的操作就是从数据库中读取所需要采集的URL,进行页面抓取就行

新建一个content表

不过需要注意的一点是,不能再采用采集URL这种id递增的方法去采集,因为数据表中可能出现id断续,比如id=9,id=11,当采集到id=10的时候,URL是空白的,这样可能会导致采集到了空字段。

这里用到的一个技巧是数据库的查询语句,在我们采集完第一条数据的时候,判断数据库里是否还有大于此id的id编号,若有,读取一条,查询信息重复上面的工作。

具体代码如下:

<?phpinclude_once("conn.php");$id=(int)$_GET['id'];$sql="select * from list where id=$id";$result=mysql_query($sql);$row=mysql_fetch_array($result);//取得对应的url地址$content=file_get_contents($row['url']);$pattern="/<dd class=\"dataWrap\">(.*)<\/dd>/iUs";preg_match($pattern, $content,$info);//获取内容存放infoecho $title=$row[1]."<br/>";echo $content=$info[0]."<hr/>";//插入数据库$add="insert into content(title,content) value('$title','$content')";mysql_query($add);$sql2="select * from list where id>$id order by id asc limit 1";$result2=mysql_query($sql2);$row2=mysql_fetch_array($result2);//取得对应的url地址if($row2['id']){echo "<script>window.location='content.php?id=$row2[0]'</script>";}?>

这样子我们所要的新闻内容就采集入库了,接下来只需要对数据的一些样式进行整理就行了。

基于PHP采集数据入库程序(二)相关推荐

  1. php采到的数据自动修改入库,基于PHP的简单采集数据入库程序【续篇】_php实例...

    在上篇文章中,我们已经采集新闻信息页的列表数据,接下来要做的操作就是从数据库中读取所需要采集的URL,进行页面抓取就行 新建一个content表 不过需要注意的一点是,不能再采用采集URL这种id递增 ...

  2. 基于RStudio 实现数据可视化之二

    1.数据预览 注:(数据来源于国家统计局) 2.轮廓图 > par(mai=c(0.7,0.7,0.1,0.1),cex=0.8) > matplot(t(income[,2:9]),ty ...

  3. (五)自制数据同步程序 二次开发(模块化)打包发布说明

    开发过程参考第四篇文章 开发完成后 点击maven install 打包成功如图 打包之后找到 你代码所在的jar文件 创建一个目录 如:data-test将jar包拷贝到里面 如果有第三方包放到li ...

  4. 2020FME博客大赛——基于FME的天地图·浙江融合数据质检程序的设计与应用

    作者:闻达 单位:浙江省测绘科学技术研究院 摘 要:基于FME技术,根据天地图·浙江融合设计要求,并结合天地图日常运维工作,建立一套严格的质检规则,用于检查天地图数据是否符合标准.对数据进行逻辑一致性 ...

  5. Iceberg 在基于 Flink 的流式数据入库场景中的应用

    本文以流式数据入库的场景为基础,介绍引入 Iceberg 作为落地格式和嵌入 Flink sink 的收益,并分析了当前可实现的框架及要点. 应用场景 流式数据入库,是大数据和数据湖的典型应用场景.上 ...

  6. 基于单片机超声波视力保护系统设计-基于51单片机8音键电子琴仿真设计-基于8086八路模拟信号采集均值显示系统设计-基于8086八路数据电压温度采集系统-基于8086波形发生器仿真设计【毕设课设分享】

    539基于单片机超声波视力保护系统设计-设计资料 硬件构成:单片机+最小系统+LCD1602液晶显示模块+超声波模块+DS18B20温度采集模块+光线检测模块+ADC0832模块+蜂鸣器模块+LED指 ...

  7. 基于单片机波形发生器PCB原理图报告设计资料-基于单片机比赛计时计分电路仿真设计-基于单片机报警器与旋转灯设计-基于单片机八路数据电压采集报警控制系统-基于单片机病房呼叫系统控制系统设计【毕设课设资】

    1302基于单片机波形发生器PCB原理图报告设计资料-毕设课设原理图程序资料 设计一个信号发生器,能在单片机的基础上控制并产生三角波.方波.正弦波和矩形波,且频率幅度和波形可以通过按键改变. #inc ...

  8. php出入库单生成源码,php 网页采集入库程序代码

    网页采集现在用到最多是工具了,像最受站长欢迎的就是火车头了,但有一些站长喜欢使用网页来自定义采集了,下面一起来看一个php 网页采集入库程序代码 php 网页采集程序总结,最近帮朋友做了个采集程序 以 ...

  9. 使用MapReduce程序完成相关数据预处理(二)

    使用MapReduce程序完成相关数据预处理(二) 数据大概有2万条左右所以部分截取 (格式为csv) 1月20日,北京,大兴区,2,0,0,北京市大兴区卫健委,https://m.weibo.cn/ ...

最新文章

  1. 设计模式学习笔记十五——Command模式
  2. springboot之@ConfigurationProperties加载配置文件
  3. Windows Server 2008 R2 如何显示被隐藏的文件扩展名
  4. 正则表达式基本语法详解
  5. wdtree简介、使用
  6. operator-sdk实战开发K8S CRD自定义资源对象
  7. linux使用ntp时间同步
  8. 必须收藏:20个开发技巧教你开发高性能计算代码
  9. Java Web之会话管理二:Session
  10. core控制器属性注入的用处_asp.net-core – 如何使用Autofac和ASP.NET Core在控制器上启用属性注入?...
  11. (转)两大量化交易巨头“抱团取暖”:Virtu14亿美元收购骑士资本
  12. Java 问答:终极父类(第一部分)
  13. 【Java】JavaSocket编程开发聊天室-服务器端部分
  14. Android 交互动画的统一实践
  15. 根据日期、时间和当地经纬度计算太阳天顶角和方位角的原理
  16. 怎么才算是高级点灯工程师?
  17. Python Socket 网络通信详解
  18. 港交所拟修改科技公司上市规则;日本打造出世界首款可载人机器人;芯片巨头花费610亿美元收购云计算产业 | 每日大事件...
  19. python进阶练习题:馏分类【难度:2级】--景越Python编程实例训练营,不同难度Python习题,适合自学Python的新手进阶
  20. linux 查看目录挂载的ip,基于IP-SAN的存储Linux挂载

热门文章

  1. WPF中路由事件的传播
  2. Python魔法方法(magic method)细解几个常用魔法方法(下)
  3. PHP操作MongoDB学习笔记
  4. string replaceAll
  5. 基本操作:Go创建GraphQL API
  6. AJAX简单使用介绍
  7. 依次从数组a中取出一个四位数,如果该四位数连续大于该四位数以后的5个数,且该数是奇数,则把这个四位数按从小到大的顺序存入数组b中,并计算满足上述条件的四位数的个数cnt。
  8. Arrays.asList()的坑
  9. spark的ContextCleaner清理
  10. spring cloud的RefreshScope注解进行热部署