[PHP]代码<?php

class Fork36kr

{

private $start;

private $end;

private $number = 0;

private $dsn;

private $user;

private $password;

private $pdo;

/**

* @param int $start 采集起点文章id

* @param int $end 采集终点文章id

* @param string $dsn PDO数据源

* @param string $user 数据库用户名

* @param string $password 数据库密码

*/

public function __construct($start=200100, $end=206670,$dsn='',$user='',$password='')

{

$this->start = $start;

$this->end = $end;

$this->dsn = $dsn;

$this->user = $user;

$this->password = $password;

if($dsn)

{

$this->pdo = new PDO($this->dsn,$this->user,$this->password);

}

}

public function fork()

{

$ch = curl_init();

curl_setopt($ch, CURLOPT_HEADER, 0);

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

echo "<<<<< OK. Start Fork 36kr >>>>>\n";

for($i=$this->start;$i<=$this->end;$i++)

{

$url = "http://www.36kr.com/p/".$i.".html";

curl_setopt($ch, CURLOPT_URL, $url);

$page = curl_exec($ch);

if(curl_getinfo($ch)['http_code']==200)

{

$t = preg_match('#

.*

#', $page, $title);

$c = preg_match('#

.*

#Us', $page, $content);

if($t&&$c)

{

$title = strip_tags($title[0]);

$content = strip_tags($content[0]);

//$content = strip_tags($content[0],'

'); //保留

echo $url.','.$title."\n";

$this->number++;

}

if($this->dsn)

{

$this->save($title,$content,$url);

}

}

}

echo '<<<< Fork Over! Total: '.$this->number.' >>>>';

}

private function save($title,$content,$url)

{

$sql = "INSERT INTO `36kr` (`id`,`title`,`content`,`url`) VALUES (null,:title,:content,:url)";

$stmt = $this->pdo->prepare($sql);

$stmt->bindParam(':title',$title);

$stmt->bindParam(':content',$content);

$stmt->bindParam(':url',$url);

$stmt->execute();

}

}

$dsn = 'mysql:host=localhost;dbname=test';

$user = 'root';

$password= 'root';

$kr = new Fork36kr(200100,206670,$dsn,$user,$password);

$kr->fork();

[文件]phpcn.sql-- phpMyAdmin SQL Dump

-- version 4.0.5

-- http://www.php.cn/

--

-- 主机: localhost

-- 生成日期: 2013 �?10 �?03 �?00:36

-- 服务器版本: 5.6.12-log

-- PHP 版本: 5.5.3

SET SQL_MODE = "NO_AUTO_VALUE_ON_ZERO";

SET time_zone = "+00:00";

/*!40101 SET @OLD_CHARACTER_SET_CLIENT=@@CHARACTER_SET_CLIENT */;

/*!40101 SET @OLD_CHARACTER_SET_RESULTS=@@CHARACTER_SET_RESULTS */;

/*!40101 SET @OLD_COLLATION_CONNECTION=@@COLLATION_CONNECTION */;

/*!40101 SET NAMES utf8 */;

--

-- 数据库: `test`

--

-- --------------------------------------------------------

--

-- 表的结构 `36kr`

--

CREATE TABLE IF NOT EXISTS `36kr` (

`id` int(11) NOT NULL AUTO_INCREMENT,

`title` varchar(128) NOT NULL,

`content` text NOT NULL,

`url` varchar(128) NOT NULL,

PRIMARY KEY (`id`)

) ENGINE=InnoDB DEFAULT CHARSET=utf8 AUTO_INCREMENT=1 ;

/*!40101 SET CHARACTER_SET_CLIENT=@OLD_CHARACTER_SET_CLIENT */;

/*!40101 SET CHARACTER_SET_RESULTS=@OLD_CHARACTER_SET_RESULTS */;

/*!40101 SET COLLATION_CONNECTION=@OLD_COLLATION_CONNECTION */;

相关标签:php

本文原创发布php中文网,转载请注明出处,感谢您的尊重!

php采集新闻数据插入数据库,PHP采集www.php.cn的文章,并存入数据库。相关推荐

  1. api可以主动采集用户数据吗_自动采集数据

    自动采集数据,三个方式: agent 方式: agent:就是一个客户端,在客户端上放置采集程序,agent采集完数据后就直接返回给api程序(目前就是django的一个程序) agent程序: #! ...

  2. python读取数据库绘图_获取博客积分排名,存入数据库,读取数据进行绘图(python,selenium,matplotlib)...

    该脚本的目的:获取博客的排名和积分,将抓取时间,排名,积分存入数据库,然后把最近的积分和排名信息进行绘图,查看积分或者排名的变化情况. 整个脚本的流程:是利用python3来编写,利用selnium获 ...

  3. nagios存入 mysql数据说明与提取_4.使用NDOUtils将Nagios监控信息存入数据库

    使用NDOUtils将Nagios监控信息存入数据库 1.NDOUtils安装需求: Nagios正确安装运行,版本>=2.0安装目录:/usr/local/nagios MySQL正确安装并运 ...

  4. 小程序获取用户信息 php发送数据库,qq小程序如何获取用户信息并存入数据库实例...

    今天给大家带来qq小程序如何获取用户信息并存入数据库的实例,希望能够帮助到大家,让大家不仅知道如何下载qq小程序源码,还能懂得去何用,如何去改,甚至是如何去创造,如果你有好的qq小程序源码出售,可以联 ...

  5. 每日10行代码31:爬取人民日报一日的所有文章并存入数据库

    今天又增加了存入数据库的功能,至此,爬取人民日报的项目已经结束,下一步我将跟另一篇文章的博主比较下代码,从他那学一些有用的东西. import requests import re from bs4 ...

  6. java 采集新闻数据

    package org.test; import java.io.BufferedReader; import java.io.IOException; import java.io.InputStr ...

  7. Django项目:CMDB(服务器硬件资产自动采集系统)--11--07CMDB文件模式测试采集硬件数据...

    1 #settings.py 2 # --------01CMDB获取服务器基本信息-------- 3 import os 4 5 BASEDIR = os.path.dirname(os.path ...

  8. V4L2采集视频数据

    Video for Linux two(Video4Linux2)简称V4L2,是V4L的改进版.V4L2是linux操作系统下用于采集图片.视频和音频数据的API接口,配合适当的视频采集设备和相应的 ...

  9. Python爬取网站数据并存入数据库(简单易懂)

    hello 大家好,最近写代码,需要用到爬虫去爬取数据,废话不多说,进入主题 既然要存入数据库,那必然需要进行数据库连接,通过Python里面的pymysql驱动去链接我们的mysql数据库,然后建立 ...

最新文章

  1. python视图函数是什么_python之视图函数(views.py)
  2. 计算机word一体化教案,【计算机应用基础】word教案.doc
  3. mysql操作json优点和缺点_SQL-mysql操作json
  4. Node.js入门以及第一个helloworld程序.
  5. dis的前缀单词有哪些_英语单词II词根词缀记忆法:必背英语前缀DIS (DI, DIF)
  6. [机器学习]-K近邻-最简单的入门实战例子
  7. phonegap走起
  8. 论文阅读笔记(十四)——基于大比例圈养大熊猫图像的大熊猫识别研究
  9. Spring框架 @ResponseBody注解 编码问题: 论设置 Accept 的重要性
  10. PPP开源软件GMAP测试记录及原始数据比较
  11. 在Mac下,快速搭建针对WP8应用的PhoneGap开发环境
  12. 代码审计——你是如何发现那些有缺陷的代码的
  13. java制作名片applet程序_【小程序 提取码:krua】壹佰智能名片小程序版本V1.1.45 – 持续更新 无后门...
  14. Adobe系列軟件PC + MAC 2021
  15. 市场规模一年猛增24% 这个靠“打印”出来的市场正在韩国崛起
  16. 排列组合C几几怎么算
  17. 聚焦道路交通安全,《自动驾驶汽车交通安全白皮书》正式发布
  18. 跟卖亚马逊跨境电子商务ERP
  19. UML图之类图,对象图和包图
  20. linux命令行怎么播放,在linux命令行里能听歌看电影吗

热门文章

  1. 本周最新文献速递20211010
  2. doGet或doPost请求
  3. Google Seo基础之泛页面
  4. 最最最 具体的前端面试题(大全)
  5. 虚拟机服务器经典应用配置方案(一)
  6. 错误集:smbclient访问Windows共享文件夹报错误:protocol negotiation failed: NT_STATUS_CONNECTION_RESET
  7. springboot使用actuator
  8. 构型空间(Configuration Space)(下)
  9. undefined reference to ‘cv::imread问题调查
  10. 怎样获取淘宝/天猫商品评论API数据