抓取汽车之家新闻资讯做安卓app新闻资讯数据
//2016/09/16///
//by xbw///
抓取服务器端php源码
<?PHP
set_time_limit(0);
require("db_config.php");
$conn=mysql_connect($mysql_server_name,$mysql_username,$mysql_password) or die("error connecting") ;
mysql_query("set names 'gb2312'");
mysql_select_db($mysql_database);
$page=60;
while($page>0){$str = file_get_contents('http://www.autohome.com.cn/all/'.$page.'/#liststart');$isMatched = preg_match_all('/<a href="(?<grp0>[^"]+)">[\s]+<div cl[^<]+pic"><img src="(?<grp1>[^"]+)"><\/div>[^<]*<h3>(?<grp2>[^<]+)<\/h3>[\S\s]+?<p>(?<grp3>[^<]+)<\/p>/', $str, $matches);if($isMatched!=0){for($i=0;$i<$isMatched;$i++){$xu=array();for($j=1;$j<=4;$j++){$xu[$j]=$matches[$j][$i];}$rowz=mysql_fetch_row(mysql_query("SELECT count(id) FROM news WHERE url='$xu[1]'"));echo $rowz[0]."--------------";if($rowz[0]==0){$result = "INSERT INTO newsa(title,content,url,pic,time) VALUES('$xu[3]','$xu[4]','$xu[1]','$xu[2]',NOW())";mysql_query($result);echo '该数据抓取成功'."<BR>";}else{echo '该数据已存在'."<BR>";}}}$page--;
}
?>
存储到数据库里
我已经抓了10万条数据了。。。。。。
汽车之家真心不错。。。。。。。。
需要数据的可以留下邮箱
抓取汽车之家新闻资讯做安卓app新闻资讯数据相关推荐
- Python进阶之Scrapy利用ImagesPipeline抓取汽车之家宝马5系缩略图
Python进阶之Scrapy利用ImagesPipeline抓取汽车之家宝马5系缩略图 1. 创建项目 2. 使用ImagesPipeline爬取数据 items.py setings.py aut ...
- java 开发用到网络爬虫,抓取汽车之家网站全部数据经历
经历了两个礼拜的折腾,某某知名网站的数据终于到手了.犯罪没被发现这种心情感觉很爽. 说一下我的犯罪经历,之前公司总是抓取某某网站数据,可能是被发现了.某某网站改变了策略.通过各种技术终止了我们的行为, ...
- fiddler抓取夜神模拟中 微信小程序和app的https数据包
1.下载并安装fiddler 2. 配置fiddler 3.手机端设置 3.1 设置wifi网段 3.2 安装证书 3.3 设置证书为信任证书 4. 查看抓包 1.下载并安装fiddler 下载地址 ...
- python爬虫(二十四)爬取汽车之家某品牌图片
爬取汽车之家某品牌图片 需求 爬取汽车之家某品牌的汽车图片 目标url https://car.autohome.com.cn/photolist/series/52880/6957393.html# ...
- 使用scrapy框架爬取汽车之家的图片(高清)
使用scrapy框架爬取汽车之家的图片(高清) 不同于上一篇的地方是,这篇要爬取的是高清图片,而不仅仅是缩略图. 先来看一下要爬取的页面:https://car.autohome.com.cn/pic ...
- python3 爬取汽车之家所有车型数据操作步骤(更新版)
题记: 互联网上关于使用python3去爬取汽车之家的汽车数据(主要是汽车基本参数,配置参数,颜色参数,内饰参数)的教程已经非常多了,但大体的方案分两种: 1.解析出汽车之家某个车型的网页,然后正则表 ...
- WebMagic爬虫入门教程(三)爬取汽车之家的实例-品牌车系车型结构等
本文使用WebMagic爬取汽车之家的品牌车系车型结构价格能源产地国别等:java代码 备注,只是根据url变化爬取的,没有使用爬取script页面具体的数据,也有反爬机制,知识简单爬取html标签 ...
- PYTHON爬取汽车之家数据
PYTHON爬取汽车之家数据 使用知识 使用BeautifulSoup模块 使用正则表达式 使用到多线程爬取 使用说明 使用前请安装BeauifulSoup 起始页面: https://www.aut ...
- python3实例车代码_python3 爬取汽车之家所有车型数据操作步骤(更新版)
题记: 互联网上关于使用python3去爬取汽车之家的汽车数据(主要是汽车基本参数,配置参数,颜色参数,内饰参数)的教程已经非常多了,但大体的方案分两种: 1.解析出汽车之家某个车型的网页,然后正则表 ...
最新文章
- Word中项目符号和编号用法详解
- 小米Max怎么刷入开发版获得root超级权限
- opencl fft实例整理
- 一个操作系统的实现(1):分析linux下如何运行一个执行文件
- C++之vector容器初学(二)——插入和删除
- 国内外知名工业交换机品牌有哪些?
- 【转】为什么博士叫PhD?
- JavaScript-变量的作用域 、const、let
- 使用程序简单查询IP地址
- 虚拟化: 物理CPU与VCPU的关系 || 内存上限说起 VMware内存分配初探
- EMD、EEMD模态混叠、端点效应及改进研究(转)
- 初识C语言——C语言基础知识
- 物联网常用无线模块 接收灵敏度及发射功率简化测量方法
- 算法分析与设计-----前缀和 差分
- CCF推荐会议(人工智能与模式识别)
- HDU-4826(DP动态)
- Hadoop是什么,Hadoop主要有哪几部分组成?
- 【JavaSE】接口
- 电信重组:移动圈地联通抢山头 电信干等
- Elasticsearch-ais使用方式