php怎么爬取亚马逊的数据,php 抓取亚马逊中国产品数据-标题,价格,首图片
set_time_limit(0);
date_default_timezone_set("Asia/shanghai");
//自定义抓取图片地址
$url = 'http://www.amazon.cn/Apple-iPhone-5S-3G%E6%99%BA%E8%83%BD%E6%89%8B%E6%9C%BA/dp/B00FFVIPN8/ref=sr_1_1?ie=UTF8&qid=1395041969&sr=8-1&keywords=iphone5s';
$ip_arr = get_ips();
$ip = trim(get_rand_ip($ip_arr)); //随机ip
$content = get_content_by_url($url, $ip);
//获取标题
preg_match("/[\s]*[\s]*(.*?)[\s]*/i", $content, $match_title);
if(isset($match_title[1]) && $match_title[1]){
$title = $match_title[1];
echo '标题为:' . $title . '
';
}else{
echo '没有获取到标题,程序终止:';
exit;
}
//获取价格
preg_match("/¥[\s]*(.*?)/i", $content, $match_price);
if(isset($match_title[1]) && $match_price[1]){
$price = $match_price[1];
echo '价格为:' . $price . '
';
}else{
echo '没有获取到价格,程序终止:';
}
//获取图片
preg_match("/
if(isset($match_img[1]) && $match_img[1]){
$img_url = $match_img[1];
echo '图片地址为:' . $img_url . '
';
echo "";
}else{
echo '没有获取图片地址,程序终止:';
exit;
}
function get_rand_ip($ip_arr){
if(empty($ip_arr)){
return false;
}
$ip_count = count($ip_arr);
$rand_num = rand(0, $ip_count-1);
return trim($ip_arr[$rand_num]);
}
function get_ips(){
$fp = fopen('ip.txt', 'r+');
$ip_arr = array();
while($line=fgets($fp)){
array_push($ip_arr, $line);
}
fclose($fp);
return $ip_arr;
}
function get_content_by_url($url, $ip = '127.0.0.1'){
if(empty($url)){
return;
}
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL,$url);
curl_setopt($ch, CURLOPT_USERAGENT,'Mozilla/5.0 (compatible; MSIE 6.0; Windows NT 5.0)');
curl_setopt ($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION,1);
if(!empty($ip)){
curl_setopt($ch, CURLOPT_HTTPHEADER, array('X-FORWARDED-FOR:' . $ip, 'CLIENT-IP:' . $ip)); //构造IP
}
$content = curl_exec($ch);
return $content;
}
抱歉,没找到上传附件的地方,ip.txt没上传。您可以百度下,有很多ip库,下载一个就能用,一行一个ip
php怎么爬取亚马逊的数据,php 抓取亚马逊中国产品数据-标题,价格,首图片相关推荐
- 利用新浪API实现数据的抓取\微博数据爬取\微博爬虫
PS:(本人长期出售超大量微博数据.旅游网站评论数据,并提供各种指定数据爬取服务,Message to YuboonaZhang@Yahoo.com.由于微博接口更新后限制增大,这个代码已经不能用来爬 ...
- 利用新浪API实现数据的抓取\微博数据爬取\微博爬虫 1
PS:(本人长期出售超大量微博数据.旅游网站评论数据,并提供各种指定数据爬取服务,Message to YuboonaZhang@Yahoo.com.由于微博接口更新后限制增大,这个代码已经不能用来爬 ...
- webscraper多页爬取_Web Scraper 高级用法——Web Scraper 抓取多条内容 | 简易数据分析 07...
这是简易数据分析系列的第 7 篇文章. 在第 4 篇文章里,我讲解了如何抓取单个网页里的单类信息: 在第 5 篇文章里,我讲解了如何抓取多个网页里的单类信息: 今天我们要讲的是,如何抓取多个网页里的多 ...
- webscraper 爬取二级网页_Web Scraper 高级用法——抓取二级网面 | 简易数据分析 13...
这是简易数据分析系列的第 13 篇文章. 在前面的课程里,我们抓取的数据都是在同一个层级下的内容,探讨的问题主要是如何应对市面上的各种分页类型,但对于详情页内容数据如何抓取,却一直没有介绍. 比如说我 ...
- ajax获取网页新闻,基于Ajax的新闻网页动态数据的抓取方法及系统
主权项: 1.基于Ajax的新闻网页动态数据的抓取方法,其特征是,包括如下步骤:步骤(101):建立新闻网页爬取内容数据库,设置新闻网页爬取内容数据库的编码方式:获得待抓取新闻网页的新闻列表页面的UR ...
- java股票数据_java抓取东方财富股票数据(附源码)
背景 前段时间给朋友写了一个自动抓取同花顺股票数据的程序,不少人觉得不错. 这几天后台有粉丝给我留言让我也抓一下东方财富的数据,说东方财富的数据特别难抓,我还真不一定能搞得定. 本来我是一个德艺双磬且 ...
- 商品详情页数据怎么抓取
1. 选择合适的爬虫框架:例如Python中的Scrapy框架.Java中的Jsoup框架等.选择一个适合自己的框架,有助于提高爬虫的效率和可维护性. 2. 确定目标网站:选择需要抓取数据的目标网站, ...
- 美国服务器百度抓取耗时不稳定,百度或者其他搜索引擎抓取频次快慢的因素,还会受什么有影响?...
什么是搜索引擎的抓取频次? 抓取频次是搜索引擎在单位时间内(天级)对网站服务器抓取的总次数. 对于百度搜索引擎来说非常智能: 如果百度搜索引擎对站点的抓取频次过高,就很有可能造成服务器不稳定(相对而言 ...
- C# 开发的网络数据包抓取的的实现
利用C# 开发的网络数据包抓取的的实现 利用套接字Socket socket=new Socket(AddressFamily.InterNetwork, SocketType.Raw, Proto ...
- PythonStock(37)股票系统:Python股票系统发布V2.0版本,改个名字吧,叫Python全栈股票系统2.0,可以实现数据的抓取(akshare),统计分析,数据报表展示。
目录 前言 1,关于Python全栈股票系统V2.0 2,在CSDN上居然有人给代码打包收费下载!! 2,更新docker镜像 3,总结 前言 使用Python开发一个web股票项目. [github ...
最新文章
- 分隔符怎么打出来_男孩地铁上打奶奶,踹爷爷:熊孩子都是怎么培养出来的?...
- SQL Server-创建表格、各种约束条件
- css 样式使用方法的累积
- ASP.NET 2.0 解决了 Code-Behind 需要控件声明同步的问题
- 华思视频 CCNA 听而思
- 常用的lucene分词器-笔记
- 面试官问我:你们的数据库是怎么架构的?
- 《团队激励与沟通》第 7 讲——团队合作概述 重点部分总结
- 《『若水新闻』客户端开发教程》——14.代码编写(6)
- 全球最快!湖南大学天河超算存储系统!
- 基于RV1126平台imx291分析 --- imx291注册
- stm32f103c6t6制作音乐频谱分析仪
- 人工智能如何可以思考?
- Succinimidyl Carboxymethyl Ester-PEG-Mal,Mal-poly(ethylene glycol)-SCM
- 顶级赛事|2021 CCF大数据与计算智能大赛重磅来袭!
- EventBus使用与分析
- 2002 年 Google被封事件真相
- 音乐与动漫及游戏的关系--游戏动漫音乐音效制作 分贝块
- 用STM32CubeMX配置输出PWM信号控制多路舵机(HAL)
- windows exploere.exe 已停止工作
热门文章
- Greenplum Python专用库gppylib学习——GpArray
- 实验五 大学数据库系统中,使用游标编写存储过程,输入学号查询成绩
- I - 后缀数组二·重复旋律2 HihoCoder - 1407
- 网络综合布线系统的概述
- 微信 php 类,微信接口封装类(PHP)
- org.eclipse.wst.validation has been removed
- myCobot pro 机械臂(5)Robotics Toolbox for MATLA(开发环境:matlab)
- Sublime Text 3—Project(项目管理)
- sigmoid函数的用途
- LeetCode 844 题解