代码如下:

from creepy import Crawler

from BeautifulSoup import BeautifulSoup

import urllib2

import json

class MyCrawler(Crawler):

def process_document(self, doc):

if doc.status == 200:

print ‘[%d] %s’ % (doc.status, doc.url)

try:

soup = BeautifulSoup(doc.text.decode(‘gb18030’).encode(‘utf-8’))

except Exception as e:

print e

soup = BeautifulSoup(doc.text)

print soup.find(id=”product-intro”).div.h1.text

url_id=urllib2.unquote(doc.url).decode(‘utf8’).split(‘/’)[-1].split(‘.’)[0]

f = urllib2.urlopen(‘http://p.3.cn/prices/get?skuid=J_’+url_id,timeout=5)

price=json.loads(f.read())

f.close()

print price[0][‘p’]

else:

pass

crawler = MyCrawler()

crawler.set_follow_mode(Crawler.F_SAME_HOST)

crawler.set_concurrency_level(16)

crawler.add_url_filter(‘\.(jpg|jpeg|gif|png|js|css|swf)$’)

crawler.crawl(‘http://item.jd.com/982040.html’)

python爬取京东商品价格走势_python抓取京东价格分析京东商品价格走势相关推荐

  1. python爬知识星球付费数据_python抓取知识星球精选帖,制作为pdf文件

    版权声明:本文为xing_star原创文章,转载请注明出处! 背景: 这两年知识付费越来越热,我也加入了不少知识星球,总觉得信息有些过载了.一天不看,就有500+的内容显示未读,弄的自己格外的焦虑.感 ...

  2. python爬取京东手机参数_python抓取京东小米8手机配置信息

    本文代码是使用python抓取京东小米8手机的配置信息 首先找到小米8商品的链接:https://item.jd.com/7437788.html 然后找到其配置信息的标签,我们找到其配置信息的标签为 ...

  3. python批量下载网页文件夹_Python抓取网页批量下载文件方法初探(正则表达式+BeautifulSoup) (转)...

    最近两周都在学习Python抓取网页方法,任务是批量下载网站上的文件.对于一个刚刚入门python的人来说,在很多细节上都有需要注意的地方,以下就分享一下我在初学python过程中遇到的问题及解决方法 ...

  4. python 爬取财经新闻股票_python 抓取新浪财经股票数据

    新浪并未提供API,但我们可以通过抓包来获取实时或历史行情数据. 实时行情 比如我们可以通过浏览器访问: ?== 来获取证券代码为的实时行情数据,可以看到内容为: ="华泰证券,,,,20. ...

  5. python抓取股票竞价数据_Python 抓取新浪财经股票数据

    新浪并未提供 API,但我们可以通过抓包来获取实时或历史行情数据. 实时行情 比如我们可以通过浏览器访问: http://hq.sinajs.cn/?format=text&list=sh60 ...

  6. python百度贴吧 发帖时间_python抓取百度度贴吧

    我们打开一个百度贴吧的帖子然后查看源码 Paste_Image.png 首先我们先拿到帖子的标题,通过查看源码,我们发现,他的标题的html为: 纯原创我心中的NBA2014-2015赛季现役50大 ...

  7. Python之 - 使用Scrapy建立一个网站抓取器,网站爬取Scrapy爬虫教程

    Scrapy是一个用于爬行网站以及在数据挖掘.信息处理和历史档案等大量应用范围内抽取结构化数据的应用程序框架,广泛用于工业. 在本文中我们将建立一个从Hacker News爬取数据的爬虫,并将数据按我 ...

  8. 京东上货助手批量抓取淘宝商品步骤

    京东上传商品的不是很复杂,不过如果想要批量抓取其他平台商品到京东,京东商家就需要时间和精力来批量抓取商品上传了.一般在京东开店的商家,在淘宝.阿里等平台都会有店铺的,这个是电商商家的常态,很多商家都会 ...

  9. python类百度百科_Python抓取百度百科数据

    抓取策略 确定目标:确定抓取哪个网站的哪些页面的哪部分数据.本实例抓取百度百科python词条页面以及python相关词条页面的标题和简介. 分析目标:分析要抓取的url的格式,限定抓取范围.分析要抓 ...

最新文章

  1. 腾讯数据科学家手把手教你做用户行为分析(案例:出行选择)
  2. matlab 变参数 方程组,解带参数方程组 运行结果竟然自己带了新参数z
  3. 禁止backspace键(退格键),但输入文本框时不禁止(兼容IE)
  4. 艾特某人代码实现_为何敲代码,学好数学很重要?
  5. c语言题-牛牛做水题
  6. CentOS7 上安装 Zookeeper-3.4.9 服务
  7. 设计模式示例_复合设计模式示例
  8. 描述符演练-01-完善代码,使得对象添加属性的行为可以成功
  9. 敏捷开发系列学习总结(12)——给Scrum Master的十个建议,你值得拥有
  10. 基于MATLAB产生式系统(植物识别系统)
  11. 柱状图表制作如此简单,比阿里云DataV更好用的数据可视化平台
  12. python turtle画彩虹的源代码_Python基础实例——绘制彩虹(turtle库的应用)
  13. ES2015 解构 Destructuring
  14. 怎么用计算机计算性别的公式,测男女的计算公式测了下挺准的
  15. 从手机端 H5 制作来看 WEB 动画的术与道
  16. R语言ggplot2可视化:使用ggpubr包的ggdensity函数可视化密度图、使用scale_x_continuous函数指定X轴坐标轴的取值范围(起始值和终止值)
  17. 用java的io方法扫描硬盘,JavaSE IO
  18. DiskGenius 数据恢复工具
  19. 【C++】cout、cerr、clog之间的区别
  20. 用express和vue构建全栈项目myweb

热门文章

  1. Python在Linux,Windows上打开有密doc,docx文件(密码已知)
  2. 基于linux+vscode+.net core+ionic4技术开发的物流与工厂智能化应用-订单跟踪(一)
  3. oracle表决盘 奇数,3.2.1 表决磁盘
  4. java线程面试题2019最新整理
  5. Vmware虚拟机安装Windows XP时,F8键无效
  6. 配置安卓 SHA1 SHA256 DM5
  7. 中关村:组装家庭影院浮出水面
  8. 偏向锁、轻量级锁及重量级锁
  9. 数据结构-数组与压缩矩阵
  10. centos编译mqtt