闲着没事尝试抓一下京东的数据,需要使用到的库有:BeautifulSoup,urllib2,在Python2下测试通过

from creepy import Crawler

from BeautifulSoup import BeautifulSoup

import urllib2

import json

class MyCrawler(Crawler):

def process_document(self, doc):

if doc.status == 200:

print '[%d] %s' % (doc.status, doc.url)

try:

soup = BeautifulSoup(doc.text.decode('gb18030').encode('utf-8'))

except Exception as e:

print e

soup = BeautifulSoup(doc.text)

print soup.find(id="product-intro").div.h1.text

url_id=urllib2.unquote(doc.url).decode('utf8').split('/')[-1].split('.')[0]

f = urllib2.urlopen('http://p.3.cn/prices/get?skuid=J_'+url_id,timeout=5)

price=json.loads(f.read())

f.close()

print price[0]['p']

else:

pass

crawler = MyCrawler()

crawler.set_follow_mode(Crawler.F_SAME_HOST)

crawler.set_concurrency_level(16)

crawler.add_url_filter('\.(jpg|jpeg|gif|png|js|css|swf)$')

crawler.crawl('http://item.jd.com/982040.html')

部分运行结果:

[200] http://item.jd.com/519836.html

三星 HM1200 原装蓝牙耳机 黑色

118.00

[200] http://item.jd.com/603133.html

捷波朗 EASYVOICE+ 易音 蓝牙耳机 黑色

-1

[200] http://item.jd.com/1030552473.html

【年终热卖】嘉源手机N699 2.8寸双屏双卡双待双电2000毫安翻盖手机 黑

268.00

python爬取京东商品价格走势_用python编写的抓京东商品价格的爬虫相关推荐

  1. python爬取b站用户_用Python爬取bilibili全站用户信息

    教你用Python爬取哔哩哔哩全站用户信息 运行 下载 git clone https://github.com/cexll/bili_user_Spider.git 复制代码 运行环境 Window ...

  2. python爬取电脑本地数据_利用python爬取丁香医生上新型肺炎数据,并下载到本地,附带经纬度信息...

    原标题:利用python爬取丁香医生上新型肺炎数据,并下载到本地,附带经纬度信息 新型肺炎肆虐全国,可以预知,最近一两年地理学中会有一部分论文研究新型肺炎的空间分布及与其他指标的关联分析.获取其患病人 ...

  3. python爬取国家男女比例_用python爬取3万多条评论,看韩国人如何评价韩国电影《寄生虫》?...

    用python爬取3万多条评论,看韩国人如何评价韩国电影<寄生虫>? 朱小五 凹凸数据 大家好,我是朱小五 今天给大家带来一个关于电影的数据分析文章. 别走啊,这次不是豆瓣,也不是猫眼 真 ...

  4. python爬取学校题库_利用Python轻松爬取网页题库答案!教孩子不怕尴尬了!

    大家有没有遇到这种令人尴尬的情况:"好不容易在网上找到需要的资源数据,可是不容易下载下来!"如果是通过一页一页的粘贴复制来下载,真的让人难以忍受,特别是像我这种急性子,真得会让人窒 ...

  5. python 爬取链家数据_用python爬取链家网的二手房信息

    题外话:这几天用python做题,算是有头有尾地完成了.这两天会抽空把我的思路和方法,还有代码贴出来,供python的初学者参考.我python的实战经历不多,所以代码也是简单易懂的那种.当然过程中还 ...

  6. 用python爬取qq空间内容_用python爬取QQ空间

    原博文 2016-11-18 17:19 − 好久没写博文了,最近捣鼓了一下python,好像有点上瘾了,感觉python比js厉害好多,但是接触不久,只看了<[大家网]Python基础教程(第 ...

  7. python爬取b站评论_用python 抓取B站视频评论,制作词云

    python 作为爬虫利器,与其有很多强大的第三方库是分不开的,今天说的爬取B站的视频评论,其实重点在分析得到的评论化作嵌套的字典,在其中取出想要的内容.层层嵌套,眼花缭乱,分析时应细致!步骤分为以下 ...

  8. python爬取加密qq空间_使用python+selenium爬取qq空间好友动态

    使用python+selenium爬取qq空间好友动态 分析过程如下: 要想用selenium登陆qq空间,必须点击账号密码登陆按钮然后再填写账号密码登陆. 1.PNG 点击账号密码按钮后跳转到如下页 ...

  9. python爬取本地天气信息_用Python写一个爬取中国天气网的终端版天气预报爬虫

    导语 前几篇文章介绍了爬取静态网站的主要方法.今天写一个小项目实践一下.本项目可以在终端窗口查询全国3400多个区县的当日天气信息和近七天天气信息. 实现效果 [Python爬虫]写一个爬取中国天气网 ...

  10. Python爬取网站用户手机号_利用python爬取慕课网站上面课程

    1.抓取网站情况介绍 抓取网站:http://www.imooc.com/course/list 抓取内容:要抓取的内容是全部的课程名称,课程简介,课程URL ,课程图片URL,课程人数(由于动态渲染 ...

最新文章

  1. Adam那么棒,为什么还对SGD念念不忘 (1) —— 一个框架看懂优化算法
  2. Shell中要如何调用别的shell脚本
  3. 【转】linux tar.gz zip 解压缩 压缩命令
  4. python加法器_[python bottle] 网页加法器
  5. iOS开发-16进制颜色转换
  6. HTML map 设置图热点
  7. 计算机任何启动论文,启动管理器论文10篇_发表之家
  8. VS2010 SP1安装失败之”此计算机的状态不支持此安装“
  9. IDEA Jrebel 激活方法
  10. 3D场景编辑导出-LayaAir引擎Unity插件使用详解
  11. 申请免费域名、配置域名以及https证书设置
  12. html文档成品,HTML成品代码
  13. 计算机毕业论文java毕业设计成品源码网站基于SSM实现的财务|记账|账单管理系统
  14. 成功解决pdf文档加密后时间久了忘记密码—本文档有打开口令或修改口令—在线完美解决
  15. Functional Commitment Schemes: From Polynomial Commitments to Pairing-Based Accumulators学习笔记
  16. 盛会落幕,精彩延续 | 云扩科技入选《2022中国AI商业落地市场研究报告》
  17. 如何通过二维码下载安卓软件(.APK文件)
  18. 阿里云机器学习平台PAI论文高效大模型训练框架Whale入选USENIX ATC‘22
  19. 【查缺补漏】利用eureka的OUT_OF_SERVICE做平滑发版
  20. 借势如泳装,尤爱三点式

热门文章

  1. 金三银四找工作,真没你想的那么难!
  2. 如何采用SQL Server身份验证登录
  3. 大学应届毕业生面临的压力和应对办法
  4. 1.操作系统的基本特性和主要功能
  5. 初识Cpp之 三、Cpp预处理器
  6. 全新超火的微信小说小程序源码-自带采集带安装教程
  7. 财务大数据课程要学python吗_大数据不用学python吗?
  8. 中了exe病毒文件夹变exe应用程序解决办法
  9. vscode调试配置和任务配置
  10. TypeScript配置、tsconfig.json配置文件,TypeScript使用详解