爬取淘宝 天猫网站数据# -*- coding: utf-8 -*-

#!/usr/bin/env Python

import dateTime

import URLparse

import socket

import scrapy

from scrapy.loader.processors import MapCompose, Join

from scrapy.loader import ItemLoader

from scrapy.http import Request

import json

import base64

import scrapy

from scrapy.http.headers import Headers

from taobao.items import TaobaoItem

from urllib import quote,unquote

import sys

reload(sys)

sys.setDEFAULTencoding('utf-8')

class MySpider(scrapy.Spider):

name = 'tmall2'

start_urls = ["http://example.com", "http://example.com/foo"]

def __init__(self):

self.headers={

'Host': 'detail.tmall.com',

'user-Agent': 'Mozilla/5.0 (windows NT 10.0; WOW64; rv:44.0) GECko/20100101 Firefox/44.0',

'Accept': 'text/html,application/xhtml xml,application/xml;q=0.9,*/*;q=0.8',

'Accept-Language':'zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3',

'Accept-Encoding':'gzip, deflate, br',

'Referer':'https://list.tmall.com/search_product.htm?q=iphone',

'Cookie':'hng=CN%7Czh-cn%7CCNY; l=AmFhUQz9l9Bm0s1PIcUbVzUrUSd709Vr; pnm_cku822=213UW5TcyMNYQwiAiwTR3tCf0J%2FQnhEcUpkMmQ%3D%7CUm5OcktzSHFMdkpwTXFEcSc%3D%7CU2xMHDJ%2BH2QJZwBxX39RaFF%2FX3EtTCpGIV8lC10L%7CVGhXd1llXGRfZlthXWdaZlNmUWxOdEpxRXhMeUx0QHhMckh2Qmw6%7CVWldfS0SMg4zBycbJAQqAXRfeB9kNFY0EDtEajxq%7CVmhIGCwSMg8vEycaJAQ6DzQIKBQgHyICPgM2CysXIxwhAT0AOQRSBA%3D%3D%7CV25Tbk5zU2xMcEl1VWtTaUlwJg%3D%3D; cna=c7xUD5TeoxgCARsmEAVdwH4E; cq=ccp%3D1; t=ea7cda7b4dd7d94c574c51a61cd68bf6; uc3=nk2=G4mgLCRZx6no8qfi5g%3D%3D&id2=UonZBtTqYSCQGg%3D%3D&vt3=F8dAscn1mkMKfq3pmos%3D&lg2=W5iHLLyFOGW7aA%3D%3D; lgc=xiaowenjie886; tracknick=xiaowenjie886; _tb_token_=WcXcAjsXNiib; cookie2=3647140634e8134de4621d27d06a6239; OZ_1U_2061=vid=v6cf00b635ac22.0&ctime=1456406710&ltime=0; OZ_1Y_2061=erefer=https%3A//list.tmall.com/search_product.htm%3Fq%3D%25CD%25E2%25CC%25D7%25C4%25D0%26click_id%3D%25CD%25E2%25CC%25D7%25C4%25D0%26from%3Dmallfp..pc_1.0_hq%26spm%3D875.7789098.a1z5h.1.1DJapJ&eurl=https%3A//detail.tmall.com/item.htm%3Fspm%3Da220m.1000858.1000725.11.XG2djx%26id%3D525068649325%26skuId%3D3125134725161%26areaId%3D440300%26cat_id%3D50025174%26rn%3D020410dd2019f68eaf3d848b4d14552f%26user_id%3D196993935%26is_b%3D1&etime=1456406710&ctime=1456406710&ltime=0&compid=2061',

'Connection':'keep-alive',

'cache-Control':'max-age=0'

}

self.cookies={

'l':'ArGxZLdew/Qq2hKqnZPLZoKK4TdLHyUb',

'cna':'OW9VD5ReU2Acadxw7hJSgV4y',

'cookie2':'1cfecc6ae5749b36804d524b9d0cccb4',

't':'2fd2137e54b753c57bec7b945f504547',

'_tb_token_':'l0ckiPAV9KXX',

'ck1':'',

'uc1':'cookie14=UoWyiPlLPWymJA%3D%3D&existShop=false&cookie16=U%2BGCWk%2F74Mx5tgzv3dWpnhjPaQ%3D%3D&cookie21=WqG3DMC9EdFmJgke4t0pDw%3D%3D&tag=3&cookie15=VT5L2FSpMGV7TQ%3D%3D&pas=0',

'uc3':'nk2=G4mgLCRZx6no8qfi5g%3D%3D&id2=UonZBtTqYSCQGg%3D%3D&vt3=F8dAScn1nphE%2FG5b7yQ%3D&lg2=Vq8l%2BKCLz3%2F65A%3D%3D',

'lgc':'xiaowenjie886',

'tracknick':'xiaowenjie886',

'cookie1':'UNaG7hUVmBqzT5U4J5xH8HeBiBsUUL0QGHEE%2BJc503Q%3D',

'unb':'1821174258',

'skt':'116663449cdcca0c',

'_nk_':'xiaowenjie886',

'_l_g_':'Ug%3D%3D',

'cookie17':'UonZBtTqYSCQGg%3D%3D',

'hng':'CN%7Czh-cn%7CCNY',

'login':'true',

'pnm_cku822':'pnm_cku822=213UW5TcyMNYQwiAiwTR3tCf0J%2FQnhEcUpkMmQ%3D%7CUm5OcktzSHFMdkpwTXFEcSc%3D%7CU2xMHDJ%2BH2QJZwBxX39RaFF%2FX3EtTCpGIV8lC10L%7CVGhXd1llXGRfZlthXWdaZlNmUWxOdEpxRXhMeUx0QHhMckh2Qmw6%7CVWldfS0SMg4zBycbJAQqAXRfeB9kNFY0EDtEajxq%7CVmhIGCwSMg8vEycaJAQ6DzQIKBQgHyICPgM2CysXIxwhAT0AOQRSBA%3D%3D%7CV25Tbk5zU2xMcEl1VWtTaUlwJg%3D%3D; expires=Sat, 26 Mar 2016 13:32:50 GMT; path=/; domain=detail.tmall.com'

}

self.url='https://s.taobao.com/search?spm=a21bo.7724922.8452-fline.1.uFDF4G&q=秋季打底衫'

def start_requests(self):

script="""

function main(splash)

assert(splash:go(splash.args.url))

splash:wait(1.0)

return splash:html()

end

"""

yield scrapy.Request(self.url,self.parse_result, Meta={

'splash': {

'args': {'lua_source': script,'url':self.url},

'endpoint': 'execute',

}

})

def parse_result(self, response):

pageCountXpath=response.xpath("//div[@class='pager']/ul/li[2]/text()").extract()

page=(','.join(pageCountXpath))[1:]

pagecount=int(page)

script="""

function main(splash)

assert(splash:go(splash.args.url))

assert(splash:wait(8.5))

return splash:html()

end

"""

for i in range(0,44*pagecount,44):

url2='https://s.taobao.com/search?q=秋季打底衫&s=%d' % i

yield scrapy.Request(url2,self.parse_next,meta={

'splash':{

'args':{'lua_source':script,'url':url2},

'endpoint':'execute',

}

})

def parse_next(self,response):

item = TaobaoItem()

titleALL=response.xpath("//div[@class='item ']/div[2]/div[2]/a/text()").extract()

item['title']=titleALL

shopnameAll =response.xpath("//a[@class='shopname J_MouseEneterLeave J_ShopInfo']/span[2]/text()").extract()

item["shopname"]=shopnameAll

return item

#return item

# sudo service docker restart

python爬虫代码实例源码_python 淘宝爬虫示例源码(抓取天猫数据)相关推荐

  1. python获取app信息的库_Python学习教程:另辟蹊径,appium抓取app应用数据了解一下...

    作为爬虫工程师,没有价格不知道selenium的. 什么是selenium? Selenium原本是一个用于Web应用程序自动化测试工具.Selenium测试直接运行在浏览器中,就像真正的用户在操作一 ...

  2. python爬虫淘宝实例-python 淘宝爬虫示例源码(抓取天猫数据)

    [实例简介]爬取淘宝 天猫网站数据 [实例截图] [核心代码] # -*- coding: utf-8 -*- #!/usr/bin/env python import datetime import ...

  3. python淘宝爬虫基于requests抓取淘宝商品数据_python淘宝爬虫基于requests抓取淘宝商品数据...

    在学校蹭过python的课,觉得python异常强大,趁寒假有时间,瞎搞一下,希望能和大伙一起探讨学习.废话不多说了,直接正题. requests 是Python的http库,可以完成绝大部分与htt ...

  4. 代购源码,淘宝代购系统源码,代购程序,代购系统源码PHP前端源码参数说明

    > 代购业务场景: 代购业务近年兴起的一种购物模式,是帮国外客户购买中国商品.主要通过外贸代购模式,把淘宝. 天猫等电商平台的全站商品通过API接入到你的网站上,瞬间就可以架设一个有数亿产品的大 ...

  5. 获取淘宝商品分类详情API,抓取淘宝全品类目API接口分享(代码展示、参数说明)

    商品分类技巧 淘宝店铺分类怎么设置?我们登录卖家账号的时候,我们看到自己的商品,会想要给商品进行分类,一个好的分类可以帮助提高商品的曝光率.那么在给商品分类前,如果您毫无头绪,以下几点可以给您带来一点 ...

  6. 淘宝页面商品信息的抓取

    文章目录 概述 登录淘宝 商品搜索页面的访问 应对反爬虫的一些尝试 概述 使用selenium登录淘宝并抓取关键字"iPad"对应页面的商品信息. 页面的抓取使用requests应 ...

  7. python简单爬虫手机号_python手机号前7位归属地爬虫代码实例

    需求分析 项目上需要用到手机号前7位,判断号码是否合法,还有归属地查询.旧的数据是几年前了太久了,打算用python爬虫重新爬一份 单线程版本 # coding:utf-8 import reques ...

  8. python开源爬虫项目违法吗_Python开源爬虫项目代码:抓取淘宝、京东、QQ、知网数据...

    数据挖掘入门与实战 公众号: datadw scrapy_jingdong[9]- 京东爬虫.基于scrapy的京东网站爬虫,保存格式为csv.[9]: https://github.com/taiz ...

  9. 23个Python爬虫开源项目代码,包含微信、淘宝、豆瓣、知乎、微博等

    今天为大家整理了23个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心,所有链接指向GitHub,微信不能直接打开,老规矩,可以用电脑打开. 关注公众号「Pyth ...

最新文章

  1. 论如何优雅地进行工作安排
  2. web.xml配置说明
  3. 判断三维坐标系旋转正方向的简单方法
  4. CDH6.3.0 HUE 整合 Oozie调度
  5. 图像处理中的“内插”是什么?插值、图像内插值、图像间插值、重取样(用已知数据来估计未知位置的数值的处理)(最近邻内插法、双线性内插)
  6. 面试官:你不懂六大设计原则,回去等通知吧!
  7. Go语言中cannot convert adminname (type interface {}) to type *: need type assertion的解决办法...
  8. 前端学习(1772):前端调试之serverworkers的概念和方法二
  9. c语言 void**类型转换,void *和其他指针的转化
  10. 简易天气java论文_【Java小项目】简单的天气预报
  11. docker 厂商 容器_疫情期间,Docker让运维人员雪上加霜
  12. sir模型初始值_经典传染病的SIR模型(基于MATLAB)
  13. 自我管理-不同层级的沟通
  14. java源码之 io 流源码解读(一)
  15. 朋友python多个逻辑条件判断_Python小课笔记--Python控制流:if逻辑判断
  16. 如何将pdf转化成word
  17. Win10 搭建自带的ftp站点
  18. PCIE知识点-010:PCIE 热插拔资料从哪获取
  19. 镁光闪存颗粒对照表_内存颗粒型号识别
  20. 我有200台摄像机4MB/s,后端防火墙吞吐量多少G够用?应用层1G够用吗?

热门文章

  1. k8s 集群部署问题整理
  2. Spring+SpringMVC+Mybatis项目在线考试管理系统
  3. 我人生的第一桶金来自于:宋叔日记
  4. Android架构演进 · 设计模式· 为什么建议你一定要学透设计模式?
  5. 在淘宝开店后,如何发布宝贝?从哪发布?
  6. 网络安全等级测评师培训教材(初级)-2021版(前三章)
  7. ios swift 5 UIView切圆角,指定某几个角,2个,左上,左下,右上,右下
  8. 优学院思想道德修养与法律基础试题及答案
  9. 国四网络工程笔记(错题)
  10. centos6.9安装mysqlclinet