import requests

import json

import pandas as pd

import time

# getRtVisitor.json

session = requests.Session() # 创建一个session对象

headers = {

'accept':'*/*',

'accept-encoding':'gzip, deflate, br',

'accept-language':'en-US,en;q=0.9,zh-CN;q=0.8,zh;q=0.7',

'cookie':'t=4a09a3c800e9591a2c198b124d80e02a; cna=G2veFsG5YX0CAQ5pIwfTWHFB; lgc=%5Cu5927%5Cu5468%5Cu4F73; tracknick=%5Cu5927%5Cu5468%5Cu4F73; tg=0; _euacm_ac_l_uid_=1639181234; 1639181234_euacm_ac_c_uid_=1639181234; 1639181234_euacm_ac_rs_uid_=1639181234; _portal_version_=new; cc_gray=1; thw=cn; mt=ci=84_1; _euacm_ac_rs_sid_=155550734; enc=Rk6EFG1Zi%2F5sBqHEJADmGhcHg%2F8HVbpOVQDb72MK8zmamaAE7C23fINFdlW5BT%2FNfkRKZLPkB8gKw%2Bj0cK0hig%3D%3D; hng=CN%7Czh-CN%7CCNY%7C156; cookie2=1a5b17269a2a570500957e7dcce65c45; _tb_token_=35e1e66785eb7; _samesite_flag_=true; sgcookie=Ep88649ag1i3VPa4P6akw; unb=1639181234; uc3=vt3=F8dBxd9nWWLAbiRWGZE%3D&lg2=UtASsssmOIJ0bQ%3D%3D&nk2=1z8nwQRn&id2=Uoe3fo1fFq44Zg%3D%3D; csg=aa9633c3; cookie17=Uoe3fo1fFq44Zg%3D%3D; dnk=%5Cu5927%5Cu5468%5Cu4F73; skt=69bf89596c5fe0d1; existShop=MTU4NDU4MTc0MQ%3D%3D; uc4=nk4=0%401fDckZcjfHBEZVI1NQCO3RY%3D&id4=0%40UO%2BxIxkhtoiLbBQVUeEnpSn1KHbH; _cc_=U%2BGCWk%2F7og%3D%3D; _l_g_=Ug%3D%3D; sg=%E4%BD%B34e; _nk_=%5Cu5927%5Cu5468%5Cu4F73; cookie1=BYXJ7V2Aq8c%2FnceEFKLACXxZ7qw2VwJYwgQbxY%2Feb6A%3D; tfstk=cKiNBsfOWhKwV3THPur4G7Z13THOZAHinMy7S4xicwaWPJ4GiQfYKvNUL-NJxPf..; v=0; _m_h5_tk=8b49ef5c39700daef25a92f8c520cc65_1584590383214; _m_h5_tk_enc=4d9374ef7e4743b408cb6247793448be; uc1=cookie14=UoTUPvXUU0lRTg%3D%3D&lng=zh_CN&cookie16=Vq8l%2BKCLySLZMFWHxqs8fwqnEw%3D%3D&existShop=true&cookie21=UtASsssmfavZrexPkAwn7A%3D%3D&tag=8&cookie15=W5iHLLyFOGW7aA%3D%3D&pas=0; XSRF-TOKEN=673a0ad9-3e96-4fb2-bbd9-af3ffa50a9bc; JSESSIONID=B0A57AC70F717D1231606D512F674ECB; l=dBjCTtrcQuukdAdWBOfgqK_ahxbOrIRbzsPPlS9CCICP9O1wrJp1WZ4V8-8eCnGN36J6R3WhGKB3BqLTFPaOhtikBBrsDOsCydTBR; isg=BAoK5gRhYDd8MOy0NcE2jJ5BW_Cs-45VYmG9hZRDct30R6gBfIkRZ2NxV7ubtwbt',

'referer':'https://sycm.taobao.com/ipoll/visitor.htm?spm=a21ag.7622617.LeftMenu.d181.758a1be9MfheaI',

'sec-fetch-mode':'cors',

'sec-fetch-site':'same-origin',

'user-agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.79 Safari/537.36'

}

def loadPage(page):

strPage=str(page)

strToken='6f5921e86'

strLastPara='1584581855701'

url = 'https://sycm.taobao.com/ipoll/live/visitor/getRtVisitor.json?device=2&limit=20&page='+strPage+'&token='+strToken+'&type=Y&_='+strLastPara

# https://sycm.taobao.com/ipoll/live/visitor/getRtVisitor.json?device=2&limit=20&page=2&token=97890b4c6&type=Y&_=1584409617907

req = session.get(url, headers=headers) #发起get请求

text = req.text

with open(str(page)+".txt", "w") as f:

f.write(text)

return json.loads(text)

def GetValueFromDic(item, key, defaultValue=None):

if key in item:

return item[key]

if defaultValue is None:

return ''

return defaultValue

def appendList(json_res):

list_res = json_res['data']['data']['list']

for item in list_res:

arr=[]

if item['pageTypeId'] == 5:# 商品分类页

arr.append(item['visitTime'])

arr.append('其它来源')

arr.append('')# 搜索关键字

arr.append('商品分类页')

arr.append('')# 访客位置

arr.append(item['oid'])

else:

arr.append(GetValueFromDic(item, 'visitTime'))

arr.append(GetValueFromDic(item, 'srcGrpName', '其它来源'))

arr.append(GetValueFromDic(item, 'preSeKeyword'))

arr.append(GetValueFromDic(item, 'title'))

arr.append(GetValueFromDic(item, 'cityName'))

arr.append(GetValueFromDic(item, 'oid'))

list_excel.append(arr)

# list集合

list_excel=[]

# 数据源

json_res = loadPage(1)

# 解析数据

totalPage = json_res['data']['data']['totalPage']

curPage = json_res['data']['data']['page']

print('总页数:', totalPage, '当前页:', curPage)

# 追加数据

appendList(json_res)

# 循环下载

for i in range(totalPage-1):

page = i + 2

print('当前页:', page)

json_res = loadPage(page)

appendList(json_res)

# 转换为DataFrame

#df = pd.DataFrame(list_excel, columns=['visitTime', 'srcGrpName', 'preSeKeyword', 'title', 'cityName', 'oid'])

df = pd.DataFrame(list_excel, columns=['访问时间', '入店来源', '搜索关键字', '被访页面', '访客位置', '访客编号'])

# 保存到本地excel

curTime = time.strftime('%Y-%m-%d %H%M%S',time.localtime(time.time()))

df.to_excel('访客-'+curTime+'.xlsx', index=False)

mark

pageTypeId:访客访问页面的类型

具体看这里:item['pageTypeId'] == 5:# 商品分类页

pageTypeId==5,表示用户是从商品分类页来的,或者点了商品分类页页

python抓取网站访客手机号_电商 生意参谋 抓取 访客数据 Python版相关推荐

  1. python脚本监控网站状态 - 赵海华_运维之路 - 51CTO技术博客

    python脚本监控网站状态 - 赵海华_运维之路 - 51CTO技术博客 python脚本监控网站状态 2013-01-09 09:21:02 标签:监控 python 原创作品,允许转载,转载时请 ...

  2. HTML5期末大作业:电商网站设计——仿淘宝电商网站管理系统21页(含毕业设计论文7500字) HTML+CSS+JavaScript

    HTML5期末大作业:电商网站设计--仿淘宝电商网站管理系统21页(含毕业设计论文7500字) HTML+CSS+JavaScript 常见网页设计作业题材有 个人. 美食. 公司. 学校. 旅游. ...

  3. 化茧成蝶:淘客转型社交电商分销商背后的商业逻辑

    在流量日益枯竭的当下,传统电商平台已逐渐触及天花板,但代购和社交电商却是一片肥沃的待开发处女地,让我们看到了闻所未闻的热度. 现如今,四五线城市的C端消费者开始追求性价比和高品质,同样有着消费升级的需 ...

  4. 电商扣减库存_电商仓库管理的难点与解决方案

    在我国,目前有很多小型电商企业,其仓库面积都在1000平以内,由于前期对营销的专注,对仓库的忽视,包括对设施设备的投入,导致了今天仓库工作效率低下,库存混乱,运作成本高等诸多问题,以下我们来细细诉说. ...

  5. HTML5期末大作业:爱折扣电商购物网站设计——清新爱折扣电商购物网站(5页) HTML+CSS+JavaScript 关于电商的HTML网页设计-----网购

    HTML5期末大作业:爱折扣电商购物网站设计--清新爱折扣电商购物网站(5页) HTML+CSS+JavaScript 关于电商的HTML网页设计-----网购 常见网页设计作业题材有 个人. 美食. ...

  6. HTML5期末大作业:花店/鲜花/购物网站设计——网上花店礼品电商购物商城 HTML+CSS+JavaScript 粉色的鲜花礼品电商网站html模板

    HTML5期末大作业:花店/鲜花/购物网站设计--粉色的鲜花礼品电商网站html模板 HTML+CSS+JavaScript 学生DW网页设计作业成品 web课程设计网页规划与设计 计算机毕设网页设计 ...

  7. HTML5期末大作业:电商网站设计——粉色的鲜花礼品电商(4页) HTML+CSS+JavaScript 学生网上商城网页设计作业成品 web课程设计网页规划与设计 计算机毕设网页设计源码

    HTML5期末大作业:电商网站设计--粉色的鲜花礼品电商(4页) HTML+CSS+JavaScript 学生网上商城网页设计作业成品 web课程设计网页规划与设计 计算机毕设网页设计源码 常见网页设 ...

  8. HTML5期末大作业:仿淘宝电商网站设计——仿淘宝电商管理系统(21页)含论文 HTML+CSS+JavaScript 学生DW网页设计作业成品 大学生网页制作期末作业

    HTML5期末大作业:仿淘宝电商网站设计--仿淘宝电商管理系统(21页)含论文 HTML+CSS+JavaScript 学生DW网页设计作业成品 大学生网页制作期末作业 常见网页设计作业题材有 个人. ...

  9. python抓取网站访客手机号_点击了一个教育网站,马上就有老师打电话过来,他们是怎么获取我的手机号?...

    在2020年这么特别的一年,因为受疫情的影响,各个企业都受到了巨大的冲击,随着网络的发达网站抓取手机号成为了这个时代的新兴的渠道. 我们做营销的方式很多种比如大家现在看到这种软文推广,我们只需要不断的 ...

最新文章

  1. Leetcode PHP题解--D49 821. Shortest Distance to a Character
  2. java 的io流需要学吗_Java Io流怎么学习呢?
  3. Qt5.7+Opencv2.4.9人脸识别(四)模型训练
  4. CF245H Queries for Number of Palindromes
  5. java写算法之二叉搜索树查找
  6. Docker配置国内加速镜像源
  7. android调webview的方法,Android中的WebView详解
  8. 2022牛客寒假算法基础集训营2 签到题7题
  9. scala代码示例_Scala集合示例
  10. 那些属于我自己的牢骚
  11. OptiFDTD应用:纳米盘型谐振腔等离子体波导滤波器
  12. 基于toolbox_calib工具箱的相机标定matlab仿真
  13. office 论文 页码_原创:如何设置毕业论文的页眉和页码(word2007和word2010)
  14. c语言程序 计算离高考天数,用c++程序计算一个孩子从出生到高考需要多少天
  15. 0基础如何用几分钟学会视频剪辑
  16. 团队作业2——团队计划
  17. krpano场景拖动时拖动惯性消失的问题
  18. java 实现将图片替换到word 文档中
  19. javascript代码操作记录
  20. linux命令行 teamview,Ubuntu下命令行方安装TeamViewer

热门文章

  1. Photoshop字体安装使用方法和技巧
  2. 西安将建国家级服务外包示范区
  3. remove 删除文件
  4. 爬取搜狗输入法的医学词库 下载.scel格式文件
  5. Mysql数据库宾馆管理系统_Maven+JSP+Servlet+JDBC+Mysql实现的dbExper宾馆管理系统
  6. Hyperledger Fabric的test-network启动过程Bash源码详解
  7. NSNS小队成立啦!
  8. 在Windows电脑上配置Speedtest测速服务器
  9. 边缘计算社区2020做了什么?
  10. RDD:断点回归可以加入控制变量吗?