近期正在学习python ,结合自己过往的工作,所以闲来无事,试下爬17track 的轨迹。

爬取途径是:利用静态页面爬取,需要了解前端网页知识。

三方包:pyquery

话不多说,看代码吧:

#!/usr/bin/env python3
#coding=utf-8

from pyquery import PyQuery as pq
import pymysql

def get_time(d1):
    l=[]
    for data in d1('time'):
        msg=d1(data).text()
        #print(msg[0:11],len(msg))
        l.append(msg[0:10])

return l

def get_message(d1):
    s=[]
    for data in d1('p'):
        msg1=d1(data).text()
        s.append(msg1)

return s

def main():
    d = pq(filename="18.html")
    d1 = d(".ori-block")#查找类是ori-block的html模块
    d2 = d('.text-uppercase').text()获取类是text-uppercase的文本内容
    print (type(d2))#测试返回的数据类型,为str
    i=0
    while i < len(get_time(d1)):
        print(d2+"/"+get_time(d1)[i]+"/"+get_message(d1)[i])
        i += 1

main()

抓取结果如下:

1Z3Y18900337899118/2018-07-05/LAS VEGAS, NV, US, DELIVERED
1Z3Y18900337899118/2018-07-05/Las Vegas, NV, United States, Destination Scan
1Z3Y18900337899118/2018-07-04/Las Vegas, NV, United States, Arrival Scan
1Z3Y18900337899118/2018-07-04/Departure Scan
1Z3Y18900337899118/2018-07-04/Arrival Scan
1Z3Y18900337899118/2018-07-04/Ontario, CA, United States, Departure Scan
1Z3Y18900337899118/2018-07-04/Origin Scan

1Z3Y18900337899118/2018-06-30/United States, Order Processed: Ready for UPS

ps:

17track的轨迹请求url地址:

post请求地址:https://t.17track.net/restapi/track
请求参数:
{"guid":"7a0d6ce750964b20b7ab6207a1639e16",#等于g
"data":[{"num":"LY372939201CN"},{"num":"LY372947242CN"},{"num":"LY373619583CN"}]}

难点在于如何破解guid 的值。

从页面的js代码中有一串关于guid生成的位置:

this.defaults.nowNums = a (这个字典里面有个guid)

JS好的童鞋可以去尝试破解下。

17track包裹单个物流轨迹抓取(一)相关推荐

  1. 机器人抓取方式,值得研究。

    1 智能抓取 有人跟机器人说: "嗨,机器人,我想要吃东西."机器人去桌上拿起一个水果. "嗨,机器人,我想要看书."机器人又拿来一本书. "嗨,机器 ...

  2. php用wordanalysis抓取姓名_利用vba查询/抓取 外部数据

    考虑这么一个excel文件,路径为:"E:dataEdata.xlsx",样式如封面图片所示 想要在其他excel文件中,通过代码直接抓取Edata.xlsx中想要的数据,做法如下 ...

  3. Hibernate 原汁原味的四种抓取策略(转)

    原文出处:http://www.cnblogs.com/rongxh7/archive/2010/05/12/1733088.html     尊重原作者,访问原创地址 最近在研究 Hibernate ...

  4. 近年来机器人主流抓取估计方法总结

    本文同步于微信公众号:3D视觉前沿,欢迎大家关注. 根据抓取的表示,应用场合等可以将机器人抓取分为2D平面抓取和6-DoF空间抓取,各自又包含很多方法,下面一一介绍. 1 2D 平面抓取: 适合工业抓 ...

  5. 【论文笔记】基于深度学习的视觉检测及抓取方法

    目录 摘要 关键词 1 目标检测 1.1 YOLO-V3 模型 1.2 算法优化 2 抓取位姿估计 2.1 五维抓取框 2.2 抓取位姿估计模型 2.3 角度优化 3 实验结果与分析 3.1 目标检测 ...

  6. 使用轻量级JAVA 爬虫Gecco工具抓取新闻DEMO

    写在前面 最近看到Gecoo爬虫工具,感觉比较简单好用,所有写个DEMO测试一下,抓取网站 http://zj.zjol.com.cn/home.html,主要抓取新闻的标题和发布时间做为抓取测试对象 ...

  7. 知乎访问mysql_百万级别知乎用户数据抓取与分析之PHP开发

    这次抓取了110万的用户数据,数据分析结果如下: 开发前的准备 安装Linux系统(Ubuntu14.04),在VMWare虚拟机下安装一个Ubuntu: 安装PHP5.6或以上版本: 安装curl. ...

  8. 网页抓取神器hawk使用心得

    (1)抓取目的 现在网站有大量数据,但网站本身并不提供api接口,如果要批量获得这些页面数据,必须通过网页抓取方式实现. 比如某房产网站的二手房数据,在页面上很整齐的展示,因此可以通过分析网页的htm ...

  9. java爬去指定网页的内容_JAVA使用Gecco爬虫 抓取网页内容(示例代码)

    JAVA 爬虫工具有挺多的,但是Gecco是一个挺轻量方便的工具. 先上项目结构图. 这是一个 JAVASE的 MAVEN 项目,要添加包依赖,其他就四个文件.log4j.properties 加上三 ...

  10. 自动新闻抓取系统-开发有感(转载)

    转载自:http://www.zowee.cn/blog/blogArticle.aspx?id=2442&userid=2 自动新闻抓取系统,或称新闻小偷,已被很多人在使用,实现方式也多种多 ...

最新文章

  1. 结构体和数组之间的映射关系
  2. LeetCode Minimum Path Sum(动态规划)
  3. 事物处理@Transactional
  4. python 列联表自动拆分_python自动化办公:实现按照一列内容拆分excel
  5. android listview添加数据_Android系统列表控件
  6. TCP/IP协议栈:TCP超时重传机制
  7. 6.苹果官方鼠标移动速度慢问题解决(Magic Mouse)
  8. 项目开发流程 —— 需求文档和设计文档的区别
  9. Stata:VAR(向量自回归)模型简介
  10. 软件项目文档及其必要性
  11. linux 服务 ddns,Linux DDNS配置
  12. oracle spatial java 类库,Java插入Oracle Spatial空间数据
  13. java多态、抽象类和接口
  14. jy-12-SPRINGMYBATIS02——云笔记09-刘苍松
  15. iPhone游戏编程实例:分享成功游戏开发人员的锦囊妙计
  16. angular js 循环数据(死数据) 添加数据 隔行换色 单个删除 排序
  17. 获取文件哈希值_图解:什么是哈希?
  18. 邮件归档搜索审计稽核应用系统
  19. 小白必读~内网渗透之信息搜集(2)
  20. 家用路由器选购指南基于2019年5月(一)

热门文章

  1. pycharm运行scrapy框架爬取豆瓣电影250可能遇到的问题
  2. Machine Learning笔记——逻辑回归算法
  3. 如何解决C盘实际空闲空间远大于可压缩卷空间
  4. 图片打印设置之适应边框打印
  5. HTML heading
  6. 8421 5421 2421 余3码
  7. [ROS] KDL + DH 参数 + 正解
  8. 根据关键词采集文章php,如何通过文章采集获取一篇高质量的网站内容
  9. MY-IKuai-1
  10. 斗图?教你用Python制作表情包