python获取链接跳转后地址_爬虫:获取多次跳转后的页面url
案例:页面中的一个链接,审核元素得到的地址是“http://iphone.myzaker.com/l.php?l=54472e161bc8e0fd4a8b4573” ,点击之后页面自动跳转到另一个地址“
http://mp.weixin.qq.com/s?__biz=MjM5NjExNjI4MA==&mid=202695292&idx=1&sn=8638f15ba27381236641077a77d43e03&scene=4#wechat_redirect”。
wget 分析地址
apples-air:mzread apple$ wget http://iphone.myzaker.com/l.php?l=54472e161bc8e0fd4a8b4573
--2014-10-23 17:27:17-- http://iphone.myzaker.com/l.php?l=54472e161bc8e0fd4a8b4573
Resolving iphone.myzaker.com... 106.186.30.108
Connecting to iphone.myzaker.com|106.186.30.108|:80... connected.
HTTP request sent, awaiting response... 302 Moved Temporarily
Location: http://mp.weixin.qq.com/s?__biz=MjM5NjExNjI4MA==&mid=202695292&idx=8&sn=f39c6c5dc2329e41eb58c71b53ba8a50&scene=4#wechat_redirect [following]
--2014-10-23 17:27:19-- http://mp.weixin.qq.com/s?__biz=MjM5NjExNjI4MA==&mid=202695292&idx=8&sn=f39c6c5dc2329e41eb58c71b53ba8a50&scene=4
Resolving mp.weixin.qq.com... 203.205.143.142
Connecting to mp.weixin.qq.com|203.205.143.142|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 42622 (42K) [text/html]
可以看到访问原地址之后,有一个302的跳转。
那么问题来了,怎么样获取到跳转之后的页面地址?
办法:利用方法Net::HTTP.get_response。
具体代码:
require 'net/http'
res=Net::HTTP.get_response(URI('http://iphone.myzaker.com/l.php?l=54472e161bc8e0fd4a8b4573'))
res['location']
=> "http://mp.weixin.qq.com/s__biz=MjM5NjExNjI4MA==&mid=202695292&idx=1&sn=8638f15ba27381236641077a77d43e03&scene=4#wechat_redirect"
这样就可以得到跳转之后页面的url。
python获取链接跳转后地址_爬虫:获取多次跳转后的页面url相关推荐
- java获取b站动态列表地址_爬虫入门(三)爬取b站搜索页视频分析(动态页面,DBUtils存储)...
这一次终于到了分析b站视频了.开始体会到写博客非常占用学技术的时间,但是还是希望能总结,沉淀下来. 工具:使用Webmaigc框架,DBUtils,C3P0连接池. 分析过程:b站的搜索页面是这样的. ...
- python爬虫之js链接跳转抓取_Python爬虫获取页面所有URL链接过程详解
如何获取一个页面内所有URL链接?在Python中可以使用urllib对网页进行爬取,然后利用Beautiful Soup对爬取的页面进行解析,提取出所有的URL. 什么是Beautiful Soup ...
- c++ 获取64位进程模块地址_针对银行木马BokBot核心模块的深入分析
一.概述 BokBot恶意软件由LUNAR SPIDER恶意组织开发和运营,在2017年首次出现,CrowdStrike的Falcon Overwatch和Falcon Intelligenc团队对被 ...
- 外部网络如何获取网口打印机的ip地址_网络打印机端口用名称好是还是IP好?...
在设置网络打印机过程中,最重要的一个步骤就是端口的设置,根据具体的网络环境来进行配置端口是保证网络打印机正常运行的保障. 一.打印机端口 1.1usb端口 一般有USB打印数据线直接与电脑相连的端口, ...
- 微信小程序跳过第三方的_微信小程序可以跳转第三方页面吗
随着互联网的发展,小程序定制开发的需求也是越来越多了.客户在寻问小程序开发的时候,小程序跳转外部链接是他们比较关心的问题之一.下面我们将小程序跳转外部链接的规则汇总整理,希望用户对小程序的跳转规则有更 ...
- python电影评论的情感分析流浪地球_爬虫实例 | Python爬取《流浪地球》豆瓣影评与数据分析(下)...
[芝麻IP代理]三.数据分析与可视化 1.获取cookies 城市信息筛选中文字 匹配pyecharts支持的城市列表 2.基于snownlp的情感分析 关于snownlp的作用,主要可以进行中文分词 ...
- python获取小王的ip地址_用Python获取本机的IP地址
Linux import socket import fcntl import struct def get_ip_address(ifname): s = socket.socket(socket. ...
- ros重置后地址_从零开始丨INDEMIND双目惯性模组ROS平台下实时ORB-SLAM记录教程
本文涉及很多代码及文字,排版.文字错误请见谅. 阅读时间预计30分钟 本文涉及图像.数据均由INDEMIND双目视觉惯性模组采集 为了防止各位同学修改出错,我们把修改好的代码及文件上传至GitHub, ...
- 抓rtmp推流地址_如何获取第三方推流地址?
微吼支持第三方推流发起直播,支持的协议是Rtmp,所以发起方使用第三方推流设备或软件推流需要支持Rtmp协议,获取第三方流地址操作方法如下: 1.登录电脑网页端,进入首页,找到创建好的直播列表(由于推 ...
最新文章
- 绝对干货:19个有用的基于云的Web开发工具
- 单片机sleep函数的头文件_单片机学习day8—单片机IO扩展
- Spring AOP切点表达式详解
- SAP FICO年结
- 按揭买的房,房产证为什么要放在银行,自己要用房产证怎么办?
- java 日志乱码_【开发者成长】JAVA 线上故障排查完整套路!
- 硬盘主分区和拓展分区
- 插件properties_PageHelper分页插件的原理是什么
- 在CentOS 7中安装Jetty服务器
- PHP伪原创文章自动生成,api生成伪原创-爱发狗一键伪原创生成原创文章
- 以太坊Whisper协议
- c4d如何把文字贴在物体表面_C4D立体贴地面字基础知识点
- 腾讯开源 GFP-GAN 代码
- 文件服务器mfs,MFS 分布式文件存储系统
- 【C++】2048游戏系列---优化模块第一稿【加载图片】
- Win10 Synaptics触摸板无法实现双指单击模拟鼠标右键点击的解决办法
- 爬虫(三):爬取西刺高匿代理
- ROS机器人平台发展趋势
- 如何在 Illustrator 中应用任意形状渐变?
- UVC webcam添加H264 NV12等格式支持
热门文章
- mysql执行出错:Table 'k_user' is read only
- HZOJ 斐波那契(fibonacci)
- P1507 NASA的食物计划
- [转]TensorFlow如何进行时序预测
- python csv 模块的使用
- XIII Open Grodno SU Championship
- onchange onpropertychange 和oninput事件的区别
- C/S和B/S的区别
- Streams那些事之概述与原理
- UA STAT675 统计计算I 随机数生成8 Adaptive Rejection Sampling