案例:页面中的一个链接,审核元素得到的地址是“http://iphone.myzaker.com/l.php?l=54472e161bc8e0fd4a8b4573” ,点击之后页面自动跳转到另一个地址“

http://mp.weixin.qq.com/s?__biz=MjM5NjExNjI4MA==&mid=202695292&idx=1&sn=8638f15ba27381236641077a77d43e03&scene=4#wechat_redirect”。

wget 分析地址

apples-air:mzread apple$ wget http://iphone.myzaker.com/l.php?l=54472e161bc8e0fd4a8b4573

--2014-10-23 17:27:17-- http://iphone.myzaker.com/l.php?l=54472e161bc8e0fd4a8b4573

Resolving iphone.myzaker.com... 106.186.30.108

Connecting to iphone.myzaker.com|106.186.30.108|:80... connected.

HTTP request sent, awaiting response... 302 Moved Temporarily

Location: http://mp.weixin.qq.com/s?__biz=MjM5NjExNjI4MA==&mid=202695292&idx=8&sn=f39c6c5dc2329e41eb58c71b53ba8a50&scene=4#wechat_redirect [following]

--2014-10-23 17:27:19-- http://mp.weixin.qq.com/s?__biz=MjM5NjExNjI4MA==&mid=202695292&idx=8&sn=f39c6c5dc2329e41eb58c71b53ba8a50&scene=4

Resolving mp.weixin.qq.com... 203.205.143.142

Connecting to mp.weixin.qq.com|203.205.143.142|:80... connected.

HTTP request sent, awaiting response... 200 OK

Length: 42622 (42K) [text/html]

可以看到访问原地址之后,有一个302的跳转。

那么问题来了,怎么样获取到跳转之后的页面地址?

办法:利用方法Net::HTTP.get_response。

具体代码:

require ‘net/http‘

res=Net::HTTP.get_response(URI(‘http://iphone.myzaker.com/l.php?l=54472e161bc8e0fd4a8b4573‘))

res[‘location‘]

=> "http://mp.weixin.qq.com/s__biz=MjM5NjExNjI4MA==&mid=202695292&idx=1&sn=8638f15ba27381236641077a77d43e03&scene=4#wechat_redirect"

这样就可以得到跳转之后页面的url。

原文:http://www.cnblogs.com/wangyuyu/p/4046425.html

php获取2次跳转之后的网址,爬虫:获取多次跳转后的页面url相关推荐

  1. python爬虫之js链接跳转抓取_Python爬虫获取页面所有URL链接过程详解

    如何获取一个页面内所有URL链接?在Python中可以使用urllib对网页进行爬取,然后利用Beautiful Soup对爬取的页面进行解析,提取出所有的URL. 什么是Beautiful Soup ...

  2. python如何过获取双色球信息_【编程】Python爬虫获取双色球数据

    #爬虫获取双色球的全部开奖数据 #使用class, #格式: import urllib.request import platform from bs4 import BeautifulSoup i ...

  3. python获取链接跳转后地址_爬虫:获取多次跳转后的页面url

    案例:页面中的一个链接,审核元素得到的地址是"http://iphone.myzaker.com/l.php?l=54472e161bc8e0fd4a8b4573" ,点击之后页面 ...

  4. 如何利用python爬虫获取网易云音乐某个歌手简介_Python 爬虫获取网易云音乐歌手信息...

    今天就先带大家爬取网易云音乐下的歌手信息并把数据保存下来. 爬取结果 环境 语言:Python 工具:Pycharm 导包 BeautifulSoup:用来解析源码,提取需要的元素. selenium ...

  5. 当当网最新上架图书html,基于Python3爬虫获取最新上架图书的实现

    2018.04 1 概述 主题网络爬虫, 根据一定的网页分析算法过滤与主 题无关的链接保留主题相关的链接井将其放入待抓取的 URL队列: 然后根据一定的搜索策略从队列中选择下一 步要抓取的 URL, ...

  6. [小程序项目] 使用微信开发者工具 新闻小项目 轮播图 新闻列表页 点击跳转新闻详情页 登录 获取用户基本信息

    文章目录 效果 Gitee 目录结构 app.json 首页 pages/news/news.wxml pages/news/news.wxss pages/news/news.js 配置网络请求 u ...

  7. php获取页面跳转后的页面内容,搜狗-PHP获取抓取页面获得跳转后的URL

    抓取页面: http://weixin.sogou.com/weixin?type=2&ie=utf8&query=%E9%98%85%E5%85%B5 内的链接: 但是中间要经过一个 ...

  8. 用requests获取网页源代码 python-手把手教你利用爬虫爬网页(Python代码)

    本文主要分为两个部分:一部分是网络爬虫的概述,帮助大家详细了解网络爬虫:另一部分是HTTP请求的Python实现,帮助大家了解Python中实现HTTP请求的各种方式,以便具备编写HTTP网络程序的能 ...

  9. python爬虫获取的网页数据为什么要加[0-使用 Python 爬取网页数据

    1. 使用 urllib.request 获取网页 urllib 是 Python 內建的 HTTP 库, 使用 urllib 可以只需要很简单的步骤就能高效采集数据; 配合 Beautiful 等 ...

最新文章

  1. java调用PageOffice生成word
  2. 如何学习开源系统有感(一)
  3. Python 库升级问题-module ‘requests.exceptions‘ has no attribute ‘ReadTimeout‘原因及解决办法
  4. C++11新特性学习
  5. 妙用通配符证书发布多个安全站点
  6. 微型计算机的字节取决于什么的宽度,计算机的字长取决于什么?
  7. OpenShift 4 - Pod是如何使用Serivce Account访问API的
  8. linux查看和编辑文件,查看和编辑文件(Linux的快捷键和主要命令)
  9. android cmake 打印_Android NDK 开发:CMake 使用
  10. javascript 3月17日
  11. Linux忘记密码的找回方法
  12. 线性混合效应模型学习
  13. 向量数量积公式_向量数量积公式是什么
  14. Spark SQL简介
  15. matlab语音合成技术,matlab语音合成详细版
  16. adobe flash player已过期
  17. MFC中简单图形的平移与简单旋转
  18. 湖南省第六届程序设计竞赛---弟弟的作业
  19. 软件测试周刊(第62期):无论你处于什么状态,你都要明白,生活的目标是健康和快乐。
  20. windows bat

热门文章

  1. Android持久化保存cookie
  2. 借助离散数学解决“哈弗大学智商测试”一题 --编程算法
  3. 洛谷2486 【SDOI2011】染色(线段树+树链剖分)
  4. Python编程练习:使用 turtle 库完成六边形的绘制
  5. 80211n标准建链速率计算
  6. JS缺失错误- Uncaught SyntaxError: Unexpected token
  7. Oracle数据库性能优化基础
  8. Android学习——Fragment动态加载
  9. SHELL中,如何分割字符串
  10. Java基础 -- 冒泡排序算法(带详细注释)