php获取2次跳转之后的网址,爬虫：获取多次跳转后的页面url

案例：页面中的一个链接，审核元素得到的地址是“http://iphone.myzaker.com/l.php?l=54472e161bc8e0fd4a8b4573” ，点击之后页面自动跳转到另一个地址“

http://mp.weixin.qq.com/s?__biz=MjM5NjExNjI4MA==&mid=202695292&idx=1&sn=8638f15ba27381236641077a77d43e03&scene=4#wechat_redirect”。

wget 分析地址

apples-air:mzread apple$ wget http://iphone.myzaker.com/l.php?l=54472e161bc8e0fd4a8b4573

--2014-10-23 17:27:17-- http://iphone.myzaker.com/l.php?l=54472e161bc8e0fd4a8b4573

Resolving iphone.myzaker.com... 106.186.30.108

Connecting to iphone.myzaker.com|106.186.30.108|:80... connected.

HTTP request sent, awaiting response... 302 Moved Temporarily

Location: http://mp.weixin.qq.com/s?__biz=MjM5NjExNjI4MA==&mid=202695292&idx=8&sn=f39c6c5dc2329e41eb58c71b53ba8a50&scene=4#wechat_redirect [following]

--2014-10-23 17:27:19-- http://mp.weixin.qq.com/s?__biz=MjM5NjExNjI4MA==&mid=202695292&idx=8&sn=f39c6c5dc2329e41eb58c71b53ba8a50&scene=4

Resolving mp.weixin.qq.com... 203.205.143.142

Connecting to mp.weixin.qq.com|203.205.143.142|:80... connected.

HTTP request sent, awaiting response... 200 OK

Length: 42622 (42K) [text/html]

可以看到访问原地址之后，有一个302的跳转。

那么问题来了，怎么样获取到跳转之后的页面地址？

办法：利用方法Net::HTTP.get_response。

具体代码：

require ‘net/http‘

res=Net::HTTP.get_response(URI(‘http://iphone.myzaker.com/l.php?l=54472e161bc8e0fd4a8b4573‘))

res[‘location‘]

=> "http://mp.weixin.qq.com/s__biz=MjM5NjExNjI4MA==&mid=202695292&idx=1&sn=8638f15ba27381236641077a77d43e03&scene=4#wechat_redirect"

这样就可以得到跳转之后页面的url。

原文：http://www.cnblogs.com/wangyuyu/p/4046425.html

php获取2次跳转之后的网址,爬虫：获取多次跳转后的页面url相关推荐

python爬虫之js链接跳转抓取_Python爬虫获取页面所有URL链接过程详解
如何获取一个页面内所有URL链接?在Python中可以使用urllib对网页进行爬取,然后利用Beautiful Soup对爬取的页面进行解析,提取出所有的URL. 什么是Beautiful Soup ...
python如何过获取双色球信息_【编程】Python爬虫获取双色球数据
#爬虫获取双色球的全部开奖数据 #使用class, #格式: import urllib.request import platform from bs4 import BeautifulSoup i ...
python获取链接跳转后地址_爬虫：获取多次跳转后的页面url
案例:页面中的一个链接,审核元素得到的地址是"http://iphone.myzaker.com/l.php?l=54472e161bc8e0fd4a8b4573" ,点击之后页面 ...
如何利用python爬虫获取网易云音乐某个歌手简介_Python 爬虫获取网易云音乐歌手信息...
今天就先带大家爬取网易云音乐下的歌手信息并把数据保存下来. 爬取结果环境语言:Python 工具:Pycharm 导包 BeautifulSoup:用来解析源码,提取需要的元素. selenium ...
当当网最新上架图书html,基于Python3爬虫获取最新上架图书的实现
2018.04 1 概述主题网络爬虫, 根据一定的网页分析算法过滤与主题无关的链接保留主题相关的链接井将其放入待抓取的 URL队列: 然后根据一定的搜索策略从队列中选择下一步要抓取的 URL, ...
[小程序项目] 使用微信开发者工具新闻小项目轮播图新闻列表页点击跳转新闻详情页登录获取用户基本信息
文章目录效果 Gitee 目录结构 app.json 首页 pages/news/news.wxml pages/news/news.wxss pages/news/news.js 配置网络请求 u ...
php获取页面跳转后的页面内容,搜狗-PHP获取抓取页面获得跳转后的URL
抓取页面: http://weixin.sogou.com/weixin?type=2&ie=utf8&query=%E9%98%85%E5%85%B5 内的链接: 但是中间要经过一个 ...
用requests获取网页源代码 python-手把手教你利用爬虫爬网页（Python代码）
本文主要分为两个部分:一部分是网络爬虫的概述,帮助大家详细了解网络爬虫:另一部分是HTTP请求的Python实现,帮助大家了解Python中实现HTTP请求的各种方式,以便具备编写HTTP网络程序的能 ...
python爬虫获取的网页数据为什么要加[0-使用 Python 爬取网页数据
1. 使用 urllib.request 获取网页 urllib 是 Python 內建的 HTTP 库, 使用 urllib 可以只需要很简单的步骤就能高效采集数据; 配合 Beautiful 等 ...

php获取2次跳转之后的网址,爬虫：获取多次跳转后的页面url

php获取2次跳转之后的网址,爬虫：获取多次跳转后的页面url相关推荐

最新文章

热门文章