php获取2次跳转之后的网址,爬虫:获取多次跳转后的页面url
案例:页面中的一个链接,审核元素得到的地址是“http://iphone.myzaker.com/l.php?l=54472e161bc8e0fd4a8b4573” ,点击之后页面自动跳转到另一个地址“
http://mp.weixin.qq.com/s?__biz=MjM5NjExNjI4MA==&mid=202695292&idx=1&sn=8638f15ba27381236641077a77d43e03&scene=4#wechat_redirect”。
wget 分析地址
apples-air:mzread apple$ wget http://iphone.myzaker.com/l.php?l=54472e161bc8e0fd4a8b4573
--2014-10-23 17:27:17-- http://iphone.myzaker.com/l.php?l=54472e161bc8e0fd4a8b4573
Resolving iphone.myzaker.com... 106.186.30.108
Connecting to iphone.myzaker.com|106.186.30.108|:80... connected.
HTTP request sent, awaiting response... 302 Moved Temporarily
Location: http://mp.weixin.qq.com/s?__biz=MjM5NjExNjI4MA==&mid=202695292&idx=8&sn=f39c6c5dc2329e41eb58c71b53ba8a50&scene=4#wechat_redirect [following]
--2014-10-23 17:27:19-- http://mp.weixin.qq.com/s?__biz=MjM5NjExNjI4MA==&mid=202695292&idx=8&sn=f39c6c5dc2329e41eb58c71b53ba8a50&scene=4
Resolving mp.weixin.qq.com... 203.205.143.142
Connecting to mp.weixin.qq.com|203.205.143.142|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 42622 (42K) [text/html]
可以看到访问原地址之后,有一个302的跳转。
那么问题来了,怎么样获取到跳转之后的页面地址?
办法:利用方法Net::HTTP.get_response。
具体代码:
require ‘net/http‘
res=Net::HTTP.get_response(URI(‘http://iphone.myzaker.com/l.php?l=54472e161bc8e0fd4a8b4573‘))
res[‘location‘]
=> "http://mp.weixin.qq.com/s__biz=MjM5NjExNjI4MA==&mid=202695292&idx=1&sn=8638f15ba27381236641077a77d43e03&scene=4#wechat_redirect"
这样就可以得到跳转之后页面的url。
原文:http://www.cnblogs.com/wangyuyu/p/4046425.html
php获取2次跳转之后的网址,爬虫:获取多次跳转后的页面url相关推荐
- python爬虫之js链接跳转抓取_Python爬虫获取页面所有URL链接过程详解
如何获取一个页面内所有URL链接?在Python中可以使用urllib对网页进行爬取,然后利用Beautiful Soup对爬取的页面进行解析,提取出所有的URL. 什么是Beautiful Soup ...
- python如何过获取双色球信息_【编程】Python爬虫获取双色球数据
#爬虫获取双色球的全部开奖数据 #使用class, #格式: import urllib.request import platform from bs4 import BeautifulSoup i ...
- python获取链接跳转后地址_爬虫:获取多次跳转后的页面url
案例:页面中的一个链接,审核元素得到的地址是"http://iphone.myzaker.com/l.php?l=54472e161bc8e0fd4a8b4573" ,点击之后页面 ...
- 如何利用python爬虫获取网易云音乐某个歌手简介_Python 爬虫获取网易云音乐歌手信息...
今天就先带大家爬取网易云音乐下的歌手信息并把数据保存下来. 爬取结果 环境 语言:Python 工具:Pycharm 导包 BeautifulSoup:用来解析源码,提取需要的元素. selenium ...
- 当当网最新上架图书html,基于Python3爬虫获取最新上架图书的实现
2018.04 1 概述 主题网络爬虫, 根据一定的网页分析算法过滤与主 题无关的链接保留主题相关的链接井将其放入待抓取的 URL队列: 然后根据一定的搜索策略从队列中选择下一 步要抓取的 URL, ...
- [小程序项目] 使用微信开发者工具 新闻小项目 轮播图 新闻列表页 点击跳转新闻详情页 登录 获取用户基本信息
文章目录 效果 Gitee 目录结构 app.json 首页 pages/news/news.wxml pages/news/news.wxss pages/news/news.js 配置网络请求 u ...
- php获取页面跳转后的页面内容,搜狗-PHP获取抓取页面获得跳转后的URL
抓取页面: http://weixin.sogou.com/weixin?type=2&ie=utf8&query=%E9%98%85%E5%85%B5 内的链接: 但是中间要经过一个 ...
- 用requests获取网页源代码 python-手把手教你利用爬虫爬网页(Python代码)
本文主要分为两个部分:一部分是网络爬虫的概述,帮助大家详细了解网络爬虫:另一部分是HTTP请求的Python实现,帮助大家了解Python中实现HTTP请求的各种方式,以便具备编写HTTP网络程序的能 ...
- python爬虫获取的网页数据为什么要加[0-使用 Python 爬取网页数据
1. 使用 urllib.request 获取网页 urllib 是 Python 內建的 HTTP 库, 使用 urllib 可以只需要很简单的步骤就能高效采集数据; 配合 Beautiful 等 ...
最新文章
- java调用PageOffice生成word
- 如何学习开源系统有感(一)
- Python 库升级问题-module ‘requests.exceptions‘ has no attribute ‘ReadTimeout‘原因及解决办法
- C++11新特性学习
- 妙用通配符证书发布多个安全站点
- 微型计算机的字节取决于什么的宽度,计算机的字长取决于什么?
- OpenShift 4 - Pod是如何使用Serivce Account访问API的
- linux查看和编辑文件,查看和编辑文件(Linux的快捷键和主要命令)
- android cmake 打印_Android NDK 开发:CMake 使用
- javascript 3月17日
- Linux忘记密码的找回方法
- 线性混合效应模型学习
- 向量数量积公式_向量数量积公式是什么
- Spark SQL简介
- matlab语音合成技术,matlab语音合成详细版
- adobe flash player已过期
- MFC中简单图形的平移与简单旋转
- 湖南省第六届程序设计竞赛---弟弟的作业
- 软件测试周刊(第62期):无论你处于什么状态,你都要明白,生活的目标是健康和快乐。
- windows bat