php爬虫js解析,Spider抓取动态内容(JavaScript指向的页面)
PHP新手,在写爬虫练手,一般情况下跟踪链接不是很难,但是如果是动态页面就束手无策了。
也许分析协议(但是怎么分析?),模拟执行JavaScript脚本(怎么弄?),……
另外可能写一个通用的爬取AJAX页面的Spider或许是比较复杂的问题,没有听说或相关开源项目。
下面是问题描述:
比如一个页面的下一页(ajax函数中有一个得到url对应数据放到content标签部分):
javascript: 下一页
对应的JavaScript代码可能是:
function Down(index)
{
$("#pageindex").val(parseInt(index)+1);
ajaxpage(parseInt(index)+1);
}
function ajaxpage(index)
{
$.ajax({
type:"post",
url:"class.aspx",
data:"Option=select&cid="+$("#classid").val()+"&asc="+$("#orderselect>option:selected").val()+"&keyword="+escape($("#textfield").val())+"&PI="+index,
success:function(data)
{
$("#content").html(data);
},
error: function(data) {
alert("连接超时,稍后再试!");
}
}
ps: 我正在翻Stackoverflow,期望有进展,但是可能放在这里可能会更快得到解答。
php爬虫js解析,Spider抓取动态内容(JavaScript指向的页面)相关推荐
- 华为抓取错误日志在哪里_分析Spider抓取情况和SEO优化
搜索引擎蜘蛛网站的爬行应该更值得搜索引擎优化人员的研究.然而,许多搜索引擎优化人员面对搜索引擎抓取从日志中提取的记录,并且不知道要分析什么.下面简要讨论Spider在网站上的爬行值得分析以及分析结果如 ...
- 用爬虫抓取动态加载数据丨Python爬虫实战系列(6)
提示:最新Python爬虫资料/代码练习>>戳我直达 前言 抓取动态加载数据 话不多说,开练! 爬虫抓取动态加载数据 确定网站类型 首先要明确网站的类型,即是动态还是静态.检查方法:右键查 ...
- python网页数据存入数据库_python网络爬虫抓取动态网页并将数据存入数据库MySQL...
简述 以下的代码是使用python实现的网络爬虫,抓取动态网页 http://hb.qq.com/baoliao/ .此网页中的最新.精华下面的内容是由JavaScript动态生成的.审查网页元素与网 ...
- python网站数据写入mysql_python网络爬虫抓取动态网页并将数据存入数据库MySQL
简述 以下的代码是使用python实现的网络爬虫,抓取动态网页 http://hb.qq.com/baoliao/ .此网页中的最新.精华下面的内容是由JavaScript动态生成的.审查网页元素与网 ...
- python可抓取数据包括什么_Python对JS型数据抓取有什么特别好的方法吗,pythonjs型抓取,想写一个爬虫,但是需要抓...
Python对JS型数据抓取有什么特别好的方法吗,pythonjs型抓取,想写一个爬虫,但是需要抓 想写一个爬虫,但是需要抓去的的数据是js生成的,在源代码里看不到,要怎么才能抓到呢? 最好是用pyt ...
- python爬虫抓取动态网页数据_python网络爬虫抓取ajax动态网页数据:以抓取KFC门店地址为例...
一,尝试用BeautifulSoup抓取 先打开KFC网站门店列表页面:http://www.kfc.com.cn/kfccda/storelist/index.aspx 可以看到门店列表如下图: 打 ...
- selenium抓取动态网页数据
1.selenium抓取动态网页数据基础介绍 1.1 什么是AJAX AJAX(Asynchronouse JavaScript And XML:异步JavaScript和XML)通过在后台与服务器进 ...
- java抓取动态生成的网页
最近在做项目的时候有一个需求:从网页面抓取数据,要求是首先抓取整个网页的html源码(后期更新要使用到).刚开始一看这个简单,然后就稀里哗啦的敲起了代码(在这之前使用过Hadoop平台的分布式爬虫框架 ...
- 怎样用java编程抓取动态生成的网页
最近在做项目的时候有一个需求:从网页面抓取数据,要求是首先抓取整个网页的html源码(后期更新要使用到).刚开始一看这个简单,然后就稀里哗啦的敲起了代码(在这之前使用过Hadoop平台的分布式爬虫框架 ...
最新文章
- 用户通过WEB方式更改AD域帐户密码
- 输入对5层网络迭代次数的影响
- android 高德地图设置不能旋转_你以为高德地图只是个地图,并不是?它其实还是个PPT制作神器...
- 暑假集训做题,比赛的网站
- A English version for my blog start.
- Python使用wordnet工具计算词集与词条基本用法(二)
- [论文笔记]MACHINE COMPREHENSION USING MATCH-LSTM AND ANSWER POINTER
- 数字全息干涉重建算法研究
- 重置IE浏览器的设置
- 给电视盒子换上第三方桌面
- 源码安装Zabbix5.0监控系统
- html 鼠标经过出现横线,CSS实现鼠标经过,文字下方横线划过特效
- 平均值、中位数、众数、极差分别是什么?各有什么有点和缺点?
- elasticsearch 数据类型
- 机器学习笔记 - 行列式
- 0906期特别策划——“架构师大阅兵”
- 1353016-70-2,DBCO-acid, DBCO-COOH,Dibenzocyclooctyne-acid酸官能化的环辛炔衍生物
- RabbitMQ-集群
- 解决The package java.awt is not accessible问题
- 移动web开发 手机输入框弹出的问题