PHP新手,在写爬虫练手,一般情况下跟踪链接不是很难,但是如果是动态页面就束手无策了。

也许分析协议(但是怎么分析?),模拟执行JavaScript脚本(怎么弄?),……

另外可能写一个通用的爬取AJAX页面的Spider或许是比较复杂的问题,没有听说或相关开源项目。

下面是问题描述:

比如一个页面的下一页(ajax函数中有一个得到url对应数据放到content标签部分):

javascript: 下一页

对应的JavaScript代码可能是:

function Down(index)

{

$("#pageindex").val(parseInt(index)+1);

ajaxpage(parseInt(index)+1);

}

function ajaxpage(index)

{

$.ajax({

type:"post",

url:"class.aspx",

data:"Option=select&cid="+$("#classid").val()+"&asc="+$("#orderselect>option:selected").val()+"&keyword="+escape($("#textfield").val())+"&PI="+index,

success:function(data)

{

$("#content").html(data);

},

error: function(data) {

alert("连接超时,稍后再试!");

}

}

ps: 我正在翻Stackoverflow,期望有进展,但是可能放在这里可能会更快得到解答。

php爬虫js解析,Spider抓取动态内容(JavaScript指向的页面)相关推荐

  1. 华为抓取错误日志在哪里_分析Spider抓取情况和SEO优化

    搜索引擎蜘蛛网站的爬行应该更值得搜索引擎优化人员的研究.然而,许多搜索引擎优化人员面对搜索引擎抓取从日志中提取的记录,并且不知道要分析什么.下面简要讨论Spider在网站上的爬行值得分析以及分析结果如 ...

  2. 用爬虫抓取动态加载数据丨Python爬虫实战系列(6)

    提示:最新Python爬虫资料/代码练习>>戳我直达 前言 抓取动态加载数据 话不多说,开练! 爬虫抓取动态加载数据 确定网站类型 首先要明确网站的类型,即是动态还是静态.检查方法:右键查 ...

  3. python网页数据存入数据库_python网络爬虫抓取动态网页并将数据存入数据库MySQL...

    简述 以下的代码是使用python实现的网络爬虫,抓取动态网页 http://hb.qq.com/baoliao/ .此网页中的最新.精华下面的内容是由JavaScript动态生成的.审查网页元素与网 ...

  4. python网站数据写入mysql_python网络爬虫抓取动态网页并将数据存入数据库MySQL

    简述 以下的代码是使用python实现的网络爬虫,抓取动态网页 http://hb.qq.com/baoliao/ .此网页中的最新.精华下面的内容是由JavaScript动态生成的.审查网页元素与网 ...

  5. python可抓取数据包括什么_Python对JS型数据抓取有什么特别好的方法吗,pythonjs型抓取,想写一个爬虫,但是需要抓...

    Python对JS型数据抓取有什么特别好的方法吗,pythonjs型抓取,想写一个爬虫,但是需要抓 想写一个爬虫,但是需要抓去的的数据是js生成的,在源代码里看不到,要怎么才能抓到呢? 最好是用pyt ...

  6. python爬虫抓取动态网页数据_python网络爬虫抓取ajax动态网页数据:以抓取KFC门店地址为例...

    一,尝试用BeautifulSoup抓取 先打开KFC网站门店列表页面:http://www.kfc.com.cn/kfccda/storelist/index.aspx 可以看到门店列表如下图: 打 ...

  7. selenium抓取动态网页数据

    1.selenium抓取动态网页数据基础介绍 1.1 什么是AJAX AJAX(Asynchronouse JavaScript And XML:异步JavaScript和XML)通过在后台与服务器进 ...

  8. java抓取动态生成的网页

    最近在做项目的时候有一个需求:从网页面抓取数据,要求是首先抓取整个网页的html源码(后期更新要使用到).刚开始一看这个简单,然后就稀里哗啦的敲起了代码(在这之前使用过Hadoop平台的分布式爬虫框架 ...

  9. 怎样用java编程抓取动态生成的网页

    最近在做项目的时候有一个需求:从网页面抓取数据,要求是首先抓取整个网页的html源码(后期更新要使用到).刚开始一看这个简单,然后就稀里哗啦的敲起了代码(在这之前使用过Hadoop平台的分布式爬虫框架 ...

最新文章

  1. 用户通过WEB方式更改AD域帐户密码
  2. 输入对5层网络迭代次数的影响
  3. android 高德地图设置不能旋转_你以为高德地图只是个地图,并不是?它其实还是个PPT制作神器...
  4. 暑假集训做题,比赛的网站
  5. A English version for my blog start.
  6. Python使用wordnet工具计算词集与词条基本用法(二)
  7. [论文笔记]MACHINE COMPREHENSION USING MATCH-LSTM AND ANSWER POINTER
  8. 数字全息干涉重建算法研究
  9. 重置IE浏览器的设置
  10. 给电视盒子换上第三方桌面
  11. 源码安装Zabbix5.0监控系统
  12. html 鼠标经过出现横线,CSS实现鼠标经过,文字下方横线划过特效
  13. 平均值、中位数、众数、极差分别是什么?各有什么有点和缺点?
  14. elasticsearch 数据类型
  15. 机器学习笔记 - 行列式
  16. 0906期特别策划——“架构师大阅兵”
  17. 1353016-70-2,DBCO-acid, DBCO-COOH,Dibenzocyclooctyne-acid酸官能化的环辛炔衍生物
  18. RabbitMQ-集群
  19. 解决The package java.awt is not accessible问题
  20. 移动web开发 手机输入框弹出的问题

热门文章

  1. 【数据结构与算法】二项队列的Java实现
  2. 需求分析——识别系统需求中的三类事件
  3. 机器学习及大数据经典算法笔记汇总
  4. 领扣-1/167 两数之和 Two Sum MD
  5. 项目中配置Babel转码器的详细教程
  6. 想做大牛,Java开发的必备技术点你了解了吗?
  7. Windows手工使用CMD命令写入系统服务方法
  8. 使用CSVDE批量导入命令/出口AD用户
  9. 解析应用结构,优化网络效能
  10. 学习编程需要攻克的8个难关,一旦没有把握好,很可能会失败!