背景

很多时候,很多人,需要去抓取网页中某些特定内容。

但是,除了之前介绍过的,想要提取某些,静态网页,中的特定内容,比如:

之外,有些人会发现,对于其所要抓取网页中的内容,网页源码中却没有。

所以,此时,就不知道如何实现了。

此处,就来解释一下,如何抓取所谓的动态网页中的特定内容。

前提知识

在看本文之前,你需要具备相关的基础知识:

1.抓取网页,模拟登陆等相关的逻辑

如果不熟悉,可参考:

2.学会用工具,比如IE9的F12,去抓取对应的网页执行的过程

不熟悉的可参考:

3.对于普通的静态网页,如何提取所需的内容

对此不熟悉的,可以参考:

(1)Python版:

(2)C#版:

什么是动态网页

此处所谓的动态网页,是相对于那些静态网页来说的。

而此处所说的静态网页,指的是,对于通过浏览器中查看网页源码时,看到的网页源码中的内容,和网页显示的内容,都是对应的。

换句话说,我想要获得网页上显示的某个内容时,都是可以通过查找网页源码,而找到对应的部分的。

而动态网页,与此相反,想要获得动态网页中的特定的内容,通过直接查看网页源码,是找不到的。

动态网页中的动态的内容是从哪里来的

所以,这里就涉及到一个问题了:

所谓的动态网页中的动态内容,到底是从哪里来的?

概括的说,就是通过其他手段生成或者获得的。

目前我所了解到的,有几种:

本地的Javascript脚本所生成的

如果你去用IE9的F12去分析你访问一个url的过程时,你就会发现,其中很可能会涉及到,

在一个网页正常完全显示之前,期间会访问到很多javascript脚本,简称js脚本或js。

这些js脚本,就是实现了很多动态交互的内容的。

其中,对于你所要抓取的一些内容,有时候,就是这些js脚本动态执行,最终计算出来的。

通过访问另外一个url地址获得的

很多时候,有些内容,是访问了另外一个url地址后,所返回的数据;

如何获得我所要抓取的动态内容

其实,对于如何抓取所需的动态内容,简单一点来说,就一种解决办法:

根据你通过工具分析出来的结果,自己找到对应的数据,去提取出来;

只不过,这个数据,有时候是直接在分析结果过程中直接能提取出来的,有时候可能是js计算出来的。

想要抓取数据,是由js脚本生成的

虽然最终的动态内容,有的是js脚本执行所生成的,但是对于你想要抓取的数据:

如果所要抓取内容和js执行逻辑有关系:那就得靠自己去分析,调试js执行的过程,最终找到是如何一点点计算出来最终你需要的值的;

如果所要抓取内容和js执行没关系:即,虽然你想要抓取的内容,是js执行生成的,但是最终还是可以在别的某个js文件或者其他返回的html代码中可以直接获得,那么你自然可以不用关系数据是如何来的,而直接去提取即可,即从特定的字符串中,提取你要的对应的内容。

想要抓取数据是访问另一个url所得到的

如果对应的你所要抓取的内容,是需要访问另外一个url地址,所返回的数据,那么很简单,你还需要另外去访问此url,然后获得对应的返回的内容,从中提取你要的数据的。

总结

还是那句话,不论你访问的内容,是哪种方式生成的,最终,都还是可以通过工具,去分析出来对应的内容,是如何从无到有生成的。

然后用代码模拟出来此过程,最终提取出你所需要的内容而已;

f12获取网页文本_【教程】如何抓取动态网页内容相关推荐

  1. f12获取网页文本_怎么获取网页源代码中的文件?

    展开全部 易语言如何取网页源码: 1.首先,运行"易语言"主程序,弹出"新建工程32313133353236313431303231363533e4b893e5b19e3 ...

  2. f12获取网页文本_细说网页开发者工具F12-前端开发利器一

    网页开发者工具之 Elements 前言 写这篇文章的目的主要是为了帮助前端小白,学习使用浏览器自带的F12网页开发者工具,来快速定位调试分析问题.解决问题.当然这仅是作者的个人学习心得,有不足之处欢 ...

  3. f12获取网页文本_jmeter获取web页面文本内容的两种方式

    介绍两种jmeter获取页面文本的方式,以我的博客主页为例,我想获取标题"风城烟雨"这几个字 方式一:使用正则表达式提取器 1.在博客主页空白处鼠标右键查看页面源代码,在源代码中找 ...

  4. f12获取网页文本_8招教你快速搞定网页内容禁止复制粘贴,想怎么复制就怎么复制...

    大家平时在搜索资料.浏览网页时,经常会复制一些内容.尤其是文字比较多时,比起一个个字手打,复制能省下不少功夫. 可有时候好不容易找到资料了,却发现有些网站上的内容文本复制不了?甚至右键菜单都打不开! ...

  5. f12获取网页文本_F12 - 开发者工具详解

    学习使用浏览器自带的 F12 网页开发者工具,可以帮助前端以及测试人员来快速定位调试分析问题.解决问题. 一.如何调出开发者工具 在浏览器页面上F12键 (笔记本电脑 Fn + F12) 右键选择 检 ...

  6. f12获取网页文本_HTML禁止复制网页内容和禁止F12、鼠标右键查看网页元素和网页源代码...

    <script> function click(e) { if (document.all) { if (event.button==2||event.button==3) { alert ...

  7. 手把手视频:万能开源Hawk抓取动态网站

    Hawk是沙漠之鹰历时五年开发的开源免费网页抓取工具(爬虫),无需编程,全部可视化. 自从上次发布Hawk 2.0过了小半年,可是还是有不少朋友通过邮件或者微信的方式询问如何使用.看文档还是不如视频教 ...

  8. python获取网页文本框内容_python识别html主要文本框

    在抓取网页的时候只想抓取主要的文本框,例如 csdn 中的主要文本框为下图红色框: 抓取的思想是,利用 bs4 查找所有的 div,用正则筛选出每个 div 里面的中文,找到中文字数最多的 div 就 ...

  9. vs2015编写python爬虫_使用Python抓取网页数据(一)

    iOS python 爬虫 LoL 学习iOS开发有一段时间了,最近想做一个自己的App玩玩,自己比较喜欢玩LOL,所以想试着做一个LOL资料库的App,那么问题来了,这么多英雄,物品等数据怎么获取呢 ...

  10. python网页数据存入数据库_python网络爬虫抓取动态网页并将数据存入数据库MySQL...

    简述 以下的代码是使用python实现的网络爬虫,抓取动态网页 http://hb.qq.com/baoliao/ .此网页中的最新.精华下面的内容是由JavaScript动态生成的.审查网页元素与网 ...

最新文章

  1. 用jsp上传文件时报错,是tomcat的文件夹为只读。修改只读权限后正常
  2. Sql 2008 安装遇到的问题
  3. 最短路径问题 --- Dijkstra算法详解
  4. oracle 之 安装10.2.0.1 且 升级到 10.2.0.4
  5. 澳洲天才医生寻根(转)
  6. 视频解码芯片SAA7111A的初始化
  7. 频率分布直方图组距如何确定_频率分布有关的概念
  8. 在苹果Mac中使用 CleanMyMac X 清理垃圾时频繁要求输入密码如何解决?
  9. linux用户个人的环境变量,linux下的变量以及系统和个人环境变量的配置文件
  10. python抛出异常的关键字_浅谈python抛出异常、自定义异常, 传递异常
  11. 完美运营版悬赏任务积分墙源码
  12. 手机1像素线粗_移动端1像素边框问题
  13. android 触摸屏干扰,一种电容触摸屏的抗干扰方法及其控制模块与流程
  14. [ Linux ] PCF8563数据手册解析 |CSDN创作打卡
  15. JAVA后端面经总结——应用类
  16. it企业实习_it公司实习心得体会
  17. 【Win8系统:速度快 启动快 关机慢】
  18. 解决IDEA中多个项目不在同一窗口下显示的问题(操作简单)
  19. SCI论文修稿时间延长信的申请格式-论文投稿经验总结-第4期
  20. 《近匠》专访机智云 CTO 刘琰—从 0到1 开启智能化硬件开发

热门文章

  1. IAR软件ZigBee物联网
  2. NSGA-II算法介绍
  3. Matlab电路仿真
  4. EPLAN 2.7 WIN 10 X64安装说明
  5. Java 操作Word书签(三):用文本、图片、表格替换书签
  6. python 网格搜索_Python机器学习笔记:Grid SearchCV(网格搜索)
  7. 华为交换机ensp基础命令
  8. python超市管理系统实训报告_java超市管理系统实训报告
  9. InstallShield安装与部署
  10. 手机WAPI功能检测常见问题分析(系列连载一):证书安装