Python对JS型数据抓取有什么特别好的方法吗,pythonjs型抓取,想写一个爬虫,但是需要抓

想写一个爬虫,但是需要抓去的的数据是js生成的,在源代码里看不到,要怎么才能抓到呢? 最好是用python

可以试着用 http://jeanphix.me/Ghost.py/ , http://code.google.com/p/pyv8/ 获得 JS 执行后的 dom。

对于JS生成的数据,你是没有办法获取的。除非直接遍历dom还是有可能……

一种办法是可以考虑用userscript,获取数据然后post到服务器等就随你自己的喜欢了

还有一种办法(假设是在win32),可以使用com组件调用IE然后获取动态生成的dom树,然后再做处理

当年试过改firefox的程序来做这个,不过也很麻烦

当然,你也可以用python什么自己实现一套浏览器和js引擎,那么这些数据肯定是你自己的了,不过还不如直接改或者用com组件

但是你说的爬虫爬取js生成的,那是没有办法的:(不管怎么样,一定要实现dom树,要让js能执行,那么就相当于你要实现一套简单的浏览器了

https://github.com/tmpvar/jsdom

http://docs.casperjs.org/en/latest/quickstart.html

目前认为比较好的一个方案是采用python+gtk+pywebkit,相当于基于webkit自己写一个定制的浏览器,这样可以在网页中插入自己的js,遍历dom等都是非常容易的。这个组合在ubuntu下还是非常容易搭建的。

sudo apt-get install python-gtk python-webkit,即可。

如果对抓取的性能没有什么要求的话, 尝试一下selenium或者watir吧.

web自动化测试脚本用好了可以做很多事情.

利用你的浏览器执行好js, 然后再从dom里面取数据.

另外一个情况, 如果你知道js是通过ajax或者api取数据的, 直接去抓数据源, 得到的不是json就是xml, 然后处理数据吧

基于webkit的http://phantomjs.org/,写js就行。

用python调它,用起来很爽。

编橙之家文章,

python可抓取数据包括什么_Python对JS型数据抓取有什么特别好的方法吗,pythonjs型抓取,想写一个爬虫,但是需要抓...相关推荐

  1. 用 Python + itchat 写一个爬虫脚本每天定时给女朋友发微信暖心话

    项目介绍: 灵感来源 在掘金看到了一篇<用Node+wechaty写一个爬虫脚本每天定时给女(男)朋友发微信暖心话>后,我就想为什么不用 Python 去实现这个功能呢. JUST TO ...

  2. python在excel中数据画线_python中操作excel数据

    python操作excel,python有提供库 本文介绍openpyxl,他只支持新型的excell( xlsx)格式,读取速度还可以 1.安装 pip install openpyxl 2.使用 ...

  3. python多个sheet数据透视表_python 用pandas实现数据透视表功能

    透视表是一种可以对数据动态排布并且分类汇总的表格格式.对于熟练使用 excel 的伙伴来说,一定很是亲切! pd.pivot_table() 语法: pivot_table(data, # dataf ...

  4. 写一个爬虫爬取boss直聘网站

    好的,我可以为您简要介绍如何编写一个爬虫来爬取 BOSS 直聘网站. 首先,您需要准备好以下几个东西: 安装 Python,并使用 pip 安装爬虫所需的库,如 requests 和 Beautifu ...

  5. python抓取数据时失败_python网页爬虫之列车时刻表的抓取(5)-错误数据的处理

    抓取了99%的数据还剩一点点瑕疵要处理掉. 在脚本的运行日志里不和谐的一段: 05-29 18:14 transchedule INFO train number 5611 processed 05- ...

  6. python抓取数据时失败_python爬取页面元素失败

    coursera上有不少经典课程值得收藏,于是想着把课程资源离线下来.就用requests和BeautifulSoup抓取课程资源页,分析资源链接,然后用curl批量下载.一些都很顺利,除了一个细节上 ...

  7. python爬取数据的原理_Python爬虫原理

    前言 简单来说互联网是由一个个站点和网络设备组成的大网,我们通过浏览器访问站点,站点把HTML.JS.CSS代码返回给浏览器,这些代码经过浏览器解析.渲染,将丰富多彩的网页呈现我们眼前: 一.爬虫是什 ...

  8. python爬取数据的原理_python学习之python爬虫原理

    原标题:python学习之python爬虫原理 今天我们要向大家详细解说python爬虫原理,什么是python爬虫,python爬虫工作的基本流程是什么等内容,希望对这正在进行python爬虫学习的 ...

  9. python 接入百度地图数据包下载_Python爬虫-利用百度地图API接口爬取数据并保存至MySQL数据库...

    首先,我这里有一份相关城市以及该城市的公园数量的txt文件: 分析-02.png 其次,利用百度地图API提供的接口爬取城市公园的相关信息. 所利用的API接口有两个: 1.http://api.ma ...

最新文章

  1. linux检查是否安装proc编译器,编译安装 GCC 4.9并验证使用
  2. 正则表达式的含义php,求正则表达式含义
  3. POJ2155 Matrix 二维线段树
  4. 学会这 10 种定时任务,我有点飘了
  5. RESTful API 设计思考
  6. java 数组减除值_java – 删除数组中空值的最有效方法是什么.
  7. 学计算机和电脑办公的区别,自学编程和计算机科班出身的差别在哪?
  8. 利用python制作动态二维码
  9. 任务列表,任务办理,转办任务,委派任务
  10. 一文搞懂候选码、主码、全码、外码、主属性、主键、主关键字、非主属性清晰总结
  11. 客户端时不时接收到10054错误
  12. Java游戏开发之一
  13. 完美立方生理周期假币熄灯阶乘汉诺塔N皇后
  14. HashMap 数据结构之红黑树, 红黑树在什么时候左旋 右旋 如何旋转
  15. kinetic安装cartographer及gazebo仿真测试教程[22年1月23日测试]
  16. “一个扫描枪一张表”,韵达选择 TDengine 应对每日亿级数据量
  17. Maya动画——使用诺亦腾惯性动捕设备进行动作捕捉的方法
  18. 设计师必看的一些资源网站[转]
  19. 什么是高精密 运放?1-5uV 50uV 0.1mV 0.5mV以内的都算高精密
  20. transmac装黑苹果_TransMac(dmg文件打开工具) v12.5官方版 使用教程:制作mac os 黑苹果启动盘...

热门文章

  1. 打开aspx现有实例
  2. 【Java】 5.9 初始化块
  3. Redis 的各项功能到底解决了哪些问题?
  4. Android的Crash崩溃解决方案-Bugly的使用
  5. 【Intellij IDEA系列】IDEA使用git提交代码流程
  6. 算法--生成m个指定范围的不重复随机数的三种方法分析(Java实现)
  7. Java中设计模式之单例设计模式-1
  8. cfs调度算法JAVA实现_关于CFS/BFS调度算法
  9. (Oracle学习笔记) Oracle概述
  10. Android中SharedPreferences与Editor的使用