python execjs是如何请求网页的_python运行js---execjs 使用
execjs 使用
有了selenium+Chrome Headless 加载页面为什么还要用execjs来运行js? selenium+Chrome Headless 必然是爬虫的一大利器,可是缺点依然存在, 性能问题不可忽视。 但这构不成舍弃它而不用的理由。我认为舍弃包括Chrome Headless、PhantomJS在内的无头浏览器 的原因主要有以下几点: 1. 页面结构改变、弹窗(一些网站的页面结构经常无规则改变), 影响代码的健壮性。 2. 无头浏览器的应用场景主要是一些模拟登陆账号密码加密的场景, 爬虫全程使用无头浏览器, 影响性能和效率, 浪费资源。 3. 通过js加密的网站, 可以看得到加密过程,可以拿得到加密源码。
1. 安装
pip install PyExecJS # 需要注意, 包的名称:PyExecJS
2. 简单使用
import execjs
execjs.eval("new Date")
返回值为: 2018-04-04T12:53:17.759Z
execjs.eval("Date.now()")
返回值为:1522847001080 # 需要注意的是返回值是13位, 区别于python的time.time()
需要注意的是: 个别的JS语句, 用execjs返回的结果跟浏览器环境返回的结果是有区别的, 以下是浏览器环境返回的结果
3. 调用函数
# 实际生产中处理的js有几百几千行, 不方便贴上来。来看一下源码中给的例子:
ctx = execjs.compile("""
function add(x, y) {
return x + y;
}
""")
ctx.call("add", 1, 2) # 第一个参数 “add” 为JS函数名的字符串, 后边依次为实参
返回值:3
execjs的用法非常简单, 下边来看一下执行JS的环境, 以及性能:
4. 执行JS的环境
# 1. 在windows上不需要其他的依赖便可运行execjs, 也可以调用其他的JS环境
# windows 默认的执行JS的环境
execjs.get().name
返回值: JScript
# 作者本人的windows上装有Node.js , 所以返回值不同
execjs.get().name
返回值: Node.js (V8)
#2. 在ubuntu下需要安装执行JS环境依赖, 作者的环境为PhantomJS
execjs.get().name
返回值: PhantomJS
#3. 源码中给出, 可执行execjs的环境:
PyV8 = "PyV8"
Node = "Node"
JavaScriptCore = "JavaScriptCore"
SpiderMonkey = "SpiderMonkey"
JScript = "JScript"
PhantomJS = "PhantomJS"
SlimerJS = "SlimerJS"
Nashorn = "Nashorn"
注1:作者之前在ubuntu环境下执行execjs碰见过因为没有环境而报错,因时间久远,无法肯定。 现在环境齐全, 报错无法复原,如有读者出现错误, 请留言, 多谢!
更新注1:经过朋友老冀的指正(在此感谢),在ubuntu环境下, 没有JS环境会报错:Could not find an available JavaScript runtime. 由此可见, execjs在ubuntu需要安装JS环境 。具体的JS环境需根据具体的需求安装, 切不可超过以上8种。
5.环境切换
# 1. 通过os.environ
os.environ["EXECJS_RUNTIME"] = "Node"
execjs.get().name
execjs.eval("1 + 2")
# 2. 通过execjs.get 切换
jscript = execjs.get(execjs.runtime_names.JScript) # runtime_names 便是execjs源码中给出的执行环境的。 execjs.runtime_names.xxx xxx必须在上一节 #3中取
jscript.eval("1 + 2")
注: 在切换环境时, 当环境不存在不会报错, 会使用默认的环境。 另外需要注意的是, 两种方式的区别
6. 简易性能分析
# 作者只简单试了三种, 在windows下
import execjs
import os
import time
# 先用JScript
os.environ["EXECJS_RUNTIME"] = "JScript"
print execjs.get().name
time1 = time.time()
for i in range(100):
execjs.eval("new Date")
print time.time() - time1
# 切换环境 使用Nodejs
os.environ["EXECJS_RUNTIME"] = "Node"
print execjs.get().name
time2 = time.time()
for l in range(100):
execjs.eval("new Date")
print time.time() - time2
# 打印的结果为:
JScript
4.70900011063
Node.js (V8)
27.501999855
# 在ubuntu下试的是PhantoJS , 结果竟然高达 30+ S
此注释来自execjs作者:PyExecJS的缺点之一就是性能。PyExecJS通过文本传递JavaScript运行时,并且速度很慢。另一个缺点是它不完全支持运行时特定的功能。对于某些用例,PyV8可能是更好的选择。
总注:使用execjs的难点并不是在execjs这个库, 而是解析JS的过程, 因为没有浏览器的环境, 没有加密源码的依赖。从成千上万行的JS中择出想要的内容,可能是一段孤零零的JS函数,也可能是从几个JS文件去找出各自找出一段JS代码, 并可以通过execjs顺利执行, 这并非易事。 需要慢慢积累经验。 一旦掌握, 便可以提高爬虫的效率, 以及代码的健壮性, 节省资源!
转载:https://www.jianshu.com/p/e01a3d504700
python execjs是如何请求网页的_python运行js---execjs 使用相关推荐
- Python使用request包请求网页乱码解决方法
使用requests请求网页时,返回的页面信息有时是乱码,如下代码 headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) Appl ...
- python爬虫正则表达式爬取网页标签_Python爬虫实例(4)-用urllib、re和正则表达式爬取网页图片...
文章目录简介正则爬虫Demo本例知识点 简介 python的第三方包极多种,尽量多看多用,对开发者来说是很好的.在爬虫领域,请求网页,除了requests包之外,还有urllib.request模块: ...
- python execjs是如何请求网页的_在Python中如何执行ExecJs语句
这次给大家带来在Python中如何执行ExecJs语句,在Python中执行ExecJs语句的注意事项有哪些,下面就是实战案例,一起来看一下. execjs模块 在网页数据提取的日常中,经常有一些有用 ...
- python用selenium爬取网页数据_Python项目实战:使用selenium爬取拉勾网数据
" 一切不经过项目验证的代码都是耍流氓,今天我们就通过一个简单的招聘网站的数据归档进行当前热门岗位的大数据分析,最后以wordcloud进行显示.本文为数据爬取篇." 项目准备: ...
- python爬虫抓取动态网页数据_python网络爬虫抓取ajax动态网页数据:以抓取KFC门店地址为例...
一,尝试用BeautifulSoup抓取 先打开KFC网站门店列表页面:http://www.kfc.com.cn/kfccda/storelist/index.aspx 可以看到门店列表如下图: 打 ...
- python怎么爬取一个网页图片_python爬虫怎么实现爬取网站图片?
对于网页结构而言,图片也就是一个文件及文件目录+名字的放在html中的src标签里.找到这个src标签对应的内容,就可以图片爬取下来. ps:有些网站的图片可能不是放在src标签里的,可能放在data ...
- 用python写一个简单的网页游戏_python模拟点击玩游戏的实例讲解
小编发现很多小伙伴都喜欢玩一些游戏,而手游因为玩的场景限制不多,所以受众的人更多.游戏里有很多重复的任务需要我们完成,虽然过程非常无聊,但是为了任务奖励还是有很多小伙伴不厌其烦的去做.那么,有没有什么 ...
- python可抓取数据包括什么_Python对JS型数据抓取有什么特别好的方法吗,pythonjs型抓取,想写一个爬虫,但是需要抓...
Python对JS型数据抓取有什么特别好的方法吗,pythonjs型抓取,想写一个爬虫,但是需要抓 想写一个爬虫,但是需要抓去的的数据是js生成的,在源代码里看不到,要怎么才能抓到呢? 最好是用pyt ...
- python没有错误但是不显示结果_python运行不报错又无任何结果输出
原博文 2019-06-06 18:46 − 查看"if __name__ == '__main__':"是否书写正确,尤其是_数量是否正确. ... 相关推荐 2019-09-2 ...
最新文章
- 【建模必备】遗传算法的定义与生物学基础
- Golang之channel操作
- JZOJ 5677. 【GDOI2018Day2模拟4.21】纽约
- python 去除字符串的标点符号 用_Python输入和输出
- 初识Mysql(part16)--我需要知道的2条Mysql语句之子查询
- python验证身份证号码大全_身份证号码处理技巧大全
- java普通工程打war包_普通java工程(Java Project)打jar包
- 免费复制百度文库的VIP文章(非常简单!)
- python办公自动化——提取pdf中的文字和表格
- java导出excel搜索下拉框,SXSSFWorkbook导出Excel并带下拉菜单
- 基于Openstack的私有云搭建实践1——概述、原理与整体规划
- PHP与其他语言的比较
- 鸡啄米C++和MFC学习网址链接
- flex osgi实现-potomac 实现页面与页面间数据传递和页面间各部分的数据传递
- fixture 'xxx' not found
- Latex报错:xxxx.sty文件不存在解决方案
- msi True Color在系统升级后失效的解决方案
- 外卖点餐 堂食点餐 扫码点餐源码 点餐APP源码
- Spring Cloud(十二):Spring Cloud Security
- Unity3D安卓导出包加密学习--加密Assembly-CSharp.dll
热门文章
- 借助数据库生成订单号
- 微信小程序开发实战8_1 小程序客服消息的接收
- vue中通过WeixinJSBridge关闭微信公众号当前页面,返回微信公众号首页
- STM32F411CCU6使用淘宝1.69电容屏移植lvgl
- 分享一款好用的项目管理工具
- Promise中的then第二个参数和catch的区别
- 微信错误:errcode=40164,errmsg=invalid ip xxx.x.xxx.xxx, not in whitelist
- java 邮件发送_Java 基于JavaMail的邮件发送
- 少数人的智慧:基于专家意见的协同过滤
- python少儿编程书_Python少儿趣味编程