php爬取js对象,php如何用正则解析html中的js对象
有一些html中的数据是页面加载完成后执行的js代码生成的,源数据存储在html的script中,用php来获取可以这样写:
$html=<<
......
"article_id": "20200511A041GF",
"article_type": "0",
"title": "美国确诊超132万!白宫称副总统彭斯“目前没有隔离”",
"iNewsRecommendLevel": 1,
"abstract": null,
"catalog1": "politics",
"catalog2": "politics_international",
"introduction": "",
"media": "央视新闻",
"media_id": "58",
"pubtime": "2020-05-11 08:09:07",
"comment_id": "5221605433",
"tags": "美国_社会,白宫,彭斯,约翰斯·霍普金斯大学,自我隔离",
"content": null,
"political": 1,
"artTemplate": null,
"FztCompetition": null,
"FCompetitionName": null,
"cms_id": "20200511A041GF00",
"from_where": "sumeru-node",
"videoArr": []
}
......
EOF;
$pattern='/AA\.BB\s*=\s*\{(.*?)\}/ms';
preg_match($pattern,$html,$match);
var_dump($match);
我们需要的数据再$match[1]中,给$match[1]中的数据两边加上花括号就是json格式的数据,可以用json_decode来解析成数组方便使用
$data=json_decode('{' . $match[1] . "}", true);
var_dump($data);
php爬取js对象,php如何用正则解析html中的js对象相关推荐
- Python爬取鬼吹灯2(周建龙)(PyV8解析js)
Python爬取鬼吹灯2有声小说(PyV8解析js) 偶然在一个网站http://www.ting56.com/ 上面看到有鬼吹灯2的周建龙老师的作品,又不想在电脑上面听,于是就想用python爬下来 ...
- Python爬取中国大学排名,并且保存到excel中
前言 以下文章来源于数据分析和Python ,作者冈坂日川 今天发的是python爬虫爬取中国大学排名,并且保存到excel中,当然这个代码很简单,我用了半小时就写完了,我的整体框架非常清晰,可以直接 ...
- python爬取2019年计算机就业_2019年最新Python爬取腾讯招聘网信息代码解析
原标题:2019年最新Python爬取腾讯招聘网信息代码解析 前言 初学Python的小伙们在入门的时候感觉这门语言有很大的难度,但是他的用处是非常广泛的,在这里将通过实例代码讲解如何通过Python ...
- python爬取知乎话题广场_用于爬取知乎某个话题下的精华问题中所有回答的爬虫...
思路 我的整个算法的思路还是很简单的,文字版步骤如下: 1.通过话题广场进入某个话题的页面,避免了登陆注册页面的验证,查找到对应要爬取的话题,从 url 中得到话题id 2.该页面的所有资源采用了延迟 ...
- java 字符串是对象吗_解析Java中的String对象的数据类型
解析Java中的String对象的数据类型 2007-06-06 eNet&Ciweek 1. 首先String不属于8种基本数据类型,String是一个对象. 因为对象的默认值是null,所 ...
- python爬取微信好友_如何用 Python 爬取自己的微信朋友
原标题:如何用 Python 爬取自己的微信朋友 作者 Alfred 本文转载自网络,如涉及侵权请及时联系我们 微信作为一款拥有将近9亿用户的超级APP,已经成为很多人生活中不可或缺的一部分,聊天.分 ...
- python爬取小游戏_如何用Python爬取小游戏网站,把喜欢的游戏收藏起来(附源码)...
简介: Python 是一门简单易学且功能强大的编程语言,无需繁琐的配置,掌握基本语法,了解基本库函数,就可以通过调用海量的现有工具包编写自己的程序,轻松实现批量自动化操作,可以极大提高办公和学习效率 ...
- python 爬虫爬取下载网易云音乐歌单的歌曲(需要使用JS的加密方法得出params去获取下载地址)
要点:1.js加密就是麻烦,只能百度寻找了!设计的加密模块binascii.Crypto.base64 2.requests.Session的用法,可以指定headers.cookies 3.可以用s ...
- 实战|手把手教你用Python爬取存储数据,还能自动在Excel中可视化
来源 | 早起Python 大家好,在之前我们讲过如何用Python构建一个带有GUI的爬虫小程序,很多本文将迎合热点,延续上次的NBA爬虫GUI,探讨如何爬取虎扑NBA官网数据,并且将数据写入Exc ...
最新文章
- springboot之异步调用@Async
- java的HttpClient如何去支持无证书访问https
- java 使用jaxb 把xml 直接转换为ben
- *** 隧道和加密技术知识要点
- 正则表达式的20个小应用
- Oracle之事务和锁
- 恕我直言,有了这款 IDEA 插件,你可能只需要写 30% 的代码。。。
- 如何去除字符串中的 “\n“ ?80% 的同学错了!
- 统计一个长度为2的子字符串在另一个字符串中出现的次数.例如:假定输入的字符串为“asd asasdfg asd as zx67 asd mklo”,子字符串为“as”,函数返回值为6。
- 【数据仓库】——星型模型和雪花模型
- 收下这份说明书,原来迈进智能计算的大门如此简单
- HTML5新增input表单(HTML5)
- 苏三30篇原创高质量文章汇总
- loadrunner11 中文破解版(附详细安装教程)
- CG100汽车编程器
- Error处理: android.media.MediaRecorder.start(Native Method) 报错:start failed: -19【转】
- 自动化测试八宗罪- 读Test Automation Snake Oil的一点翻译和感想
- python六大数据类型详解
- Python创建免费Ip代理池,伪装Ip。
- 前端-Excel在线预览