有一些html中的数据是页面加载完成后执行的js代码生成的,源数据存储在html的script中,用php来获取可以这样写:

$html=<<

......

"article_id": "20200511A041GF",

"article_type": "0",

"title": "美国确诊超132万!白宫称副总统彭斯“目前没有隔离”",

"iNewsRecommendLevel": 1,

"abstract": null,

"catalog1": "politics",

"catalog2": "politics_international",

"introduction": "",

"media": "央视新闻",

"media_id": "58",

"pubtime": "2020-05-11 08:09:07",

"comment_id": "5221605433",

"tags": "美国_社会,白宫,彭斯,约翰斯·霍普金斯大学,自我隔离",

"content": null,

"political": 1,

"artTemplate": null,

"FztCompetition": null,

"FCompetitionName": null,

"cms_id": "20200511A041GF00",

"from_where": "sumeru-node",

"videoArr": []

}

......

EOF;

$pattern='/AA\.BB\s*=\s*\{(.*?)\}/ms';

preg_match($pattern,$html,$match);

var_dump($match);

我们需要的数据再$match[1]中,给$match[1]中的数据两边加上花括号就是json格式的数据,可以用json_decode来解析成数组方便使用

$data=json_decode('{' . $match[1] . "}", true);

var_dump($data);

php爬取js对象,php如何用正则解析html中的js对象相关推荐

  1. Python爬取鬼吹灯2(周建龙)(PyV8解析js)

    Python爬取鬼吹灯2有声小说(PyV8解析js) 偶然在一个网站http://www.ting56.com/ 上面看到有鬼吹灯2的周建龙老师的作品,又不想在电脑上面听,于是就想用python爬下来 ...

  2. Python爬取中国大学排名,并且保存到excel中

    前言 以下文章来源于数据分析和Python ,作者冈坂日川 今天发的是python爬虫爬取中国大学排名,并且保存到excel中,当然这个代码很简单,我用了半小时就写完了,我的整体框架非常清晰,可以直接 ...

  3. python爬取2019年计算机就业_2019年最新Python爬取腾讯招聘网信息代码解析

    原标题:2019年最新Python爬取腾讯招聘网信息代码解析 前言 初学Python的小伙们在入门的时候感觉这门语言有很大的难度,但是他的用处是非常广泛的,在这里将通过实例代码讲解如何通过Python ...

  4. python爬取知乎话题广场_用于爬取知乎某个话题下的精华问题中所有回答的爬虫...

    思路 我的整个算法的思路还是很简单的,文字版步骤如下: 1.通过话题广场进入某个话题的页面,避免了登陆注册页面的验证,查找到对应要爬取的话题,从 url 中得到话题id 2.该页面的所有资源采用了延迟 ...

  5. java 字符串是对象吗_解析Java中的String对象的数据类型

    解析Java中的String对象的数据类型 2007-06-06 eNet&Ciweek 1. 首先String不属于8种基本数据类型,String是一个对象. 因为对象的默认值是null,所 ...

  6. python爬取微信好友_如何用 Python 爬取自己的微信朋友

    原标题:如何用 Python 爬取自己的微信朋友 作者 Alfred 本文转载自网络,如涉及侵权请及时联系我们 微信作为一款拥有将近9亿用户的超级APP,已经成为很多人生活中不可或缺的一部分,聊天.分 ...

  7. python爬取小游戏_如何用Python爬取小游戏网站,把喜欢的游戏收藏起来(附源码)...

    简介: Python 是一门简单易学且功能强大的编程语言,无需繁琐的配置,掌握基本语法,了解基本库函数,就可以通过调用海量的现有工具包编写自己的程序,轻松实现批量自动化操作,可以极大提高办公和学习效率 ...

  8. python 爬虫爬取下载网易云音乐歌单的歌曲(需要使用JS的加密方法得出params去获取下载地址)

    要点:1.js加密就是麻烦,只能百度寻找了!设计的加密模块binascii.Crypto.base64 2.requests.Session的用法,可以指定headers.cookies 3.可以用s ...

  9. 实战|手把手教你用Python爬取存储数据,还能自动在Excel中可视化

    来源 | 早起Python 大家好,在之前我们讲过如何用Python构建一个带有GUI的爬虫小程序,很多本文将迎合热点,延续上次的NBA爬虫GUI,探讨如何爬取虎扑NBA官网数据,并且将数据写入Exc ...

最新文章

  1. springboot之异步调用@Async
  2. java的HttpClient如何去支持无证书访问https
  3. java 使用jaxb 把xml 直接转换为ben
  4. *** 隧道和加密技术知识要点
  5. 正则表达式的20个小应用
  6. Oracle之事务和锁
  7. 恕我直言,有了这款 IDEA 插件,你可能只需要写 30% 的代码。。。
  8. 如何去除字符串中的 “\n“ ?80% 的同学错了!
  9. 统计一个长度为2的子字符串在另一个字符串中出现的次数.例如:假定输入的字符串为“asd asasdfg asd as zx67 asd mklo”,子字符串为“as”,函数返回值为6。
  10. 【数据仓库】——星型模型和雪花模型
  11. 收下这份说明书,原来迈进智能计算的大门如此简单
  12. HTML5新增input表单(HTML5)
  13. 苏三30篇原创高质量文章汇总
  14. loadrunner11 中文破解版(附详细安装教程)
  15. CG100汽车编程器
  16. Error处理: android.media.MediaRecorder.start(Native Method) 报错:start failed: -19【转】
  17. 自动化测试八宗罪- 读Test Automation Snake Oil的一点翻译和感想
  18. python六大数据类型详解
  19. Python创建免费Ip代理池,伪装Ip。
  20. 前端-Excel在线预览

热门文章

  1. React-Native 之 GD (六)无数据情况处理
  2. 自定义的ViewGroup中添加自定义View 造成的无法显示问题(个人)
  3. Android传感器应用——重力传感器实现滚动的弹球
  4. jquery二级联动select
  5. Unity3D动画面板编辑器状态属性对照表
  6. ASP.NET中利用JQuery AJAX修改用户密码
  7. source insight 配置
  8. Windows Server 2003网络配置与管理
  9. linux下查看某个文件或目录占用磁盘空间的大小
  10. poj 3177 Redundant Paths(tarjan边双连通)