1.网页源码中找到我们需要获取
一、需求分析
二、页面分析
我们需要在网页源码中找到我们需要获取的信息。所有我们在刷新页面后出现的3个XHR下需找我们需要的信息。
依次点开找到最后一个包如图。
打开任意一个列表(这里不确定是不是列表暂且这么叫)如图。找到我们所需要爬取的信息。
找到我们需要获取的信息之后,我们需要获取这个网页的url,所有这里点击Headers继续观察我们所需要的内容。
观察上图我们可以找到所有要的url和对应的请求方式(GET)。然后继续向下找,如图。
注意观察这里的信息与网页url之间的关系我们发现,网页的url与Param之间存在对应关系。
三、访问url
- 对url进行相应的修改
- 使用Param
将之前找的Prama复制到程序中,添加相应的引号结果如下:
- 发起请求,获取数据
截取部分运行结果如下:
四、提取json中的数据
运行结果如下:
五、优化设计
- 这里我们只获取了前20个电影的名称和评分,也就是爬取了第一页的数据。
- 我们可以通过修改param字典中的value和使用for循环获取更多的信息。
- 对param进行简单的分析,这里的17代表——科幻,start : 0 从第0个开始,limit:20 一共20个。也就是一页的数据。可以将他们改为20,20.
六、完整的代码如下:
1.网页源码中找到我们需要获取相关推荐
- 网页解析:如何获得网页源码中嵌套的标签。
一:前言:网页源码中有很多嵌套的标签 例如div标签嵌套如:bUTP<DIV>finally<div>aurora</div>@126.com</div> ...
- MXNET源码中NDArray数据的获取和打印
虽然本人也很想写一个系列的分析文章,奈何水平不足,零零碎碎学到一点就写一点吧 本人是想学习MXNET的源码,首先想要添加一些打印,debug一下,第一个问题是如何在C++源码中打印出NDArray结构 ...
- MXNET源码中TShape值的获取和打印
承接上一篇(https://blog.csdn.net/zhqh100/article/details/91438657),尝试打印TShape的数值, 同样还是文件incubator-mxnet/s ...
- MATLAB去读网页源码时中文乱码
MATLAB去读网页源码时中文乱码 防止获取的网页源码中文乱码 %设置网页的编码方式(必须首先知道网页的编码方式) options = weboptions('CharacterEncoding',' ...
- 第一次作业:对于Linux2.6.0源码中进程模型的分析
摘要: 作为第一次写博客,可能在排版,页面布局等方面会有大大小小的失误和不足,希望阅读者可以指出,笔者会继续学习,锻炼自己的博客水平:作为第一次分析Linux操作系统,基于进程模型的理解,在不是很熟悉 ...
- 【Faster R-CNN论文精度系列】从Faster R-CNN源码中,我们“学习”到了什么?
[Faster R-CNN论文精度系列] (如下为建议阅读顺序) 1[Faster R-CNN论文精度系列]从Faster R-CNN源码中,我们"学习"到了什么? 2[Faste ...
- Android 在WebView中获取网页源码
原文链接:http://www.cnblogs.com/hibraincol/archive/2011/10/26/2224866.html 1. 使能javascript: 1 webView.ge ...
- Android: 在WebView中获取网页源码
1. 使能javascript: ? 1 webView.getSettings().setJavaScriptEnabled(true); 2. 编写本地接口 ? 1 2 3 4 5 finalcl ...
- 使用WebBrowser控件获取网页源码的方法
使用WebBrowser控件获取网页源码的方法,网上有很多介绍,但绝大多数的人都是使用以下的方法获取: (WebBrowser1.Document as IHtmlDocument2).body.ou ...
最新文章
- 借助Glances Monitor,密切关注你的系统
- wegame饥荒一直连接中_怪诞画风下的异世界生存,一款让你吃到撑的游戏——《饥荒》...
- 读书笔记--101个shell脚本 之#13--猜数字
- 如何看懂ORACLE执行计划
- P多行溢出省略号的处理
- 关于parallel rollback的一点总结
- npm ERR! the command again as root/Administrator
- MST:Bad Cowtractors(POJ 2377)
- 荣耀推出MOSCHINO联名款荣耀20 PRO手机 售价3799元
- 今天开博第一篇,呵呵
- 一个奇怪的发现:html与body,body的margin对html不起作用,html的padding对body却起作用
- java语法特点_Java 语言特点
- 计算机网络之数据链路层协议总结
- 评价——模糊综合评价
- web前端课程设计:猫咪领养网站 HTML+CSS+JavaScript
- 软考-中级-网络工程师-知识点个人总结(二)
- 人工智能发展将使人类沦落为“无用阶级”
- 空间直角坐标转大地坐标 matlab实现
- 浅谈精准提取日志中的URL
- 试利用记录型信号量和pv操作写出_中考热点,几何操作型问题求解策略,值得关注...
热门文章
- 论文阅读:A ConvNet for the 2020s
- 双十二还没到,几何画板提前开抢
- 海康大华等网络摄像机监控视频RTSP/RTMP推流网页播放/直播无需插件低延迟解决方案研究
- 基于matlab的单相pwm逆变电路的仿真研究,基于Matlab的单相双极性spwm逆变电路仿真报告...
- Java中常用术语简称
- php configure libzip,PHP安装zip拓展,以及libzip安装问题
- Linux软件安装缺少依赖包解决方法。
- Android系统设置单双卡
- Java可以用到军事方面吗_恭喜长征五号遥三运载火箭发射,浅谈编程语言在军事方面的运用!...
- Android仿QQ登录下拉历史列表