一、需求分析

二、页面分析

  1. 我们需要在网页源码中找到我们需要获取的信息。所有我们在刷新页面后出现的3个XHR下需找我们需要的信息。

  2. 依次点开找到最后一个包如图。

  3. 打开任意一个列表(这里不确定是不是列表暂且这么叫)如图。找到我们所需要爬取的信息。

  4. 找到我们需要获取的信息之后,我们需要获取这个网页的url,所有这里点击Headers继续观察我们所需要的内容。

  5. 观察上图我们可以找到所有要的url和对应的请求方式(GET)。然后继续向下找,如图。

  6. 注意观察这里的信息与网页url之间的关系我们发现,网页的url与Param之间存在对应关系。

三、访问url

  1. 对url进行相应的修改

  1. 使用Param
    将之前找的Prama复制到程序中,添加相应的引号结果如下:
  1. 发起请求,获取数据

截取部分运行结果如下:


四、提取json中的数据

运行结果如下:

五、优化设计

  1. 这里我们只获取了前20个电影的名称和评分,也就是爬取了第一页的数据。
  2. 我们可以通过修改param字典中的value和使用for循环获取更多的信息。
  3. 对param进行简单的分析,这里的17代表——科幻,start : 0 从第0个开始,limit:20 一共20个。也就是一页的数据。可以将他们改为20,20.

六、完整的代码如下:

1.网页源码中找到我们需要获取相关推荐

  1. 网页解析:如何获得网页源码中嵌套的标签。

    一:前言:网页源码中有很多嵌套的标签 例如div标签嵌套如:bUTP<DIV>finally<div>aurora</div>@126.com</div> ...

  2. MXNET源码中NDArray数据的获取和打印

    虽然本人也很想写一个系列的分析文章,奈何水平不足,零零碎碎学到一点就写一点吧 本人是想学习MXNET的源码,首先想要添加一些打印,debug一下,第一个问题是如何在C++源码中打印出NDArray结构 ...

  3. MXNET源码中TShape值的获取和打印

    承接上一篇(https://blog.csdn.net/zhqh100/article/details/91438657),尝试打印TShape的数值, 同样还是文件incubator-mxnet/s ...

  4. MATLAB去读网页源码时中文乱码

    MATLAB去读网页源码时中文乱码 防止获取的网页源码中文乱码 %设置网页的编码方式(必须首先知道网页的编码方式) options = weboptions('CharacterEncoding',' ...

  5. 第一次作业:对于Linux2.6.0源码中进程模型的分析

    摘要: 作为第一次写博客,可能在排版,页面布局等方面会有大大小小的失误和不足,希望阅读者可以指出,笔者会继续学习,锻炼自己的博客水平:作为第一次分析Linux操作系统,基于进程模型的理解,在不是很熟悉 ...

  6. 【Faster R-CNN论文精度系列】从Faster R-CNN源码中,我们“学习”到了什么?

    [Faster R-CNN论文精度系列] (如下为建议阅读顺序) 1[Faster R-CNN论文精度系列]从Faster R-CNN源码中,我们"学习"到了什么? 2[Faste ...

  7. Android 在WebView中获取网页源码

    原文链接:http://www.cnblogs.com/hibraincol/archive/2011/10/26/2224866.html 1. 使能javascript: 1 webView.ge ...

  8. Android: 在WebView中获取网页源码

    1. 使能javascript: ? 1 webView.getSettings().setJavaScriptEnabled(true); 2. 编写本地接口 ? 1 2 3 4 5 finalcl ...

  9. 使用WebBrowser控件获取网页源码的方法

    使用WebBrowser控件获取网页源码的方法,网上有很多介绍,但绝大多数的人都是使用以下的方法获取: (WebBrowser1.Document as IHtmlDocument2).body.ou ...

最新文章

  1. 借助Glances Monitor,密切关注你的系统
  2. wegame饥荒一直连接中_怪诞画风下的异世界生存,一款让你吃到撑的游戏——《饥荒》...
  3. 读书笔记--101个shell脚本 之#13--猜数字
  4. 如何看懂ORACLE执行计划
  5. P多行溢出省略号的处理
  6. 关于parallel rollback的一点总结
  7. npm ERR! the command again as root/Administrator
  8. MST:Bad Cowtractors(POJ 2377)
  9. 荣耀推出MOSCHINO联名款荣耀20 PRO手机 售价3799元
  10. 今天开博第一篇,呵呵
  11. 一个奇怪的发现:html与body,body的margin对html不起作用,html的padding对body却起作用
  12. java语法特点_Java 语言特点
  13. 计算机网络之数据链路层协议总结
  14. 评价——模糊综合评价
  15. web前端课程设计:猫咪领养网站 HTML+CSS+JavaScript
  16. 软考-中级-网络工程师-知识点个人总结(二)
  17. 人工智能发展将使人类沦落为“无用阶级”
  18. 空间直角坐标转大地坐标 matlab实现
  19. 浅谈精准提取日志中的URL
  20. 试利用记录型信号量和pv操作写出_中考热点,几何操作型问题求解策略,值得关注...

热门文章

  1. 论文阅读:A ConvNet for the 2020s
  2. 双十二还没到,几何画板提前开抢
  3. 海康大华等网络摄像机监控视频RTSP/RTMP推流网页播放/直播无需插件低延迟解决方案研究
  4. 基于matlab的单相pwm逆变电路的仿真研究,基于Matlab的单相双极性spwm逆变电路仿真报告...
  5. Java中常用术语简称
  6. php configure libzip,PHP安装zip拓展,以及libzip安装问题
  7. Linux软件安装缺少依赖包解决方法。
  8. Android系统设置单双卡
  9. Java可以用到军事方面吗_恭喜长征五号遥三运载火箭发射,浅谈编程语言在军事方面的运用!...
  10. Android仿QQ登录下拉历史列表