数据源http://video.mtime.com/search

原数据是json格式的,其中i标示页码

http://video.mtime.com/api/videoSearch/getFilterData?h=movie&y=2019-2015&r=美国&p=3&s=1&i=1&c=30

<dependency><groupId>cn.edu.hfut.dmic.webcollector</groupId><artifactId>WebCollector</artifactId><version>2.73-alpha</version>
</dependency>
public class MtimeMovieCrawler extends RamCrawler {public MtimeMovieCrawler(int pageNum) {//拼接url,将需要爬取url丢给Crawlerfor (int i = 1; i <= pageNum; i++) {String url = String.format("http://video.mtime.com/api/videoSearch/getFilterData?h=movie&y=2019-2015&r=美国&p=3&s=1&i=%s&c=30", i);addSeedAndReturn(url);}}@Overridepublic void visit(Page page, CrawlDatums next) {//解析抓取到的数据,因为是json结果,实际就是解析jsonJsonArray list = page.jsonObject().get("movieIntegrateList").getAsJsonArray();list.forEach(element->{JsonObject movie = element.getAsJsonObject();System.out.println(movie.get("movieId").getAsString()+" "+movie.get("titleCn").getAsString()+" ("+movie.get("year").getAsInt()+")");System.out.println("导演:"+movie.get("directorNameCn1").getAsString());System.out.println("演员:"+movie.get("actorNameCn1").getAsString()+" "+movie.get("actorNameCn2").getAsString());System.out.println("海报:"+"http:"+movie.get("coverPath").getAsString());System.out.println("");});}public static void main(String[] args) throws Exception {MtimeMovieCrawler crawler = new MtimeMovieCrawler(5);//开启5个线程抓取数据crawler.setThreads(5);//间隔500毫秒执行crawler.getConf().setExecuteInterval(500);crawler.start(1);}
}
218090 复仇者联盟4:终局之战 (2019)
导演:安东尼·罗素
演员:小罗伯特·唐尼 克里斯·埃文斯
海报:http://img5.mtime.cn/mg/2019/03/29/095612.14234221_200X200X2.jpg235701 大侦探皮卡丘 (2019)
导演:罗伯·莱特曼
演员:瑞安·雷诺兹 贾斯提斯·史密斯
海报:http://img5.mtime.cn/mg/2019/05/06/105807.30044254_200X200X2.jpg213190 哥斯拉2:怪兽之王 (2019)
导演:迈克尔·道赫蒂
演员:米莉·博比·布朗 维拉·法梅加
海报:http://img5.mtime.cn/mg/2019/05/23/095634.71391607_200X200X2.jpg

使用WebCollector爬取时光网电影数据相关推荐

  1. python项目实战分析:爬取时光网电影TOP100

    前言 相信大家在各种看到的都是爬取猫眼,豆瓣电影排行榜TOP100的案例,下面为大家介绍爬取时光网的案例分析,用另一个方式来获取电影TOP100,下面就开始看看实现的过程吧 导入第三方库 用来显示信息 ...

  2. python爬虫之爬取时光网电影影评

    最近看了美国往事这部电影.于是就想到最近刚学的爬虫,就像试试把时光网影评爬取下来,并按照影评的名字存放在本地文件夹. 在长影评页面可以看到每篇文章的标题对应都有一个blogid,并且这个id对应该影评 ...

  3. python爬电影排名用os bs4_python使用BeautifulSoup与正则表达式爬取时光网不同地区top100电影并对比...

    前言 还有一年多就要毕业了,不准备考研的我要着手准备找实习及工作了,所以一直没有更新. 因为Python是自学不久,发现很久不用的话以前学过的很多方法就忘了,今天打算使用简单的BeautifulSou ...

  4. scrapy爬取豆瓣top250电影数据

    scrapy爬取豆瓣top250电影数据 scrapy框架 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. sc ...

  5. 【Python实战】爬取豆瓣排行榜电影数据(含GUI界面版)

    项目简介 这个项目源于大三某课程设计.平常经常需要搜索一些电影,但是不知道哪些评分高且评价人数多的电影.为了方便使用,就将原来的项目重新改写了.当做是对爬虫技术.可视化技术的实践了.主要是通过从排行榜 ...

  6. python-爬虫爬取豆瓣Top250电影数据

    目标效果: 代码: #-*- codeing =utf-8 -*- #################引入模块################# from bs4 import BeautifulSo ...

  7. python爬取豆瓣排行榜电影数据(含GUI界面版)

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...

  8. 爬取豆瓣排行榜电影数据

    进入豆瓣排行榜喜剧模块页面,我们想要获取其电影数据,首先肯定不能直接对当前url发起请求,因为这样获取的将会是整个页面数据,而不是单纯的电影数据. 经过观察发现该页面可以往下拖动页面而更新电影,所以猜 ...

  9. 多协程和队列,爬取时光网电视剧TOP100的数据(剧名、导演、主演和简介)

    目录 说明 Code get_movie_id.py get_movie_url.py get_movie_info.py info2csv.py main.py 说明 首先查看电视剧网页结构,发现所 ...

最新文章

  1. Java获取照片的Exif信息,并解析GPS
  2. docker-ce-17.09 网络基础配置
  3. mac云显卡服务器_重磅!NVIDIA GeForce NOW登陆Mac:云显卡玩吃鸡逆天
  4. 【深度学习】聊聊Batch Normalization在网络结构中的位置
  5. animation of android (1)
  6. 通过Dapr实现一个简单的基于.net的微服务电商系统(十八)——服务保护之多级缓存...
  7. 集合框架 Queue---BlockingQueue详解
  8. leetcode851. 喧闹和富有(dfs)
  9. HDFS概述(2)————Block块大小设置
  10. Android中通过ViewHelper.setTranslationY实现View移动控制(NineOldAndroids开源项目)
  11. ASP.NET多附件上传和附件编辑的实现
  12. 使用脚本控制网页Table的显示隐藏(全代码)_AX
  13. layer修改弹框标题样式
  14. hadoop学习笔记之-NFS配置
  15. 3个文件,不到400行代码打造经典吃豆人小游戏
  16. win7下MeGUI压片无声、卡死、音画不同步、无法转码、无法硬解的解决办法
  17. matlab红外遥感温度反演,热红外遥感地表温度反演研究现状与发展趋势
  18. python换源之pip.conf
  19. PCFG CKY句法分析
  20. 最快速度求两个数组之交集算法与hash

热门文章

  1. python如何计算三体运行问题
  2. 平安科技有新招:游戏防沉迷更彻底 1
  3. 指导思想——人不成熟的五大特征
  4. 2021-2027全球与中国步入式冰箱冰柜市场深度研究分析报告
  5. 计算机课中的隐藏,合理利用组策略--隐藏计算机中的某个磁盘
  6. 加拿大 计算机 硕士 授课型,加拿大研究型硕士和授课型硕士的区别你知道吗?...
  7. 如何推翻JAVA的统治地位?
  8. 第二十五章 使用系统监视器 - 应用程序监视器
  9. Day017 差之毫厘失之千里
  10. 给网页添加网站的logo(icon图标)