使用WebCollector爬取时光网电影数据

数据源http://video.mtime.com/search

原数据是json格式的，其中i标示页码

http://video.mtime.com/api/videoSearch/getFilterData?h=movie&y=2019-2015&r=美国&p=3&s=1&i=1&c=30

<dependency><groupId>cn.edu.hfut.dmic.webcollector</groupId><artifactId>WebCollector</artifactId><version>2.73-alpha</version>
</dependency>

public class MtimeMovieCrawler extends RamCrawler {public MtimeMovieCrawler(int pageNum) {//拼接url，将需要爬取url丢给Crawlerfor (int i = 1; i <= pageNum; i++) {String url = String.format("http://video.mtime.com/api/videoSearch/getFilterData?h=movie&y=2019-2015&r=美国&p=3&s=1&i=%s&c=30", i);addSeedAndReturn(url);}}@Overridepublic void visit(Page page, CrawlDatums next) {//解析抓取到的数据，因为是json结果，实际就是解析jsonJsonArray list = page.jsonObject().get("movieIntegrateList").getAsJsonArray();list.forEach(element->{JsonObject movie = element.getAsJsonObject();System.out.println(movie.get("movieId").getAsString()+" "+movie.get("titleCn").getAsString()+" ("+movie.get("year").getAsInt()+")");System.out.println("导演："+movie.get("directorNameCn1").getAsString());System.out.println("演员："+movie.get("actorNameCn1").getAsString()+" "+movie.get("actorNameCn2").getAsString());System.out.println("海报："+"http:"+movie.get("coverPath").getAsString());System.out.println("");});}public static void main(String[] args) throws Exception {MtimeMovieCrawler crawler = new MtimeMovieCrawler(5);//开启5个线程抓取数据crawler.setThreads(5);//间隔500毫秒执行crawler.getConf().setExecuteInterval(500);crawler.start(1);}
}

218090 复仇者联盟4：终局之战 (2019)
导演：安东尼·罗素
演员：小罗伯特·唐尼 克里斯·埃文斯
海报：http://img5.mtime.cn/mg/2019/03/29/095612.14234221_200X200X2.jpg235701 大侦探皮卡丘 (2019)
导演：罗伯·莱特曼
演员：瑞安·雷诺兹 贾斯提斯·史密斯
海报：http://img5.mtime.cn/mg/2019/05/06/105807.30044254_200X200X2.jpg213190 哥斯拉2：怪兽之王 (2019)
导演：迈克尔·道赫蒂
演员：米莉·博比·布朗 维拉·法梅加
海报：http://img5.mtime.cn/mg/2019/05/23/095634.71391607_200X200X2.jpg

使用WebCollector爬取时光网电影数据相关推荐

python项目实战分析:爬取时光网电影TOP100
前言相信大家在各种看到的都是爬取猫眼,豆瓣电影排行榜TOP100的案例,下面为大家介绍爬取时光网的案例分析,用另一个方式来获取电影TOP100,下面就开始看看实现的过程吧导入第三方库用来显示信息 ...
python爬虫之爬取时光网电影影评
最近看了美国往事这部电影.于是就想到最近刚学的爬虫,就像试试把时光网影评爬取下来,并按照影评的名字存放在本地文件夹. 在长影评页面可以看到每篇文章的标题对应都有一个blogid,并且这个id对应该影评 ...
python爬电影排名用os bs4_python使用BeautifulSoup与正则表达式爬取时光网不同地区top100电影并对比...
前言还有一年多就要毕业了,不准备考研的我要着手准备找实习及工作了,所以一直没有更新. 因为Python是自学不久,发现很久不用的话以前学过的很多方法就忘了,今天打算使用简单的BeautifulSou ...
scrapy爬取豆瓣top250电影数据
scrapy爬取豆瓣top250电影数据 scrapy框架 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. sc ...
【Python实战】爬取豆瓣排行榜电影数据(含GUI界面版)
项目简介这个项目源于大三某课程设计.平常经常需要搜索一些电影,但是不知道哪些评分高且评价人数多的电影.为了方便使用,就将原来的项目重新改写了.当做是对爬虫技术.可视化技术的实践了.主要是通过从排行榜 ...
python-爬虫爬取豆瓣Top250电影数据
目标效果: 代码: #-*- codeing =utf-8 -*- #################引入模块################# from bs4 import BeautifulSo ...
python爬取豆瓣排行榜电影数据(含GUI界面版)
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...
爬取豆瓣排行榜电影数据
进入豆瓣排行榜喜剧模块页面,我们想要获取其电影数据,首先肯定不能直接对当前url发起请求,因为这样获取的将会是整个页面数据,而不是单纯的电影数据. 经过观察发现该页面可以往下拖动页面而更新电影,所以猜 ...
多协程和队列，爬取时光网电视剧TOP100的数据（剧名、导演、主演和简介）
目录说明 Code get_movie_id.py get_movie_url.py get_movie_info.py info2csv.py main.py 说明首先查看电视剧网页结构,发现所 ...

使用WebCollector爬取时光网电影数据

使用WebCollector爬取时光网电影数据相关推荐

最新文章

热门文章