java 爬取评论,Java基于WebMagic爬取某豆瓣电影评论的实现
目的
搭建爬虫平台,爬取某豆瓣电影的评论信息。
准备
webmagic是一个开源的Java垂直爬虫框架,目标是简化爬虫的开发流程,让开发者专注于逻辑功能的开发。webmagic的核心非常简单,但是覆盖爬虫的整个流程,也是很好的学习爬虫开发的材料。
下载WebMagic源码,或Maven导入,或Jar包方式导入。 码云地址:https://gitee.com/flashsword20/webmagic
试运行
搭建好后打开项目, 在 us.codecraft.webmagic.processor.example包下有几个可运行的例子,我们可以直接运行体验(BaiduBaikePageProcessor 百度百科的这个比较稳定)。
爬到结果说明没问题。
自定义爬虫
接下来我们自己编写一个爬取豆瓣评论的爬虫。
爬取地址:https://movie.douban.com/subject/35096844/reviews?start=0
F12进入开发者模式 分析前端页面
我们发现我们需要爬取的评论信息存放在 class=short-content的div 中。
创建一个豆瓣爬取的类DoubanPageProcessor如下:
package us.codecraft.webmagic.processor.example;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.ResultItems;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;
import java.util.List;
import java.util.Map;
/**
* A simple PageProcessor.
* 爬取豆瓣某电影的评论 爬取地址:https://movie.douban.com/subject/35096844/reviews?start=0
*
* @author code4crafter@gmail.com
* @since 0.1.0
*/
public class DoubanPageProcessor implements PageProcessor {
private Site site;
public DoubanPageProcessor(String urlPattern) {
this.site = Site.me().setRetryTimes(3).setSleepTime(300); // 设置站点重试次数3 间隔300ms
}
@Override
public void process(Page page) {
page.putField("title", page.getHtml().xpath("//title/text()")); //爬取网页标题
// page.putField("html", page.getHtml().toString()); //爬取整个页面的html
page.putField("titleList", page.getHtml().css("div.short-content", "text").all()); // 我们要爬取的核心信息内容,获取方式与css选择器用法一样
// page.putField("content", page.getHtml().smartContent());
}
@Override
public Site getSite() {
//settings
return site;
}
public static void main(String[] args) {
Spider spider = Spider.create(new DoubanPageProcessor("https://movie\.douban\.com\d+"));
ResultItems resultItems = spider.get("https://movie.douban.com/subject/35096844/reviews?start=0");// 爬取并获得爬取结果
Map map = resultItems.getAll();
for (Map.Entry entry : map.entrySet()) {
System.out.println(entry.getKey() + " : " + entry.getValue()); //打印爬取的所有内容
}
List shortList = (List) map.get("titleList");
System.out.println("=====================分隔线===================
短评如下:");
for (int i = 0; i < shortList.size(); i++) {
System.out.println(i + "、" + shortList.get(i).trim()); // 打印爬取的评论内容
}
spider.close();
}
}
运行结果如下:
爬取成功。
到此这篇关于Java基于WebMagic爬取某豆瓣电影评论的实现的文章就介绍到这了,更多相关Java WebMagic爬取内容请搜索云海天教程以前的文章或继续浏览下面的相关文章希望大家以后多多支持云海天教程!
java 爬取评论,Java基于WebMagic爬取某豆瓣电影评论的实现相关推荐
- Python豆瓣电影评论的爬取及词云显示
Python豆瓣电影评论的爬取及词云显示 课程设计论文链接 前言 开发工具.核心库 系统相关技术介绍 系统分析与设计 系统功能模块组成 实现功能和目标 爬取模块设计 爬取过程中下一页的处理 窗口界面设 ...
- Python爬虫之豆瓣电影评论数据的爬取(十四)
原创不易,转载前请注明博主的链接地址:Blessy_Zhu https://blog.csdn.net/weixin_42555080 本次代码的环境: 运行平台: Windows Python版本: ...
- python爬取豆瓣电影评论_python 爬取豆瓣电影评论,并进行词云展示及出现的问题解决办法...
def getHtml(url): """获取url页面""" headers = {'User-Agent':'Mozilla/5.0 ( ...
- Python爬取豆瓣电影评论数据(通用模板代码)----以《中国医生》为例
中国医生豆瓣电影评论获取 1 前言 2 数据源分析 3数据爬取(代码实现) 4 结果展示 1 前言 豆瓣是影迷评分.非视频网站,也非购票平台,能长期专门使用豆瓣标记.评价电影的,相对来说是属于影迷 ...
- Python爬虫爬取豆瓣电影评论内容,评论时间和评论人
Python爬虫爬取豆瓣电影评论内容,评论时间和评论人 我们可以看到影评比较长,需要展开才能完整显示.但是在网页源码中是没有显示完整影评的.所以我们考虑到这部分应该是异步加载的方式显示.所以打开网页的 ...
- 基于SSM和Boostrap实现的电影评论网站设计 毕业论文+外文翻译及原文+项目源码
https://ym.maptoface.com/archives/45000 项目介绍: 基于SSM和Boostrap实现的电影评论网站设计 毕业论文+外文翻译及原文+项目源码 系统说明: 摘 要 ...
- Python项目----基于Scrapy爬虫框架的豆瓣电影数据采集
基于Scrapy爬虫框架的豆瓣电影数据采集 项目介绍 项目简介 项目开发环境 项目需求分析 Scrapy框架 Scrapy框架基础知识 Scrapy框架安装 Scrapy框架使用 项目功能实现 爬虫主 ...
- 哪吒之魔童降世——豆瓣电影评论爬虫
@TOC哪吒之魔童降世--豆瓣电影评论爬虫 学校里的一个小作业,写个影评分析,网上搜了下资料,总结了一下,顺便修改了修改代码,亲自实测了下,因为需要登录才能爬取,所以设定了些模拟登陆,但是即使登录之后 ...
- 基于vue2.0的一个豆瓣电影App
1.搭建项目框架 使用vue-cli 没安装的需要先安装 npm intall -g vue-cli 使用vue-cli生成项目框架 vue init webpack-simple vue-movie ...
最新文章
- faceboxes笔记
- [导入]ASP常用函数:getIMG()
- php返回类中方法,php如何获取类中所有的方法名
- C# winform webbrowser如何指定内核为IE11?
- 【14年浙江省赛 ZOJ 3778】Talented Chef
- Laya的位图字体bitmapFont字体用法
- 洞察药监局数据,挖掘万亿价值
- mfc获取计算机的连接端口,[求助]请问socket编程里,服务器端用什么函数获取客户端的地址与端口...
- 游戏修改器制作教程三:内存与Cheat Engine
- onenote同步问题
- one class classification
- 中考计算机考键盘,信息技术中考键盘常识复习讲座.ppt
- uni-app获取省市区详细位置信息
- html转化成PDF
- Ubuntu操作系统输入法键位错乱解法记录(输入法无法正确打出~、等字符)
- 计算机的两种启动引导方式,硬盘的两种分区和对应启动引导方式
- 十进制负数转换成二进制数的方法
- lnux php 连接access,在Linux下实现对Microsoft Access Database(.mdb
- Google Maps嵌入参数
- sscom 中文显示 乱码_SSM框架:解决后台传数据到前台中文乱码问题,使用@ResponseBody返回json 中文乱码 Web程序 - 贪吃蛇学院-专业IT技术平台...