Java爬取豆瓣电影数据,京东高级java面试
.build();
return config;
}
根据请求地址获取响应信息方法,获取成功后返回响应信息。
public static String doGetHtml(String url, Map<String, String> map, Map<String, String> mapTile) throws URISyntaxException {
//创建HTTPClient对象
CloseableHttpClient httpClient = HttpClients.createDefault();
//设置请求地址
//创建URLBuilder
URIBuilder uriBuilder = new URIBuilder(url);
//设置参数
if(!map.isEmpty()){
for(String key : map.keySet()){
uriBuilder.setParameter(key, map.get(key));
}
}
//创建HTTPGet对象,设置url访问地址
//uriBuilder.build()得到请求地址
HttpGet httpGet = new HttpGet(uriBuilder.build());
//设置请求头信息
if(!mapTile.isEmpty()){
for(String key : mapTile.keySet()){
httpGet.addHeader(key, mapTile.get(key));
}
}
//设置请求信息
httpGet.setConfig(getConfig());
System.out.println(“发起请求的信息:”+httpGet);
//使用HTTPClient发起请求,获取response
CloseableHttpResponse response = null;
try {
response = httpClient.execute(httpGet);
//解析响应
if(response.getStatusLine().getStatusCode() == 200){
//判断响应体Entity是否不为空,如果不为空就可以使用EntityUtils
if(response.getEntity() != null) {
String content = EntityUtils.toString(response.getEntity(), “utf8”);
return content;
}
}
}catch (IOException e){
e.printStackTrace();
}finally {
//关闭response
try {
response.close();
} catch (IOException e) {
e.printStackTrace();
}
}
return “”;
}
根据链接下载图片保存到本地方法。
public static String doGetImage(String url) throws IOException {
//获取HTTPClient对象
CloseableHttpClient httpClient = HttpClients.createDefault();
//设置HTTPGet请求对象,设置url地址
HttpGet httpGet = new HttpGet(url);
//设置请求信息
httpGet.setConfig(getConfig());
//使用HTTPClient发起请求,获取响应
CloseableHttpResponse response = null;
try {
//使用HTTPClient发起请求,获取响应
response = httpClient.execute(httpGet);
//解析响应,返回结果
if(response.getStatusLine().getStatusCode() == 200){
//判断响应体Entity是否不为空
if(response.getEntity() != null) {
//下载图片
//获取图片的后缀
String extName = url.substring(url.lastIndexOf("."));
//创建图片名,重命名图片
String picName = UUID.randomUUID().toString() + extName;
//下载图片
//声明OutputStream
OutputStream outputStream = new FileOutputStream(new File(“E://imges/” + picName));
response.getEntity().writeTo(outputStream);
//返回图片名称
return picName;
}
}
} catch (IOException e) {
e.printStackTrace();
}finally {
//关闭response
if(response != null){
try {
response.close();
} catch (IOException e) {
e.printStackTrace();
}
}
}
return “”;
}
HttpUtils工具类全部代码。
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.OutputStream;
import java.net.URISyntaxException;
import java.util.Map;
import java.util.UUID;
import org.apache.http.client.config.RequestConfig;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.client.utils.URIBuilder;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.impl.conn.PoolingHttpClientConnectionManager;
import org.apache.http.util.EntityUtils;
public class HttpUtils {
//创建连接池管理器
private static PoolingHttpClientConnectionManager cm;
public HttpUtils(){
cm = new PoolingHttpClientConnectionManager();
//设置最大连接数
cm.setMaxTotal(100);
//设置每个主机的最大连接数
cm.setDefaultMaxPerRoute(10);
}
//配置请求信息
private static RequestConfig getConfig() {
RequestConfig config = RequestConfig.custom()
.setConnectTimeout(10000) //创建连接的最长时间,单位毫秒
.setConnectionRequestTimeout(1
《一线大厂Java面试题解析+后端开发学习笔记+最新架构讲解视频+实战项目源码讲义》
【docs.qq.com/doc/DSmxTbFJ1cmN1R2dB】 完整内容开源分享
- //设置获取链接的最长时间,单位毫秒
.setSocketTimeout(10000) //设置数据传输的最长时间,单位毫秒
.build();
return config;
}
/**
根据请求地址下载页面数据
@param url 请求路径
@param map 请求参数
@param mapTile 请求头
@return //页面数据
@throws URISyntaxException
*/
public static String doGetHtml(String url, Map<String, String> map, Map<String, String> mapTile) throws URISyntaxException {
//创建HTTPClient对象
CloseableHttpClient httpClient = HttpClients.createDefault();
//设置请求地址
//创建URLBuilder
URIBuilder uriBuilder = new URIBuilder(url);
//设置参数
if(!map.isEmpty()){
for(String key : map.keySet()){
uriBuilder.setParameter(key, map.get(key));
}
}
//创建HTTPGet对象,设置url访问地址
//uriBuilder.build()得到请求地址
HttpGet httpGet = new HttpGet(uriBuilder.build());
//设置请求头信息
if(!mapTile.isEmpty()){
for(String key : mapTile.keySet()){
httpGet.addHeader(key, mapTile.get(key));
}
}
//设置请求信息
httpGet.setConfig(getConfig());
System.out.println(“发起请求的信息:”+httpGet);
//使用HTTPClient发起请求,获取response
CloseableHttpResponse response = null;
try {
response = httpClient.execute(httpGet);
//解析响应
if(response.getStatusLine().getStatusCode() == 200){
//判断响应体Entity是否不为空,如果不为空就可以使用EntityUtils
if(response.getEntity() != null) {
String content = EntityUtils.toString(response.getEntity(), “utf8”);
return content;
}
}
}catch (IOException e){
e.printStackTrace();
}finally {
//关闭response
try {
response.close();
} catch (IOException e) {
e.printStackTrace();
}
}
return “”;
}
/**
下载图片
@param url
@return 图片名称
*/
public static String doGetImage(String url) throws IOException {
//获取HTTPClient对象
CloseableHttpClient httpClient = HttpClients.createDefault();
//设置HTTPGet请求对象,设置url地址
HttpGet httpGet = new HttpGet(url);
//设置请求信息
httpGet.setConfig(getConfig());
//使用HTTPClient发起请求,获取响应
CloseableHttpResponse response = null;
try {
//使用HTTPClient发起请求,获取响应
response = httpClient.execute(httpGet);
//解析响应,返回结果
if(response.getStatusLine().getStatusCode() == 200){
//判断响应体Entity是否不为空
if(response.getEntity() != null) {
//下载图片
//获取图片的后缀
String extName = url.substring(url.lastIndexOf("."));
//创建图片名,重命名图片
String picName = UUID.randomUUID().toString() + extName;
//下载图片
//声明OutputStream
OutputStream outputStream = new FileOutputStream(new File(“E://imges/” + picName));
response.getEntity().writeTo(outputStream);
//返回图片名称
return picName;
}
}
} catch (IOException e) {
e.printStackTrace();
}finally {
//关闭response
if(response != null){
try {
response.close();
} catch (IOException e) {
e.printStackTrace();
}
}
}
return “”;
}
}
在项目的test类中编写代码获取数据保存到数据库中。
先通过@Resource注解将MovieService类对应的实现类注入进来。
@Autowired
private MovieService movieService;
设置请求地址https://movie.douban.com/j/search_subjects
String url = “https://movie.douban.com/j/search_subjects”;
之后在定义两个Map,用于存储请求头和请求参数信息。
网页请求头。
请求参数,type=movie&tag=热门&sort=recommend&page_limit=20&page_start=0
设置请求参数和请求头代码如下。
Map<String, String> map = new HashMap<>();
Map<String, String> mapTitle = new HashMap<>();
//设置请求参数
map.put(“type”, “movie”);
map.put(“tag”, “热门”);
map.put(“sort”, “recommend”);
map.put(“page_limit”, “20”);
//i为一个变量,从多少条数据开始查询
map.put(“page_start”, i+"");
//设置请求头
mapTitle.put(“Accept”, “text/html,application/xhtml+xml,application/xml;q=0.9,/;q=0.8”);
mapTitle.put(“User-Agent”, “Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:71.0) Gecko/20100101 Firefox/71.0”);
mapTitle.put(“Cookie”, “bid=QNoG_zn4mZY; _pk_id.100001.4cf6=6209709719896af7.1575619506.2.1575940374.1575621362.; __utma=30149280.1889677372.1575619507.1575619507.1575940335.2; __utmz=30149280.1575619507.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); __utma=223695111.986359939.1575619507.1575619507.1575940335.2; __utmz=223695111.1575619507.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); __yadk_uid=QVSP2uvzzDBrpnvHKzZpZEWJnuARZ4aL; ll=“118259”; _vwo_uuid_v2=D1FC45CAE50CF6EE38D245C68D7CECC4F|e8d1db73f4c914f0b0be7ed85ac50d14; trc_cookie_storage=taboola%2520global%253Auser-id%3D690a21c0-9ad9-4f8d-b997-f0decb3cfc9b-tuct4e39874; _pk_ses.100001.4cf6=*; ap_v=0,6.0; __utmb=30149280.0.10.1575940335; __utmc=30149280; __utmb=223695111.0.10.1575940335; __utmc=223695111; __gads=ID=2f06cb0af40206d0:T=1575940336:S=ALNI_Ma4rv9YmqrkIUNXsIt5E7zT6kZy2w”);
通过HttpUtils类doGetHtml方法获取该请求响应的数据。
String html = HttpUtils.doGetHtml(url, map, mapTitle);
请求响应数据格式。
可以看出是一个json格式的数据,我们可以通过阿里巴巴的Fastjson一个json解析库,把它解析成为一个List格式数据。Fastjson基本用法
JSONObject jsonObject = JSONObject.parseObject(html);
JSONArray jsonArray = jsonObject.getJSONArray(“subjects”);
因为每页查询是是20条数据,我们用一个for循环遍历一下这一页的数据。可以获得电影的标题,评分,图片链接和详情页面的链接,上面JSON数据中的cover属性值为图片的地址。通过图片的链接我们可以调用HttpUtils类的doGetImage方法把图片保存到本地磁盘。
HttpUtils.doGetImage(json.getString(“cover”));
上面请求的数据只能获取到标题,评分和图片,然而我们还有获取导演,主演,和电影时长。这些信息我们点开上面请求到的json数据的url属性值,会打开详情页面,详情页面中有导演,主演,和电影时长信息。
打开的详情页面,我们可以看到导演,主演和电影时长等信息。
我们查询详情页面的源代码,可以看到导演,主演,电影时长等信息的位置。
我们在通过HttpUtils类doGetHtml方法获取详情页面的数据,利用Jsoup进行解析,Jsoup是一个可以让java代码解析HTML代码的一个工具,可以参考一下Jsoup官网文档,找到主演,导演和电影时长信息。到这里我们需要的全部信息都获取到了,最后把数据保存起来。
String url2 = json.getString(“url”);
Map<String, String> map2 = new HashMap<>();
Map<String, String> mapTitle2 = new HashMap<>();
String html2 = HttpUtils.doGetHtml(url2, map2, mapTitle2);
//解析HTML获取DOM对象
Document doc = Jsoup.parse(html2);
//获取导演名称
Element element = doc.select(“div#info a[rel=v:directedBy]”).first();
movie.setDirector(element.text());
Elements elements = doc.select(“div#info a[rel=v:starring]”);
//主演
String protagonist = “”;
for (Element e : elements) {
protagonist += e.text()+",";
}
if(!protagonist.equals("")){
protagonist = protagonist.substring(0, protagonist.length()-1);
}
movie.setProtagonist(protagonist);
//获取电影时长
element = doc.select(“div#info span[property=v:runtime]”).first();
movie.setDateTime(element.text());
movieService.save(movie);
测试类全部代码如下。
import com.alibaba.fastjson.JSONObject;
import com.mcy.crawlerdouban.entity.Movie;
import com.mcy.crawlerdouban.service.MovieService;
import com.mcy.crawlerdouban.util.HttpUtils;
import com.alibaba.fastjson.JSONArray;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import org.junit.jupiter.api.Test;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.boot.test.context.SpringBootTest;
import java.io.IOException;
import java.net.URISyntaxException;
import java.util.HashMap;
import java.util.Map;
@SpringBootTest
class CrawlerDoubanApplicationTests {
@Autowired
private MovieService movieService;
@Test
public void contextLoads() throws URISyntaxException, IOException {
//请求地址
//https://movie.douban.com/j/search_subjects?type=movie&tag=热门&sort=recommend&page_limit=20&page_start=0
String url = “https://movie.douban.com/j/search_subjects”;
Map<String, String> map = new HashMap<>();
Map<String, String> mapTitle = new HashMap<>();
//设置请求参数
map.put(“type”, “movie”);
map.put(“tag”, “热门”);
map.put(“sort”, “recommend”);
map.put(“page_limit”, “20”);
//设置请求头
mapTitle.put(“Accept”, “text/html,application/xhtml+xml,application/xml;q=0.9,/;q=0.8”);
mapTitle.put(“User-Agent”, “Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:71.0) Gecko/20100101 Firefox/71.0”);
mapTitle.put(“Cookie”, “bid=QNoG_zn4mZY; _pk_id.100001.4cf6=6209709719896af7.1575619506.2.1575940374.1575621362.; __utma=30149280.1889677372.1575619507.1575619507.1575940335.2; __utmz=30149280.1575619507.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); __utma=223695111.986359939.1575619507.1575619507.1575940335.2; __utmz=223695111.1575619507.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); __yadk_uid=QVSP2uvzzDBrpnvHKzZpZEWJnuARZ4aL; ll=“118259”; _vwo_uuid_v2=D1FC45CAE50CF6EE38D245C68D7CECC4F|e8d1db73f4c914f0b0be7ed85ac50d14; trc_cookie_storage=taboola%2520global%253Auser-id%3D690a21c0-9ad9-4f8d-b997-f0decb3cfc9b-tuct4e39874; _pk_ses.100001.4cf6=*; ap_v=0,6.0; __utmb=30149280.0.10.1575940335; __utmc=30149280; __utmb=223695111.0.10.1575940335; __utmc=223695111; __gads=ID=2f06cb0af40206d0:T=1575940336:S=ALNI_Ma4rv9YmqrkIUNXsIt5E7zT6kZy2w”);
//获取前100条数据,可以自行更改
for(int i = 0; i < 100; i+=20){
map.put(“page_start”, i+"");
String html = HttpUtils.doGetHtml(url, map, mapTitle);
JSONObject jsonObject = JSONObject.parseObject(html);
JSONArray jsonArray = jsonObject.getJSONArray(“subjects”);
for(int j = 0; j < jsonArray.size(); j++){ //循环遍历每页数据
Movie movie = new Movie();
JSONObject json = (JSONObject) jsonArray.get(j);
movie.setRate(json.getDouble(“rate”));
movie.setTitle(json.getString(“title”));
//下载保存图片
HttpUtils.doGetImage(json.getString(“cover”));
String url2 = json.getString(“url”);
Java爬取豆瓣电影数据,京东高级java面试相关推荐
- Java爬取豆瓣电影数据
所用到的技术有Jsoup,HttpClient. Jsoup jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址.HTML文本内容.它提供了一套非常省力的API,可通过DOM,CS ...
- python实现爬虫探探_全栈 - 9 实战 爬取豆瓣电影数据
这是全栈数据工程师养成攻略系列教程的第九期:9 实战 爬取豆瓣电影数据. 掌握了爬虫的基本原理和代码实现,现在让我们通过实战项目巩固一下. 确定目标 在写爬虫之前应当想清楚:我需要哪方面的数据?需要包 ...
- BeautifulSoup爬取豆瓣电影数据
BeautifulSoup爬取豆瓣TOP250 豆瓣爬取地址 https://movie.douban.com/top250?format=text BeautifulSoup官网地址 https:/ ...
- 【爬虫实践】记一次Scrapy框架入门使用爬取豆瓣电影数据
本次的学习分享主要是使用一次Scrapy框架,毕竟在很多次的时候,自己在提取一些或是需要实验数据的时候,数据量要求不大,很快便能通过简单的request等库进行调用,然后获取数据. 这次,则是想要使用 ...
- python爬虫豆瓣电影评价_使用爬虫爬取豆瓣电影影评数据Python版
在 使用爬虫爬取豆瓣电影影评数据Java版 一文中已详细讲解了爬虫的实现细节,本篇仅为展示Python版本爬虫实现,所以直接上代码 完整代码 爬虫主程序 # 爬虫启动入口 from C02.data ...
- python爬取豆瓣电影信息数据
题外话+ 大家好啊,最近自己在做一个属于自己的博客网站(准备辞职回家养老了,明年再战)在家里 琐事也很多, 加上自己 一回到家就懒了(主要是家里冷啊! 广东十几度,老家几度,躲在被窝瑟瑟发抖,) 由于 ...
- 爬虫练习-爬取豆瓣电影TOP250的数据
前言: 爬取豆瓣电影TOP250的数据,并将爬取的数据存储于Mysql数据库中 本文为整理代码,梳理思路,验证代码有效性--2020.1.4 环境: Python3(Anaconda3) PyChar ...
- python如何爬取豆瓣_Python实战之如何爬取豆瓣电影?本文教你
爬虫又称为网页蜘蛛,是一种程序或脚本. 但重点在于,它能够按照一定的规则,自动获取网页信息. 爬虫的基本原理--通用框架 1.挑选种子URL: 2.讲这些URL放入带抓取的URL列队: 3.取出带抓取 ...
- python爬取豆瓣电影并分析_Python实战之如何爬取豆瓣电影?本文教你
爬虫又称为网页蜘蛛,是一种程序或脚本. 但重点在于,它能够按照一定的规则,自动获取网页信息. 爬虫的基本原理--通用框架 1.挑选种子URL: 2.讲这些URL放入带抓取的URL列队: 3.取出带抓取 ...
最新文章
- [综合面试] 计算机面试书籍与求职网站推荐
- 详解SSH框架的原理和优点
- ppt怎么加注解文字_ppt注释的使用方法
- Python Multiprocessing with PyCUDA
- 爬虫笔记8实例淘宝商品比价爬虫
- React Native使用指南-植入原生应用
- 怎么抓python程序的包_如何在AWS上部署python应用程序
- sublime快捷键_安利 | sublime
- php 单击图片放大,单击样列图片放大,再次点击缩回原图
- Leetcode每日一题:424.longest-repeating-character-replacement(替换后的最长重复字符)
- delphi 读取pdf
- pythonobject转int_在Python中将元组转换为int
- MySQL3_外键及查询
- 自然语言处理 第二期
- 【转】微信订阅号的运营
- Reason Studios Reason 12 v12.2.5 WiN 音乐制作软件和机架插件
- 富士康java面试题
- 应急响应-敏感信息泄露怎么解决?
- 【Python数据分析】房价数据分析实战(包含源码和数据)
- 网络安全与渗透:信息收集——FOFA,域名信息(六)此生无悔入华夏,男儿何不带吴钩
热门文章
- 未来的计算机手抄报,关于未来科技手抄报图片
- html网页渲染过程
- linux更改jdk环境变量,linux 设置jdk环境变量
- python怎么后撤步_这3种不同的后撤步,每一种都有独特的效果!
- css换行显示省略号
- oracle逗号隔开行转列_Oracle行转列函数
- Virtuoso中使用calculator进行波形计算方法
- 【100%通过率】华为OD机试真题 Java 实现【分奖金】【2022.11 Q4 新题】
- 操作简单易上手 人性化系统让OPPO R11s用着更省心
- IT人论房价 (二) 华为何逃离深圳,深圳怎么了