所用到的技术有Jsoup,HttpClient。

Jsoup

jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。

HttpClient

HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了,越来越多的 Java 应用程序需要直接通过 HTTP 协议来访问网络资源。虽然在 JDK 的 java net包中已经提供了访问 HTTP 协议的基本功能,但是对于大部分应用程序来说,JDK 库本身提供的功能还不够丰富和灵活。HttpClient 是 Apache Jakarta Common 下的子项目,用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包,并且它支持 HTTP 协议最新的版本和建议。

爬取豆瓣电影数据

豆瓣电影网址。

https://movie.douban.com/explore#!type=movie&tag=热门&sort=recommend&page_limit=20&page_start=0

打开浏览器f12,地址栏中输入该地址访问,可以看到请求响应的页面,对应可以找到电影数据的请求地址,数据请求地址

https://movie.douban.com/j/search_subjects?type=movie&tag=热门&sort=recommend&page_limit=20&page_start=0

可以看到数据请求地址响应过来的是一个JSON格式的数据,之后我们看到请求地址上的参数type=movie&tag=热门&sort=recommend&page_limit=20&page_start=0。其中type是电影tag是标签,sort是按照热门进行排序的,page_limit是每页20条数据,page_start是从第几条数据开始查询(下标从0开始)。但是这不是我们想要的,我们需要去找豆瓣电影数据的总入口地址是下面这个

https://movie.douban.com/j/search_subjects

创建SpringBoot项目爬取数据

把爬取到的数据保存到数据库中,电影图片保存在本地磁盘中,这里持久层用的是JPA,所以需要引入对应的依赖。pom.xml中依赖代码如下。

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 https://maven.apache.org/xsd/maven-4.0.0.xsd"><modelVersion>4.0.0</modelVersion><parent><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-parent</artifactId><version>2.2.1.RELEASE</version><relativePath/> <!-- lookup parent from repository --></parent><groupId>com.mcy</groupId><artifactId>crawler-douban</artifactId><version>0.0.1-SNAPSHOT</version><name>crawler-douban</name><description>Demo project for Spring Boot</description><properties><java.version>1.8</java.version></properties><dependencies><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-jpa</artifactId></dependency><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId></dependency><dependency><groupId>mysql</groupId><artifactId>mysql-connector-java</artifactId><scope>runtime</scope></dependency><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-test</artifactId><scope>test</scope><exclusions><exclusion><groupId>org.junit.vintage</groupId><artifactId>junit-vintage-engine</artifactId></exclusion></exclusions></dependency><!--httpclient--><dependency><groupId>org.apache.httpcomponents</groupId><artifactId>httpclient</artifactId><version>4.5.2</version></dependency><!--jsoup,解析HTML--><dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.11.3</version></dependency><dependency><groupId>com.alibaba</groupId><artifactId>fastjson</artifactId><version>1.2.47</version></dependency></dependencies><build><plugins><plugin><groupId>org.springframework.boot</groupId><artifactId>spring-boot-maven-plugin</artifactId></plugin></plugins></build></project>

项目目录结构如下。

首先我们在entity包中建立实体对象,字段为豆瓣电影的基本信息(有些信息是详情页面的信息)。

Movie实体类。

import javax.persistence.*;@Entity
public class Movie {private Integer id;private double rate;    //评分private String title;   //电影名称private String director;    //导演private String protagonist; //主演private String dateTime;    //电影时长@Id@GeneratedValue(strategy = GenerationType.IDENTITY)public Integer getId() {return id;}public void setId(Integer id) {this.id = id;}public double getRate() {return rate;}public void setRate(double rate) {this.rate = rate;}public String getTitle() {return title;}public void setTitle(String title) {this.title = title;}public String getDirector() {return director;}public void setDirector(String director) {this.director = director;}@Column(length=2000)public String getProtagonist() {return protagonist;}public void setProtagonist(String protagonist) {this.protagonist = protagonist;}public String getDateTime() {return dateTime;}public void setDateTime(String dateTime) {this.dateTime = dateTime;}
}

在src/main/resources下找到application.properties文件,在该配置文件中配置数据库链接信息,需要在数据库中新建一个名为douban的数据库。

spring.datasource.url=jdbc:mysql://localhost:3306/douban?serverTimezone=GMT%2B8
spring.datasource.username=root
spring.datasource.password=root
spring.datasource.driver-class-name=com.mysql.cj.jdbc.Driver
spring.jpa.database-platform=org.hibernate.dialect.MySQL5InnoDBDialect
spring.jpa.show-sql=true
spring.jpa.hibernate.ddl-auto=update
spring.jpa.hibernate.use-new-id-generator-mappings=false

创建MovieRepository数据访问层接口

import com.mcy.crawlerdouban.entity.Movie;
import org.springframework.data.jpa.repository.JpaRepository;public interface MovieRepository extends JpaRepository<Movie, Integer> {}

创建MovieService类,里边有一个保存数据的方法。

import com.mcy.crawlerdouban.entity.Movie;
import com.mcy.crawlerdouban.repository.MovieRepository;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.stereotype.Service;@Service
public class MovieService {@Autowiredprivate MovieRepository movieRepository;public void save(Movie movie) {movieRepository.save(movie);}
}

创建一个HttpUtils获取网页数据和保存图片的工具类。

创建连接池和配置连接池信息。

//创建连接池管理器
private static PoolingHttpClientConnectionManager cm;public HttpUtils(){cm = new PoolingHttpClientConnectionManager();//设置最大连接数cm.setMaxTotal(100);//设置每个主机的最大连接数cm.setDefaultMaxPerRoute(10);
}//配置请求信息
private static RequestConfig getConfig() {RequestConfig config = RequestConfig.custom().setConnectTimeout(10000)      //创建连接的最长时间,单位毫秒.setConnectionRequestTimeout(10000)  //设置获取链接的最长时间,单位毫秒.setSocketTimeout(10000)     //设置数据传输的最长时间,单位毫秒.build();return config;
}

根据请求地址获取响应信息方法,获取成功后返回响应信息。

public static String doGetHtml(String url, Map<String, String> map, Map<String, String> mapTile) throws URISyntaxException {//创建HTTPClient对象CloseableHttpClient httpClient = HttpClients.createDefault();//设置请求地址//创建URLBuilderURIBuilder uriBuilder = new URIBuilder(url);//设置参数if(!map.isEmpty()){for(String key : map.keySet()){uriBuilder.setParameter(key, map.get(key));}}//创建HTTPGet对象,设置url访问地址//uriBuilder.build()得到请求地址HttpGet httpGet = new HttpGet(uriBuilder.build());//设置请求头信息if(!mapTile.isEmpty()){for(String key : mapTile.keySet()){httpGet.addHeader(key, mapTile.get(key));}}//设置请求信息httpGet.setConfig(getConfig());System.out.println("发起请求的信息:"+httpGet);//使用HTTPClient发起请求,获取responseCloseableHttpResponse response = null;try {response = httpClient.execute(httpGet);//解析响应if(response.getStatusLine().getStatusCode() == 200){//判断响应体Entity是否不为空,如果不为空就可以使用EntityUtilsif(response.getEntity() != null) {String content = EntityUtils.toString(response.getEntity(), "utf8");return content;}}}catch (IOException e){e.printStackTrace();}finally {//关闭responsetry {response.close();} catch (IOException e) {e.printStackTrace();}}return "";
}

根据链接下载图片保存到本地方法。

public static String doGetImage(String url) throws IOException {//获取HTTPClient对象CloseableHttpClient httpClient = HttpClients.createDefault();//设置HTTPGet请求对象,设置url地址HttpGet httpGet = new HttpGet(url);//设置请求信息httpGet.setConfig(getConfig());//使用HTTPClient发起请求,获取响应CloseableHttpResponse response = null;try {//使用HTTPClient发起请求,获取响应response = httpClient.execute(httpGet);//解析响应,返回结果if(response.getStatusLine().getStatusCode() == 200){//判断响应体Entity是否不为空if(response.getEntity() != null) {//下载图片//获取图片的后缀String extName = url.substring(url.lastIndexOf("."));//创建图片名,重命名图片String picName = UUID.randomUUID().toString() + extName;//下载图片//声明OutputStreamOutputStream outputStream = new FileOutputStream(new File("E://imges/" + picName));response.getEntity().writeTo(outputStream);//返回图片名称return picName;}}} catch (IOException e) {e.printStackTrace();}finally {//关闭responseif(response != null){try {response.close();} catch (IOException e) {e.printStackTrace();}}}return "";
}

HttpUtils工具类全部代码。

import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.OutputStream;
import java.net.URISyntaxException;
import java.util.Map;
import java.util.UUID;
import org.apache.http.client.config.RequestConfig;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.client.utils.URIBuilder;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.impl.conn.PoolingHttpClientConnectionManager;
import org.apache.http.util.EntityUtils;public class HttpUtils {//创建连接池管理器private static PoolingHttpClientConnectionManager cm;public HttpUtils(){cm = new PoolingHttpClientConnectionManager();//设置最大连接数cm.setMaxTotal(100);//设置每个主机的最大连接数cm.setDefaultMaxPerRoute(10);}//配置请求信息private static RequestConfig getConfig() {RequestConfig config = RequestConfig.custom().setConnectTimeout(10000)      //创建连接的最长时间,单位毫秒.setConnectionRequestTimeout(10000)  //设置获取链接的最长时间,单位毫秒.setSocketTimeout(10000)     //设置数据传输的最长时间,单位毫秒.build();return config;}/*** 根据请求地址下载页面数据* @param url   请求路径* @param map   请求参数* @param mapTile   请求头* @return  //页面数据* @throws URISyntaxException*/public static String doGetHtml(String url, Map<String, String> map, Map<String, String> mapTile) throws URISyntaxException {//创建HTTPClient对象CloseableHttpClient httpClient = HttpClients.createDefault();//设置请求地址//创建URLBuilderURIBuilder uriBuilder = new URIBuilder(url);//设置参数if(!map.isEmpty()){for(String key : map.keySet()){uriBuilder.setParameter(key, map.get(key));}}//创建HTTPGet对象,设置url访问地址//uriBuilder.build()得到请求地址HttpGet httpGet = new HttpGet(uriBuilder.build());//设置请求头信息if(!mapTile.isEmpty()){for(String key : mapTile.keySet()){httpGet.addHeader(key, mapTile.get(key));}}//设置请求信息httpGet.setConfig(getConfig());System.out.println("发起请求的信息:"+httpGet);//使用HTTPClient发起请求,获取responseCloseableHttpResponse response = null;try {response = httpClient.execute(httpGet);//解析响应if(response.getStatusLine().getStatusCode() == 200){//判断响应体Entity是否不为空,如果不为空就可以使用EntityUtilsif(response.getEntity() != null) {String content = EntityUtils.toString(response.getEntity(), "utf8");return content;}}}catch (IOException e){e.printStackTrace();}finally {//关闭responsetry {response.close();} catch (IOException e) {e.printStackTrace();}}return "";}/*** 下载图片* @param url* @return 图片名称*/public static String doGetImage(String url) throws IOException {//获取HTTPClient对象CloseableHttpClient httpClient = HttpClients.createDefault();//设置HTTPGet请求对象,设置url地址HttpGet httpGet = new HttpGet(url);//设置请求信息httpGet.setConfig(getConfig());//使用HTTPClient发起请求,获取响应CloseableHttpResponse response = null;try {//使用HTTPClient发起请求,获取响应response = httpClient.execute(httpGet);//解析响应,返回结果if(response.getStatusLine().getStatusCode() == 200){//判断响应体Entity是否不为空if(response.getEntity() != null) {//下载图片//获取图片的后缀String extName = url.substring(url.lastIndexOf("."));//创建图片名,重命名图片String picName = UUID.randomUUID().toString() + extName;//下载图片//声明OutputStreamOutputStream outputStream = new FileOutputStream(new File("E://imges/" + picName));response.getEntity().writeTo(outputStream);//返回图片名称return picName;}}} catch (IOException e) {e.printStackTrace();}finally {//关闭responseif(response != null){try {response.close();} catch (IOException e) {e.printStackTrace();}}}return "";}
}

在项目的test类中编写代码获取数据保存到数据库中。

先通过@Resource注解将MovieService类对应的实现类注入进来。

@Autowired
private MovieService movieService;

设置请求地址https://movie.douban.com/j/search_subjects

String url = "https://movie.douban.com/j/search_subjects";

之后在定义两个Map,用于存储请求头和请求参数信息。

网页请求头。

请求参数,type=movie&tag=热门&sort=recommend&page_limit=20&page_start=0

设置请求参数和请求头代码如下。

Map<String, String> map = new HashMap<>();
Map<String, String> mapTitle = new HashMap<>();
//设置请求参数
map.put("type", "movie");
map.put("tag", "热门");
map.put("sort", "recommend");
map.put("page_limit", "20");
//i为一个变量,从多少条数据开始查询
map.put("page_start", i+"");
//设置请求头
mapTitle.put("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8");
mapTitle.put("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:71.0) Gecko/20100101 Firefox/71.0");
mapTitle.put("Cookie", "bid=QNoG_zn4mZY; _pk_id.100001.4cf6=6209709719896af7.1575619506.2.1575940374.1575621362.; __utma=30149280.1889677372.1575619507.1575619507.1575940335.2; __utmz=30149280.1575619507.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); __utma=223695111.986359939.1575619507.1575619507.1575940335.2; __utmz=223695111.1575619507.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); __yadk_uid=QVSP2uvzzDBrpnvHKzZpZEWJnuARZ4aL; ll=\"118259\"; _vwo_uuid_v2=D1FC45CAE50CF6EE38D245C68D7CECC4F|e8d1db73f4c914f0b0be7ed85ac50d14; trc_cookie_storage=taboola%2520global%253Auser-id%3D690a21c0-9ad9-4f8d-b997-f0decb3cfc9b-tuct4e39874; _pk_ses.100001.4cf6=*; ap_v=0,6.0; __utmb=30149280.0.10.1575940335; __utmc=30149280; __utmb=223695111.0.10.1575940335; __utmc=223695111; __gads=ID=2f06cb0af40206d0:T=1575940336:S=ALNI_Ma4rv9YmqrkIUNXsIt5E7zT6kZy2w");

通过HttpUtils类doGetHtml方法获取该请求响应的数据。

String html = HttpUtils.doGetHtml(url, map, mapTitle);

请求响应数据格式。

可以看出是一个json格式的数据,我们可以通过阿里巴巴的Fastjson一个json解析库,把它解析成为一个List格式数据。Fastjson基本用法

JSONObject jsonObject = JSONObject.parseObject(html);
JSONArray jsonArray = jsonObject.getJSONArray("subjects");

因为每页查询是是20条数据,我们用一个for循环遍历一下这一页的数据。可以获得电影的标题,评分,图片链接和详情页面的链接,上面JSON数据中的cover属性值为图片的地址。通过图片的链接我们可以调用HttpUtils类的doGetImage方法把图片保存到本地磁盘。

HttpUtils.doGetImage(json.getString("cover"));

上面请求的数据只能获取到标题,评分和图片,然而我们还有获取导演,主演,和电影时长。这些信息我们点开上面请求到的json数据的url属性值,会打开详情页面,详情页面中有导演,主演,和电影时长信息。

打开的详情页面,我们可以看到导演,主演和电影时长等信息。

我们查询详情页面的源代码,可以看到导演,主演,电影时长等信息的位置。

我们在通过HttpUtils类doGetHtml方法获取详情页面的数据,利用Jsoup进行解析,Jsoup是一个可以让java代码解析HTML代码的一个工具,可以参考一下Jsoup官网文档,找到主演,导演和电影时长信息。到这里我们需要的全部信息都获取到了,最后把数据保存起来。

String url2 = json.getString("url");
Map<String, String> map2 = new HashMap<>();
Map<String, String> mapTitle2 = new HashMap<>();
String html2 = HttpUtils.doGetHtml(url2, map2, mapTitle2);
//解析HTML获取DOM对象
Document doc = Jsoup.parse(html2);
//获取导演名称
Element element = doc.select("div#info a[rel=v:directedBy]").first();
movie.setDirector(element.text());
Elements elements = doc.select("div#info a[rel=v:starring]");
//主演
String protagonist = "";
for (Element e : elements) {protagonist += e.text()+",";
}
if(!protagonist.equals("")){protagonist = protagonist.substring(0, protagonist.length()-1);
}
movie.setProtagonist(protagonist);
//获取电影时长
element = doc.select("div#info span[property=v:runtime]").first();
movie.setDateTime(element.text());
movieService.save(movie);

测试类全部代码如下。

import com.alibaba.fastjson.JSONObject;
import com.mcy.crawlerdouban.entity.Movie;
import com.mcy.crawlerdouban.service.MovieService;
import com.mcy.crawlerdouban.util.HttpUtils;
import com.alibaba.fastjson.JSONArray;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import org.junit.jupiter.api.Test;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.boot.test.context.SpringBootTest;import java.io.IOException;
import java.net.URISyntaxException;
import java.util.HashMap;
import java.util.Map;@SpringBootTest
class CrawlerDoubanApplicationTests {@Autowiredprivate MovieService movieService;@Testpublic void contextLoads() throws URISyntaxException, IOException {//请求地址//https://movie.douban.com/j/search_subjects?type=movie&tag=热门&sort=recommend&page_limit=20&page_start=0String url = "https://movie.douban.com/j/search_subjects";Map<String, String> map = new HashMap<>();Map<String, String> mapTitle = new HashMap<>();//设置请求参数map.put("type", "movie");map.put("tag", "热门");map.put("sort", "recommend");map.put("page_limit", "20");//设置请求头mapTitle.put("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8");mapTitle.put("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:71.0) Gecko/20100101 Firefox/71.0");mapTitle.put("Cookie", "bid=QNoG_zn4mZY; _pk_id.100001.4cf6=6209709719896af7.1575619506.2.1575940374.1575621362.; __utma=30149280.1889677372.1575619507.1575619507.1575940335.2; __utmz=30149280.1575619507.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); __utma=223695111.986359939.1575619507.1575619507.1575940335.2; __utmz=223695111.1575619507.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); __yadk_uid=QVSP2uvzzDBrpnvHKzZpZEWJnuARZ4aL; ll=\"118259\"; _vwo_uuid_v2=D1FC45CAE50CF6EE38D245C68D7CECC4F|e8d1db73f4c914f0b0be7ed85ac50d14; trc_cookie_storage=taboola%2520global%253Auser-id%3D690a21c0-9ad9-4f8d-b997-f0decb3cfc9b-tuct4e39874; _pk_ses.100001.4cf6=*; ap_v=0,6.0; __utmb=30149280.0.10.1575940335; __utmc=30149280; __utmb=223695111.0.10.1575940335; __utmc=223695111; __gads=ID=2f06cb0af40206d0:T=1575940336:S=ALNI_Ma4rv9YmqrkIUNXsIt5E7zT6kZy2w");//获取前100条数据,可以自行更改for(int i = 0; i < 100; i+=20){map.put("page_start", i+"");String html = HttpUtils.doGetHtml(url, map, mapTitle);JSONObject jsonObject = JSONObject.parseObject(html);JSONArray jsonArray = jsonObject.getJSONArray("subjects");for(int j = 0; j < jsonArray.size(); j++){  //循环遍历每页数据Movie movie = new Movie();JSONObject json = (JSONObject) jsonArray.get(j);movie.setRate(json.getDouble("rate"));movie.setTitle(json.getString("title"));//下载保存图片HttpUtils.doGetImage(json.getString("cover"));String url2 = json.getString("url");Map<String, String> map2 = new HashMap<>();String html2 = HttpUtils.doGetHtml(url2, map2, mapTitle);//解析HTML获取DOM对象Document doc = Jsoup.parse(html2);//获取导演名称Element element = doc.select("div#info a[rel=v:directedBy]").first();movie.setDirector(element.text());Elements elements = doc.select("div#info a[rel=v:starring]");//主演String protagonist = "";for (Element e : elements) {protagonist += e.text()+",";}if(!protagonist.equals("")){protagonist = protagonist.substring(0, protagonist.length()-1);}movie.setProtagonist(protagonist);//获取电影时长element = doc.select("div#info span[property=v:runtime]").first();movie.setDateTime(element.text());movieService.save(movie);}}System.out.println("数据获取完成。。。");}
}

最后我们在mysql数据库中新建一个名为douban的数据库,启动项目,JPA会自动在数据库中新建一张movie表,存放获取到的电影数据。在本地磁盘也会保存电影图片,如图。

电影图片,保存的位置和HttpUtils的doGetImage方法中设置的保存地址一样。

最后放上下载地址https://github.com/machaoyin/crawler-douban

有什么问题欢迎下方留言交流。

Java爬取豆瓣电影数据相关推荐

  1. Java爬取豆瓣电影数据,京东高级java面试

    .build(); return config; } 根据请求地址获取响应信息方法,获取成功后返回响应信息. public static String doGetHtml(String url, Ma ...

  2. python实现爬虫探探_全栈 - 9 实战 爬取豆瓣电影数据

    这是全栈数据工程师养成攻略系列教程的第九期:9 实战 爬取豆瓣电影数据. 掌握了爬虫的基本原理和代码实现,现在让我们通过实战项目巩固一下. 确定目标 在写爬虫之前应当想清楚:我需要哪方面的数据?需要包 ...

  3. BeautifulSoup爬取豆瓣电影数据

    BeautifulSoup爬取豆瓣TOP250 豆瓣爬取地址 https://movie.douban.com/top250?format=text BeautifulSoup官网地址 https:/ ...

  4. 【爬虫实践】记一次Scrapy框架入门使用爬取豆瓣电影数据

    本次的学习分享主要是使用一次Scrapy框架,毕竟在很多次的时候,自己在提取一些或是需要实验数据的时候,数据量要求不大,很快便能通过简单的request等库进行调用,然后获取数据. 这次,则是想要使用 ...

  5. python爬虫豆瓣电影评价_使用爬虫爬取豆瓣电影影评数据Python版

    在 使用爬虫爬取豆瓣电影影评数据Java版 一文中已详细讲解了爬虫的实现细节,本篇仅为展示Python版本爬虫实现,所以直接上代码 完整代码 爬虫主程序 # 爬虫启动入口 from C02.data ...

  6. python爬取豆瓣电影信息数据

    题外话+ 大家好啊,最近自己在做一个属于自己的博客网站(准备辞职回家养老了,明年再战)在家里 琐事也很多, 加上自己 一回到家就懒了(主要是家里冷啊! 广东十几度,老家几度,躲在被窝瑟瑟发抖,) 由于 ...

  7. 爬虫练习-爬取豆瓣电影TOP250的数据

    前言: 爬取豆瓣电影TOP250的数据,并将爬取的数据存储于Mysql数据库中 本文为整理代码,梳理思路,验证代码有效性--2020.1.4 环境: Python3(Anaconda3) PyChar ...

  8. jsoup爬取豆瓣电影top250

    文章目录 0.准备工作 1. 分析 2. 构思 3. 编程 3.1 定义一个bean,用于保存电影的数据 3.2 按照之前的构思进行编程 4.效果图 5.获取资源 5.1GitHub 5.2百度云 0 ...

  9. 爬取豆瓣电影排名前250部电影并且存入Mongo数据库

    2019独角兽企业重金招聘Python工程师标准>>> 需求:爬取豆瓣电影top250(https://movie.douban.com/top250)的电影数据: 标题(title ...

最新文章

  1. 注册中心 Eureka 源码解析 —— 应用实例注册发现(五)之过期
  2. 无卷积骨干网络:金字塔Transformer,提升目标检测/分割等任务精度(附源代码)
  3. java 方法继承方法_Java继承和方法重写
  4. 2021浙江高考宁波四中成绩查询,2021浙江高考成绩查询时间公布 几号能查分
  5. 计算机博士美国学校推荐,留学随笔:一位计算机博士留学美国的感悟
  6. Nagios 配置及监控
  7. SQL Server日期格式和SQL Server转换举例说明
  8. Modbus调试软件--ModbusPoll、ModbusSlave使用详解
  9. 最大矩形面积(C++实现)
  10. Linux/Android——input_handler之evdev (四) 【转】
  11. Shiro框架(一)-Shiro概述
  12. 如何利用华硕Mesh系统路由器在780平方公尺大的场域架设可靠的WiFi系统?
  13. EasyExcel导出Excel指定属性列
  14. R语言自学笔记-----数据转换
  15. scrapy爬取智联招聘
  16. Docker网络、端口映射详解篇(三)
  17. hdu 5037 Frog(贪心)
  18. 浏览器获得电脑麦克风音频进行广播发声(非录音播放)
  19. couchbase的使用(springboot连接couchbase,node.js连接couchbase)
  20. win10桌面计算机怎么显示器,最新版:Win10计算机桌面屏幕投影到电视教程_Win10计算机如何将屏幕投影到电视...

热门文章

  1. python saveas_栅格数据的保存 SaveAs()方法
  2. 程序猿表情包合集_让你斗图再也不会输
  3. 一行代码说清楚进制转换--转来转去
  4. 1191: 神奇的立方数
  5. js判断手机机型,是否在华为、iphone、小米、三星打开
  6. 【181218】VC++台球厅计时收费管理系统(Access)源代码
  7. python趣味编程-高速公路汽车游戏
  8. redis 删除所有key
  9. 网球裙行业调研报告 - 市场现状分析与发展前景预测
  10. XyTalk企业即时通讯IM开始开源