点击关注公众号,回复“2T”获取2TB学习资源!

互联网架构师后台回复 2T 有特别礼包

上一篇:Docker 大势已去,Podman 崛起

本文主要通过批量与非批量对比操作的方式介绍MongoDB的bulkWrite()方法的使用。顺带与关系型数据库MySQL进行对比,比较这两种不同类型数据库的效率。如果只是想学习bulkWrite()的使用的看第一部分就行。

测试环境:win7旗舰版、16G内存、i3处理器、MongoDB3.0.2、mysql5.0

一、MongoDB批量操作

MongoDB对数据的操作分为Read Operations和Write Operations,Read Operations包含查询操作,Write Operations包含删除、插入、替换、更新几种操作。MongoDB提供客户端用bulk方式执行Write Operations,也就是批量写操作。在java driver中,对应MongoCollection的bulkWrite()方法,先来看下这个方法签名:

BulkWriteResult  com.mongodb.client.MongoCollection.bulkWrite(List<? extends WriteModel<? extends Document>> requests)

这个方法要求传入一个List集合,集合中的元素类型为WriteModel,它表示一个可用于批量写操作的基类模型,它有以下几个子类DeleteManyModel、DeleteOneModel、 InsertOneModel、ReplaceOneModel、 UpdateManyModel、UpdateOneModel,从名字可以看出来它对应了删除、插入、替换、更新几种操作。该方法返回一个BulkWriteResult对象,代表一个成功的批量写操作结果,封装了操作结果的状态信息,如插入、更新、删除记录数等。

1、插入操作

(1)、批量插入

代码如下,该方法接收一个包含要进行插入的Document对象的集合参数,遍历集合,使用Document构造InsertOneModel对象,每个InsertOneModel实例代表一个插入单个Document的操作,然后将该实例添加List集合中,调用bulkWrite()方法,传入存储所有插入操作的List集合完成批量插入。

public void bulkWriteInsert(List<Document> documents){List<WriteModel<Document>> requests = new ArrayList<WriteModel<Document>>();for (Document document : documents) {//构造插入单个文档的操作模型InsertOneModel<Document>  iom = new InsertOneModel<Document>(document);requests.add(iom);}BulkWriteResult  bulkWriteResult = collection.bulkWrite(requests);System.out.println(bulkWriteResult.toString());
}

测试:下面通过一个main函数测试下。首先构造10万个Product实体对象,使用一个工具类将其转换成json字符串,然后解析成Document对象,保存到一个list集合中,然后调用上面编写的方法测试10万个对象插入时间。

TestMongoDB instance = TestMongoDB.getInstance();
ArrayList<Document> documents = new ArrayList<Document>();
for (int i = 0; i < 100000; i++) {Product product = new Product(i,"书籍","追风筝的人",22.5);//将java对象转换成json字符串String jsonProduct = JsonParseUtil.getJsonString4JavaPOJO(product);//将json字符串解析成Document对象Document docProduct = Document.parse(jsonProduct);documents.add(docProduct);
}System.out.println("开始插入数据。。。");
long startInsert = System.currentTimeMillis();
instance.bulkWriteInsert(documents);
System.out.println("插入数据完成,共耗时:"+(System.currentTimeMillis() - startInsert)+"毫秒");

结果:1560毫秒,多次测试基本在1.5秒左右

(2)、逐条插入

下面再通过非批量插入10万个数据对比下,方法如下:

public void insertOneByOne(List<Document> documents) throws ParseException{for (Document document : documents){collection.insertOne(document);}}

测试:10万条数据

System.out.println("开始插入数据。。。");
long startInsert = System.currentTimeMillis();
instance.insertOneByOne(documents);
System.out.println("插入数据完成,共耗时:"+(System.currentTimeMillis() - startInsert)+"毫秒");

结果:12068毫秒,差距非常大。由此可见,MongoDB批量插入比逐条数据插入效率提高了非常多。

补充:

MongoCollection的insertMany()方法和bulkWrite()方法是等价的,测试时间差不多,不再贴图。

public void insertMany(List<Document> documents) throws ParseException{//和bulkWrite()方法等价collection.insertMany(documents);}

2、删除操作

(1)、批量删除

掌握了批量插入,批量删除就是依葫芦画瓢了。构造DeleteOneModel需要一个Bson类型参数,代表一个删除操作,这里使用了Bson类的子类Document。重点来了,这里的删除条件使用文档的_id字段,该字段在文档插入数据库后自动生成,没插入数据库前document.get("_id")为null,如果使用其他条件比如productId,那么要在文档插入到collection后在productId字段上添加索引

collection.createIndex(new Document("productId", 1));

因为随着collection数据量的增大,查找将越耗时,添加索引是为了提高查找效率,进而加快删除效率。另外,值得一提的是DeleteOneModel表示至多删除一条匹配条件的记录,DeleteManyModel表示删除匹配条件的所有记录。为了防止一次删除多条记录,这里使用DeleteOneModel,保证一个操作只删除一条记录。当然这里不可能匹配多条记录,因为_id是唯一的。搜索公众号互联网架构师后台回复“2T”,获取一份惊喜礼包。

public void bulkWriteDelete(List<Document> documents){List<WriteModel<Document>> requests = new ArrayList<WriteModel<Document>>();for (Document document : documents) {//删除条件Document queryDocument = new Document("_id",document.get("_id"));//构造删除单个文档的操作模型,DeleteOneModel<Document>  dom = new DeleteOneModel<Document>(queryDocument);requests.add(dom);}BulkWriteResult bulkWriteResult = collection.bulkWrite(requests);System.out.println(bulkWriteResult.toString());
}

测试:10万条数据

System.out.println("开始删除数据。。。");
long startDelete = System.currentTimeMillis();
instance.bulkWriteDelete(documents);
System.out.println("删除数据完成,共耗时:"+(System.currentTimeMillis() - startDelete)+"毫秒");

结果:2251毫秒

(2)、逐条删

来看看在非批量下的删除

public void deleteOneByOne(List<Document> documents){for (Document document : documents) {Document queryDocument = new Document("_id",document.get("_id"));DeleteResult deleteResult = collection.deleteOne(queryDocument);}}

测试:10万条数据

System.out.println("开始删除数据。。。");
long startDelete = System.currentTimeMillis();
instance.deleteOneByOne(documents);
System.out.println("删除数据完成,共耗时:"+(System.currentTimeMillis() - startDelete)+"毫秒");

结果:12765毫秒,比批量删除效率低很多

3、更新操作

(1)、批量更新

再来看看批量更新,分UpdateOneModel和UpdateManyModel两种,区别是前者更新匹配条件的一条记录,后者更新匹配条件的所有记录。对于ReplaceOneModel,表示替换操作,这里也归为更新,现在以UpdateOneModel为例进行讲解。UpdateOneModel构造方法接收3个参数,第一个是查询条件,第二个参数是要更新的内容,第三个参数是可选的UpdateOptions,不填也会自动帮你new一个,代表批量更新操作未匹配到查询条件时的动作,它的upser属性值默认false,什么都不干,true时表示将一个新的Document插入数据库,这个新的Document是查询Document和更新Document的结合,但如果是替换操作,这个新的Document就是这个替换Document。

这里会有个疑惑:这和匹配到查询条件后执行替换操作结果不一样吗?区别在于_id字段,未匹配查询条件时插入的新的Document的_id是新的,而成功执行替换操作,_id是原先旧的。

public void bulkWriteUpdate(List<Document> documents){List<WriteModel<Document>> requests = new ArrayList<WriteModel<Document>>();for (Document document : documents) {//更新条件Document queryDocument = new Document("_id",document.get("_id"));//更新内容,改下书的价格Document updateDocument = new Document("$set",new Document("price","30.6"));//构造更新单个文档的操作模型UpdateOneModel<Document> uom = new UpdateOneModel<Document>(queryDocument,updateDocument,new UpdateOptions().upsert(false));//UpdateOptions代表批量更新操作未匹配到查询条件时的动作,默认false,什么都不干,true时表示将一个新的Document插入数据库,他是查询部分和更新部分的结合requests.add(uom);}BulkWriteResult bulkWriteResult = collection.bulkWrite(requests);System.out.println(bulkWriteResult.toString());}

测试:10万条数据

System.out.println("开始更新数据。。。");
long startUpdate = System.currentTimeMillis();
instance.bulkWriteUpdate(documents);
System.out.println("更新数据完成,共耗时:"+(System.currentTimeMillis() - startUpdate)+"毫秒");

结果:3198毫秒

(2)、逐条更新

对比非批量下的更新

public void updateOneByOne(List<Document> documents){for (Document document : documents) {Document queryDocument = new Document("_id",document.get("_id"));Document updateDocument = new Document("$set",new Document("price","30.6"));UpdateResult UpdateResult = collection.updateOne(queryDocument, updateDocument);}}

测试:10万条数据

System.out.println("开始更新数据。。。");
long startUpdate = System.currentTimeMillis();
instance.updateOneByOne(documents);
System.out.println("更新数据完成,共耗时:"+(System.currentTimeMillis() - startUpdate)+"毫秒");

结果:13979毫秒,比批量更新效率低很多

4、混合批量操作

bulkWrite()方法可以对不同类型的写操作进行批量处理,代码如下:

public void bulkWriteMix(){List<WriteModel<Document>> requests = new ArrayList<WriteModel<Document>>();InsertOneModel<Document>  iom = new InsertOneModel<Document>(new Document("name","kobe"));UpdateManyModel<Document> umm = new UpdateManyModel<Document>(new Document("name","kobe"),new Document("$set",new Document("name","James")),new UpdateOptions().upsert(true));DeleteManyModel<Document>  dmm = new DeleteManyModel<Document>(new Document("name","James"));requests.add(iom);requests.add(umm);requests.add(dmm);BulkWriteResult bulkWriteResult = collection.bulkWrite(requests);System.out.println(bulkWriteResult.toString());}

注意:updateMany()、deleteMany()两个方法和insertMany()不同,它俩不是批量操作,而是代表更新(删除)匹配条件的所有数据。

二、与MySQL性能对比

1、插入操作

(1)、批处理插入

与MongoDB一样,也是插入Product实体对象,代码如下

public void insertBatch(ArrayList<Product> list) throws Exception{Connection conn = DBUtil.getConnection();try {PreparedStatement pst = conn.prepareStatement("insert into t_product value(?,?,?,?)");int count = 1;for (Product product : list) {pst.setInt(1, product.getProductId());pst.setString(2, product.getCategory());pst.setString(3, product.getName());pst.setDouble(4, product.getPrice());pst.addBatch();if(count % 1000 == 0){pst.executeBatch();pst.clearBatch();//每1000条sql批处理一次,然后置空PreparedStatement中的参数,这样也能提高效率,防止参数积累过多事务超时,但实际测试效果不明显}count++;}conn.commit();} catch (SQLException e) {e.printStackTrace();}DBUtil.closeConnection(conn);}

JDBC默认自动提交事务,切记在获取连接后添加下面一行代码,关闭事务自动提交。

connection.setAutoCommit(false);

测试:10万条数据

public static void main(String[] args) throws Exception {TestMysql test = new TestMysql();ArrayList<Product> list = new ArrayList<Product>();for (int i = 0; i < 1000; i++) {Product product = new Product(i, "书籍", "追风筝的人", 20.5);list.add(product);}System.out.println("MYSQL开始插入数据。。。");long insertStart = System.currentTimeMillis();test.insertBatch(list);System.out.println("MYSQL插入数据完成,共耗时:"+(System.currentTimeMillis() - insertStart)+"毫秒");
}

结果:7389毫秒,多次测试基本7秒左右

(2)、逐条插入

再来看看mysql逐条插入,代码如下:

public void insertOneByOne(ArrayList<Product> list) throws Exception{Connection conn = DBUtil.getConnection();try {for (Product product : list) {PreparedStatement pst = conn.prepareStatement("insert into t_product value(?,?,?,?)");pst.setInt(1, product.getProductId());pst.setString(2, product.getCategory());pst.setString(3, product.getName());pst.setDouble(4, product.getPrice());pst.executeUpdate();//conn.commit();//加上这句每次插入都提交事务,结果将是非常耗时}conn.commit();} catch (SQLException e) {e.printStackTrace();}DBUtil.closeConnection(conn);}

测试:10万条记录

System.out.println("MYSQL开始插入数据。。。");
long insertStart = System.currentTimeMillis();
test.insertOneByOne(list);
System.out.println("MYSQL插入数据完成,共耗时:"+(System.currentTimeMillis() - insertStart)+"毫秒");

结果:8921毫秒,基本比批量慢1秒多。

2、删除操作

(1)、批处理删除

删除的where条件是productId,这里在建表的时候没有添加主键,删除异常的慢,查了半天不知道什么原因。切记添加主键,主键默认有索引,所有能更快匹配到记录。

public void deleteBatch(ArrayList<Product> list) throws Exception{Connection conn = DBUtil.getConnection();try {PreparedStatement pst = conn.prepareStatement("delete from t_product where id = ?");//按主键查,否则全表遍历很慢int count = 1;for (Product product : list) {pst.setInt(1, product.getProductId());pst.addBatch();if(count % 1000 == 0){pst.executeBatch();pst.clearBatch();}count++;}conn.commit();} catch (SQLException e) {e.printStackTrace();}DBUtil.closeConnection(conn);}

测试:10万条数据。另外,MySQL 系列面试题和答案全部整理好了,微信搜索互联网架构师,在后台发送:2T,可以在线阅读。

System.out.println("MYSQL开始删除数据。。。");
long deleteStart = System.currentTimeMillis();
test.deleteBatch(list);
System.out.println("MYSQL删除数据完成,共耗时:"+(System.currentTimeMillis() - deleteStart)+"毫秒");

结果:7936毫秒

(2)、逐条删除

代码如下

public void deleteOneByOne(ArrayList<Product> list) throws Exception{Connection conn = DBUtil.getConnection();PreparedStatement pst = null;try {for (Product product : list) {pst = conn.prepareStatement("delete from t_product where id = ?");pst.setInt(1, product.getProductId());pst.executeUpdate();//conn.commit();//加上这句每次插入都提交事务,结果将是非常耗时}conn.commit();} catch (SQLException e) {e.printStackTrace();}DBUtil.closeConnection(conn);}

测试:10万条数据

System.out.println("MYSQL开始删除数据。。。");
long deleteStart = System.currentTimeMillis();
test.deleteOneByOne(list);
System.out.println("MYSQL删除数据完成,共耗时:"+(System.currentTimeMillis() - deleteStart)+"毫秒");

结果:8752毫秒,比批处理删除慢一秒左右。

3、更新操作

(1)、批处理更新

代码如下

public void updateBatch(ArrayList<Product> list) throws Exception{Connection conn = DBUtil.getConnection();try {PreparedStatement pst = conn.prepareStatement("update t_product set price=31.5 where id=?");int count = 1;for (Product product : list) {pst.setInt(1, product.getProductId());pst.addBatch();if(count % 1000 == 0){pst.executeBatch();pst.clearBatch();//每1000条sql批处理一次,然后置空PreparedStatement中的参数,这样也能提高效率,防止参数积累过多事务超时,但实际测试效果不明显}count++;}conn.commit();} catch (SQLException e) {e.printStackTrace();}DBUtil.closeConnection(conn);}

测试:10万条数据

System.out.println("MYSQL开始更新数据。。。");
long updateStart = System.currentTimeMillis();
test.updateBatch(list);
System.out.println("MYSQL更新数据完成,共耗时:"+(System.currentTimeMillis() - updateStart)+"毫秒");

结果:8611毫秒

(2)、逐条更新

代码如下

public void updateOneByOne(ArrayList<Product> list) throws Exception{Connection conn = DBUtil.getConnection();try {for (Product product : list) {PreparedStatement pst = conn.prepareStatement("update t_product set price=30.5 where id=?");pst.setInt(1, product.getProductId());pst.executeUpdate();//conn.commit();//加上这句每次插入都提交事务,结果将是非常耗时}conn.commit();} catch (SQLException e) {e.printStackTrace();}DBUtil.closeConnection(conn);}

测试:10万条数据

System.out.println("MYSQL开始更新数据。。。");
long updateStart = System.currentTimeMillis();
test.updateOneByOne(list);
System.out.println("MYSQL更新数据完成,共耗时:"+(System.currentTimeMillis() - updateStart)+"毫秒");

结果:9430毫秒,比批处理更新慢了1秒左右

三、总结

本文主要是为了介绍bulkWrite()方法的使用,也就是MongoDB的批量写操作,通过实验可以看出MongoDB使用bulkWrite()方法进行大量数据的写操作比使用常规的方法进行写操作效率要高很多。文章也介绍了mysql几种写操作下批量和非批量的对比,可以看出他们批处理方式比非批处理快点,但没有MongoDB那么明显。

对于MongoDB与mysql的比较,批量操作下,MongoDB插入、删除、更新都比mysql快,非批量操作下,MongoDB插入、删除、更新都比mysql慢。当然只是一个初略的结论,文中并没有进行100条、1000条、10000条或更大的这样不同的数据对比,以及CPU内存使用情况进行监测,有兴趣的可以尝试下。

原文链接:https://blog.csdn.net/u014513883/article/details/49365987

最后,关注公众号互联网架构师,在后台回复:2T,可以获取我整理的 Java 系列面试题和答案,非常齐全。

正文结束

推荐阅读 ↓↓↓

1.心态崩了!税前2万4,到手1万4,年终奖扣税方式1月1日起施行~

2.深圳一普通中学老师工资单曝光,秒杀程序员,网友:敢问是哪个学校毕业的?

3.从零开始搭建创业公司后台技术栈

4.程序员一般可以从什么平台接私活?

5.清华大学:2021 元宇宙研究报告!

6.为什么国内 996 干不过国外的 955呢?

7.这封“领导痛批95后下属”的邮件,句句扎心!

8.15张图看懂瞎忙和高效的区别!

MongoDB vs MySQL,哪个效率更高?相关推荐

  1. SQL优化——IN和EXISTS谁的效率更高

    .点击上方"蓝字" 关注我们,享更多干货! IN和EXISTS被频繁使用在SQL中,虽然作用是一样的,但是在使用效率谁更高这点上众说纷纭.下面我们就通过一组测试来看,在不同场景下, ...

  2. 取代 Mybatis Generator,这款代码生成神器配置更简单,开发效率更高

    作为一名 Java 后端开发,日常工作中免不了要生成数据库表对应的持久化对象 PO,操作数据库的接口 DAO,以及 CRUD 的 XML,也就是 mapper. Mybatis Generator 是 ...

  3. .NET快速信息化系统开发框架 V3.2-amp;gt;WinForm版本新增新的角色授权管理界面效率更高、更规范...

    版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/chinahuyong/article/details/76735793 角色授权管理模块主要是对角色 ...

  4. 工作效率 工具_我使用的工具加快了我的工作流程,使我的工作效率更高

    工作效率 工具 by Egwuenu Gift 通过Egwuenu礼物 我使用的工具加快了我的工作流程,使我的工作效率更高 (The tools I use speed up my workflow ...

  5. ++i和i++哪个效率更高

    参考博文:https://blog.csdn.net/qq_38570571/article/details/81255717 这篇写的不错 在C++当中 ++i比i++效率更高

  6. 锤子手机Android auto,分享锤子手机Smartisan OS的几个使用小技巧,效率更高

    原标题:分享锤子手机Smartisan OS的几个使用小技巧,效率更高 老罗创办的锤子科技一直以来都追求着效率的提升和不随流俗的设计美感,锤子手机基于安卓深度定制的系统Smartisan OS正是体现 ...

  7. 一文带你彻底搞懂i++和++i的区别,谁的效率更高?

    作者简介:Codebowl靓仔,学妹的工具人,C++开发误入数据开发,梦想30岁退休的靓仔就是我啦. i++和++i对于初学者来说,一直是一个特别容易搞混的内容,相信很多人现在也没有完全搞清(作者初学 ...

  8. 小程序 const moment = require('moment')_有C语言程序员说,使用移位操作代替乘除运算效率更高,真的吗?...

    在C语言程序开发中,一些移位操作似乎可以达到与乘除法操作一样的效果.例如,4>>1 等于 2,此时右移一位相当于除以 2.类似的,2<<1 等于 4,此时左移一位相当于乘以 2 ...

  9. for循环和while循环哪个效率更高

    for循环和while循环哪个效率更高? 有人说while循环效率更高,有人说for循环的效率更高,今天我们就用事实分析一下哪个效率高? 实践如下,我们来写一个1亿的次的循环,在执行for和while ...

  10. PHP抓取网页指定内容(推荐用CURL效率更高)

    PHP抓取某页面指定内容 初学php研究了好几个小时最后问了同事,得以解决:下面我就以我网站的一个详情页为例子,给大家分享一下: 直接贴代码,注释写的很清楚了 [方法一] <?php //添加编 ...

最新文章

  1. C#程序结构 基本语法
  2. 《编程之美》读书笔记08:2.9 Fibonacci序列
  3. Oracle查找重复数据
  4. java图形用户界面概述_Java中图形用户界面概述
  5. 学习go语言国内最全资料链接
  6. FFmpeg代码导读系列(一,下半部)----HEVC在RTMP中的扩展
  7. Linux文件和目录权限笔记
  8. 如何设置iMatrix平台中列表标签(gridjqGrid)实现动态列表
  9. python atm取款系统_基于python的ATM(自动取款机)项目
  10. c语言程序排序的原理,几种常见排序算法原理C语言实现
  11. codevs 3186 队列练习2
  12. 【转】android 常用theme
  13. 免校准的电量计量芯片_免校准的高精度计量芯片HLW8032
  14. 游戏反编译工具dnSpy
  15. EasySchedulerr大数据调度系统架构分析
  16. BGP路由反射器RR
  17. DirectX发展历程
  18. Python绘制简单版K线图
  19. 【荐书】C程序设计语言(第二版)
  20. Docker: USER 指定当前用户

热门文章

  1. 大数据处理方面的 7 个开源搜索引擎
  2. 和发光的人在一起,慢慢地你也会发光
  3. Linux入门: grep与egrep 知识总结
  4. Android系统进程间通信(IPC)机制Binder中的Client获得Server远程接口过程源代码分析(3)...
  5. 几个关于oracle 11g ASM的问题
  6. 【安全系列】IPSEC ×××之安全基础篇
  7. InDesign入门教程,如何链接图形?
  8. 如何在 Mac 上的“照片”应用中创建智能相册?
  9. 三维设计和动画:Cinema 4D R25 for mac(c4d r25)
  10. Adobe系列错误代码解决方案汇总