最近在统计某一个时间段的url去重数,由于数据量巨大导致报错,提示:distinct failed: {

"errmsg" : "exception: distinct too big, 16mb cap",

"code" : 17217,

"ok" : 0

} at src/mongo/shell/collection.js:1108

最终通过mapreduce来解决如下://定义map函数

map=function(){

emit(this.url,{"count":1});

}//定义reduce函数

reduce=function(key,values){

var total=0;

for(var i=0; i

total+=values[i].count;

}

return {count:total}

}//执行mapreduce函数,其中out的值是存储执行结果的集合

db.runCommand({"mapreduce":"visit","map":map,"reduce":reduce,"query":{"vtime":{"$gte":1412611200,"$lte":1413907119}},"out":"test.tmp"});

关于mapreduce的选项解释如下:"out":{replace:"collection name"} -- mapreduce输出结果会替换掉原来的collection,collection不存在则创建

"out":{merge:"collection name"} -- 将新老数据进行合并,新的替换旧的,没有的添加进去

"out":{reduce:"collection name"}-- 存在老数据时,在原来的基础上加新的数据(即new value=old value+mapreduce value)

"out":{inline:1} -- 不会创建collection,结果保存在内存里面,只限于结果小于16MB的情况

mapreduce分组统计_mongodb中使用mapreduce进行分组统计相关推荐

  1. oracle关联分组查询,oracle中关联查询、分组查询

    高级查询 1.关联查询 作用:可以跨越多表查询 --查询出员工的名字和他所在部门的的名字 //古老的写法 select first_name,name from s_emp,s_dept where ...

  2. java 统计字符串中字符个数_java实现统计字符串中字符及子字符串个数的方法示例...

    本文实例讲述了java实现统计字符串中字符及子字符串个数的方法.分享给大家供大家参考,具体如下: 这里用java实现统计字符串中的字符(包括数字.大写字母.小写字母以及其他字符)个数,以及字符串的子字 ...

  3. python分组函数_Python中如何按列分组和按自己的函数汇总

    让df作为我们来自熊猫的测试数据框:import pandas as pd import numpy as np df = pd.DataFrame({'A' : ['foo', 'bar', 'fo ...

  4. python中如何统计文本中的单词个数_python统计文本文件内单词数量的方法

    本文实例讲述了python统计文本文件内单词数量的方法.分享给大家供大家参考.具体实现方法如下: # count lines, sentences, and words of a text file ...

  5. 统计字符串中不同字符个数

    统计字符串中不同字符个数 如何统计字符串中不同字符个数呢,下面这段代码可以实现这个功能.(如有误,请见谅) #include<stdio.h> int main(void) {int i, ...

  6. 用python统计水浒传中的高频词汇

    用python统计水浒传中的高频词汇 #词频统计.py import jieba excludes = {"两个","一个","只见",&q ...

  7. mapreduce分组统计_Mongodb的分组统计MapReduce

    ap-Reduce是一种计算模型,简单的说就是将大批量的工作(数据)分解(MAP)执行,然后再将结果合并成最终结果(REDUCE). MongoDB提供的Map-Reduce非常灵活,对于大规模数据分 ...

  8. 使用Mapreduce案例编写用于统计文本中单词出现的次数的案例、mapreduce本地运行等,Combiner使用及其相关的知识,流量统计案例和流量总和以及流量排序案例,自定义Partitioner

    工程结构: 在整个案例过程中,代码如下: WordCountMapper的代码如下: package cn.toto.bigdata.mr.wc; import java.io.IOException ...

  9. Hadoop学习笔记—11.MapReduce中的排序和分组

    Hadoop学习笔记-11.MapReduce中的排序和分组 一.写在之前的 1.1 回顾Map阶段四大步骤 首先,我们回顾一下在MapReduce中,排序和分组在哪里被执行: 从上图中可以清楚地看出 ...

最新文章

  1. 难点电路详解之负反馈放大器电路(3)
  2. -bash:command not found
  3. 手机web——自适应网页设计(html/css控制) - 51CTO.COM
  4. Java中的<T>是什么?
  5. 为VMware虚拟机中的Linux系统设置固定IP的方法
  6. WPF中将16进制颜色码转换成SolidColorBrush
  7. 【C语言进阶深度学习记录】一 数据类型的本质与变量的本质
  8. 2013 ACM/ICPC Asia Regional Changsha Online - C
  9. Echarts文字大小自适应,案例详解
  10. 在写新邮件时,在地址栏中敲入前几个字母,对于已熟悉的收件人,outlook会弹出列表...
  11. 解决fabric编译失败(make: *** [release/linux-amd64/bin/configtxgen] Error 1)
  12. scp创建远程目录_如何在 HPC 硬件上远程运行大型仿真?
  13. 贝塞尔曲线运动n阶追踪方程的数学原理及其匀速化方法和应用
  14. 1113 小胖子的时钟【水题】
  15. 找不到战网服务器ip地址,wow服务器ip地址-我怎么知道战网服务器的IP地址去PING, – 手机爱问...
  16. 迪杰斯特拉算法(dijkstra)_朴素版_堆优化版
  17. 在手机屏幕上移动APP的两种方式
  18. Linux下C程序调用库函数实现重启
  19. 如何为自己的 CSDN博客设置自定义域名?
  20. matlab abc dq,关于matlab及pscad中abc2dq模块的使用.doc

热门文章

  1. 月薪多少_教师月薪多少?全国各地教师工资表来了
  2. 新项目jenkis配置
  3. Mybatis plus 整合springboot 出现的Invalid bound statement (not found)问题
  4. scrapy使用pipeline保存不同的表单Item到数据库、本地文件
  5. Mac/Linux 安装联邦学习 Fate 框架单机部署所需的依赖(填坑大全)
  6. jsoup爬虫,爬取全站代码
  7. java 调用打印机 api_java 调用打印机API无法打印,但是直接打印可以,请问有人遇到过这样的问题吗?...
  8. mysql垃圾清理_mysql 垃圾图片清理
  9. dedecms php5.4 无法退出后台,DedeCMS 织梦在 Windows 的 PHP5.4 环境下登录后台空白的解决办法...
  10. lisp 回执多段线_多段线上加点的LISP程序源码