[置顶] 如何在Mongodb集合中统计去重之后的数据

比方说我们有个mongodb集合，以这个简单的集合为例，我们需要集合中包含多少不同的手机号码，首先想到的应该就是使用distinct关键字， db.tokencaller.distinct('caller').length 如果想查看具体的而不同的手机号码，那么可以省略后面的length属性，因为 db
比方说我们有个mongodb集合，
以这个简单的集合为例，我们需要集合中包含多少不同的手机号码，首先想到的应该就是使用distinct关键字，db.tokencaller.distinct('caller').length如果想查看具体的而不同的手机号码，那么可以省略后面的length属性，因为db.tokencaller.distinct('caller')返回的是由所有去重手机号码组成的数组。
但是，这种方式对于所有情况都是满足的嘛？并不如此，如果要统计的集合记录数较大，如千万级别的，那么在这么统计的时候往往会报10044错误，提示信息“exception : distinct too big , 16mb cap”. 后面我们将通过其他方式进行解决。另外一种方式可以使用runcommand结合distinct进行使用，db.runcommand({distinct:tokencaller,key:caller})
可见在values上显示了去重之后的手机号码，，看结果是一个json格式的，于是尝试了下看看能不能取出values的大小，因为如果对于大数据量的集合来说，直接显示去重的号码明显不合适，于是尝试了下面的写法：
发现是可以的，于是对大数据量使用了这种方式看看是否能取出结果，发现不存在length属性，想了想应该跟mongodb的客户端版本有关系吧，还待验证！！！两种方式都不行，于是试了下mapreduce方式，具体如下：
然后我们会发现，他会将查询出来的结果输出到一个称为“callerstatis”的结合，如下所示：
然后使用db.callerstatis.count()就可以知道有多少不同的手机号码了。使用这种方式，我们同样在大数据量的集合上试了一下，可惜还是失败了！！！！（桑心t_t)，如果有谁有好的方法，麻烦也告诉我一下，小的感激不尽啊^_^

[置顶] 如何在Mongodb集合中统计去重之后的数据

推荐信息