我们正在研究开发一种捕获和分析netflow数据的工具,我们收集了大量的数据.每天我们捕获大约14亿个流记录,这些记录在json格式中看起来像这样:

{

"tcp_flags": "0","src_as": "54321","nexthop": "1.2.3.4","unix_secs": "1352234521","src_mask": "23","tos": "0","prot": "6","input": "105","doctets": "186","engine_type": "0","exaddr": "2.3.4.5","engine_id": "2","srcaddr": "9.8.7.6","dst_as": "12345","unix_nsecs": "752265174","sysuptime": "2943529544","dst_mask": "24","dstport": "80","last": "2943523241","srcport": "52672","dpkts": "4","output": "111","dstaddr": "6.5.4.3","first": "2943517993"

}

我们希望能够对数据集进行快速搜索(少于10秒),最有可能在很短的时间内(10 – 30分钟间隔).我们还希望索引大部分数据点,以便我们可以快速搜索每个数据点.我们还希望在执行搜索时获得最新的数据视图.留在开源世界会很棒,但我们并不反对为这个项目寻找专有解决方案.

这个想法是保留大约一个月的数据,这将是约432亿条记录.粗略估计每条记录将包含大约480字节的数据,相当于一个月内大约18.7太字节的数据,可能是索引的三倍.最终,我们希望增加此系统的容量来存储数万亿条记录.

我们(非常基本上)已经对这个项目的候选人进行了评估,但是每个人都提出了自己的挑战.使用couchbase时,索引是按时间间隔完成的,而不是在插入数据期间,因此视图不是最新的,cassandra的二级索引在返回结果时效率不高,因为它们通常需要扫描整个集群以获得结果,而mongodb看起来很有希望但是由于它是主/从/分片,因此看起来更难以扩展.我们计划评估的其他一些候选者是elasticsearch,MysqL(不确定这是否适用),以及一些面向列的关系数据库.任何建议或现实世界的经验将不胜感激.

mysql 万亿数据_sql-server – 哪个数据库可以处理数十亿/数万亿条记录的存储?...相关推荐

  1. mysql 查询快照数据_SQL Server : 数据库快照及其查询

    近日再次讲到SQL Server 2005中的数据库快照功能.这里做一个总结 使用场景: 只读的报表查询(可以有多个版本) 分担源数据库压力 将数据静止在某个时间 对于人为失误问题的灾难恢复 主要限制 ...

  2. mysql两列数据去重_CiteSpace多数据库一键去重4.0-知网、万方、维普数据库

    提示:CiteSpace多数据库一键去重4.0版本为最终版本,功能齐全,无需继续更新,及时保存!使用时,将该软件放于空间较大的盘中. 本版本既可以利用CiteSpace做多数据库关键词共现.聚类.主题 ...

  3. mysql 2008新建用户_Sql Server 2008数据库新建分配用户的详细步骤

    前言: 当一个项目完成后,为了数据安全,总会对该项目的数据库分配一个用户,应该说总会创建一个用户来管理这个数据库,并且这个用户只能管理这个数据库.搞了好多次,每次都忘记怎么设置,所以写一篇博文记录一下 ...

  4. 从mysql到大数据(二)--数据库的认识

    一.数据库的认识 数据库顾名思义,是存放数据的库房. 二.数据库的分类(了解) 可以分为两大类:关系型数据库和非关系型数据库. 关系型数据库: 关系型数据库,存储的格式可以直观地反映实体间的关系.关系 ...

  5. mysql 命令删库名,MySQL控制台删除数据库命令 drop database 数据库名

    MySQL控制台删除数据库命令 drop database 数据库名 分类:数据库| 发布:佚名| 查看: | 发表时间:2014/4/30 命令:drop database 例如:删除名为 camn ...

  6. mysql数据库中查询第几条到第几条数据_在 mysql 数据库中,从查询结果的第四条记录开始选取5条记录,下面 sql 语句正确的是( )...

    [单选题]同一种货物,在同一线路上或平行线路上作相对方向的运送,而与对方运程的全部或一部分发生重迭交错的运输被称为( ). [多选题]水闸一般由()三部分组成 [单选题]在一个常规的统计表内,非必需包 ...

  7. mysql查询前20条数据_SQL Server查询前N条记录的常用方法小结

    本文实例讲述了SQL Server查询前N条记录的常用方法.分享给大家供大家参考.具体如下: SQL Server查询前N条记录是我们经常要用到的操作,下面对SQL Server查询前N条记录的方法作 ...

  8. mysql四列数据表代码_MySQL数据库常用代码

    MySQL数据库常用代码启动数据库服务:[ net Start MySQL ] 使用命令登录:[ Mysql -h localhost -u root -p] 关闭数据库服务: [net stop m ...

  9. mysql同步表到本地_sql 同步远程数据库(表)到本地

    一)在同一个数据库服务器上面进行数据表间的数据导入导出: 1. 如果表tb1和tb2的结构是完全一样的,则使用以下的命令就可以将表tb1中的数据导入到表tb2中: insert into db2.tb ...

最新文章

  1. hibernate fetch使用
  2. day12 Python操作rabbitmq及pymsql
  3. kalman滤波器公式的推导
  4. 华北科技学院计算机期末考试,华北科技学院 专业计算机 考试专用
  5. 信息学奥赛一本通(1320:【例6.2】均分纸牌(Noip2002))
  6. 奖金67万!2020 中国计算机学会大数据与计算智能大赛启动!
  7. 洛谷P1364 医院设置
  8. Android 控件 之 Adapter 基础讲解
  9. 《码农翻身》之浪潮之巅的Web
  10. 桌面云之深信服VDC管理
  11. WIFI pineapple使用心得
  12. win7电脑误删鼠标键盘驱动_电脑usb驱动误删鼠标键盘怎么解决?
  13. 上海财经应用统计考python_20上财应用统计415分经验帖(初试第一)
  14. 技术成长-不积跬步无以至千里
  15. 致远OA 组合getshell
  16. 【论文笔记】Neural Machine Translation by Jointly Learning to Align and Translate
  17. 【单片机】含有闹钟的时钟设计
  18. 上海配眼镜(攻略) ,个人配镜经验总结,你不了解的这里都有!
  19. Assert 的用法
  20. 使用 FFmpeg(bilibili视频m4s合成mp4)

热门文章

  1. swoole websocket服务
  2. 跨平台使用exp/imp进行数据库转移时出现丢失对象的原因
  3. Oracle集合数据类型的比较
  4. 视觉SLAM十四讲学习笔记——第四讲--李群与李代数
  5. 如何利用XShell隧道通过跳板机连接内网机器
  6. 小测试来检验一下你原型链理解的怎么样。
  7. Apache+Tomcat配置方法
  8. uva 11020 - Efficient Solutions
  9. 5.什么是二叉查找树?原理
  10. Linux vi/vim 操作命令大全