采用内存映射办法。

首先,1千万条短信按现在的短息长度将不会超过1GB空间,使用内存映射文件比较合适,可以一次映射 (如果有更大的数据量,可以采用分段映射),由于不需要频繁使用文件I/O和频繁分配小内存,这将大大提高了数据的加载速度。

其次,对每条短信的第i(i从0到70)个字母按ASCII码进行分组,也就是创建树。i是 树的深度,也是短信第个字母。

这个问题主要是解决两方面的问题:

(1) 内容的加载,

(2)短信内容的比较。

采用内存映射技术可以解决内容加载的性能问题(不仅是不需要调用文件I/O函数,而且也不需要每读出一条短信都要分配一小块内存),而使用树技术可以有效地减少比较测次数。

有1千万条重复的短信,以文本的形式保存,一行一条,也有重复,请用5分钟时间找出重复最多的前10条短信相关推荐

  1. 从一千万条短信中找出重复次数最多的前10条

    题目:      有1千万条短信,有重复,以文本文件的形式保存,一行一条.请用5分钟时间,找出重复出现最多的前10条. struct TNode { BYTE* pText; //直接指向文件映射的内 ...

  2. .有一千万条短信,有重复,以文本文件的形式保 请用5 分钟时间,找出重复出现最多的前10 条。

    此为腾讯面试题,木有具体答案... 1.有一千万条短信,有重复,以文本文件的形式保存,一行一条,有重复.  请用5 分钟时间,找出重复出现最多的前10 条. 答:1000W条短信,每条最多140个字符 ...

  3. 【咕嘎文本对比助手】如何两份手机号或文本对比去重,新旧两批号码如何快速的对比重复,找出重复和不重复的部分,单个文件如何找出重复,单个文件如何找出不重复下面关于五种逻辑做详细解答

    在手机号码整理过程中,群发短信还有大数据分析等整理文件的过程中经常有号码重复 有人说excel有两列数据,怎么用vlookup查找两列数据是否有重复值?在SQL语句中就很好处理了not in 就完事了 ...

  4. mysql查询每个id的前10条数据_解决 MySQL 比如我要拉取一个消息表中用户id为1的前10条最新数据...

    我们都知道,各种主流的社交应用或者阅读应用,基本都有列表类视图,并且都有滑到底部加载更多这一功能, 对应后端就是分页拉取数据. 好处不言而喻,一般来说,这些数据项都是按时间倒序排列的,用户只关心最新的 ...

  5. mysql查询前10条记录

    select * from no_primary_key order by id limit 10; # 显示从id=1到id=10的前10条记录: select * from no_primary_ ...

  6. 找出重复的数java_剑指offer:1.找出数组中重复的数(java版)

    数组中重复的数: 题目:找出数组中重复的数, 题目描述: 在一个长度为n的数组里的所有数字都在0到n-1的范围内. 数组中某些数字是重复的,但不知道有几个数字是重复的. 也不知道每个数字重复几次.请找 ...

  7. SQL查询前10条记录(SqlServer/mysql/oracle)[语法分析]

    Sql Server : Sql代码 select top X * from table_name --查询前X条记录,可以改成需要的数字. select top n * from (select t ...

  8. 找出重复的那个数字的异或算法

    假如你有一个用1001个整数组成的数组,这些整数是任意排列的,但是你知道所有的整数都在1到1000之间(包括1000).此外,除了一个数字出现两次外,其他的数字只出现了一次.假设你对数组做一次处理,用 ...

  9. sql 取表的前10条记录,任意中间几行的记录

    取表的前10条记录 with a as(select *,row_number()over(order by department)rn from _SucceedStaff ) select * f ...

最新文章

  1. BNUOJ 52305 Around the World 树形dp
  2. 关于串口接收数据不全的问题
  3. 计算机组成原理第二版复习大纲,计算机组成原理复习大纲
  4. mysql 凭证_如何用mysql验证flask/python中的凭证?
  5. 亲密关系沟通-【独特性】尊重与探索他人
  6. linux命令:ssh scp ssh-keygen -t rsa用法
  7. 从3D Studio Max导入物体 Importing Objects From 3D Studio Max
  8. 阿里代码规范检测工具-eclipse
  9. 公式法求主合取范式和主析取范式的一种思路
  10. 图像识别(五)| 春天花开却不识?打开百度识图,残差和卷积带你识遍路边野花
  11. 三台路由器两台计算机华为,两台华为路由器怎样设置桥接 两台华为路由器设置桥接的方法...
  12. 什么样的公司需要IT外包?
  13. TCP套接口丢失与重传报文线索
  14. http请求中的 OPTIONS 详解
  15. 为什么手机八核心还会卡?
  16. jedisPool相关参数说明
  17. 图书馆图书上架_泉城书房济南市平阴县图书馆锦东分馆图书上架了!
  18. Tableau数据分析笔记-Chapter08数据分层、数据分组、数据集
  19. 珍藏的PS技巧(可以尝试一下哦)(转载)
  20. 员工离职率预测,练手赛

热门文章

  1. (转载)通俗易懂数仓建模—Inmon范式建模与Kimball维度建模
  2. 田忌赛马可能赢的场次
  3. 正则表达式获取url后面的参数
  4. 【计算机网络】IP协议、IP地址、网段划分、子网划分、子网掩码、CIDR
  5. C语言字符串截取函数strtok和strtok_r
  6. HTML5七夕情人节表白网页制作【星空萤火虫】HTML+CSS+JavaScript
  7. px2rem-loader 适配
  8. JAVA基础,注解反射机制
  9. pull access denied for onbuild-father, repository does not exist or may require ‘docker login‘: deni
  10. LinqToObject(2)——自由自在