http://www.cnblogs.com/jirigala/archive/2012/11/21/2780889.html

1300多万条数据30G论坛大数据优化实战经验小结 - 2012年于浙江杭州西湖区

2012-11-21 16:05 by 通用C#系统架构, 7463 阅读, 55 评论, 收藏, 编辑

最近由于某大型网站社区论坛运行效率比较低用户反馈论坛有些卡需要对系统进行优化,论坛性能影响了公司的形象还有网站的流量,当然这也会影响到公司的收入,而且后期还需要长期维护网站的社区论坛服务。

1:并发访问的人多,其实访问的人少,偶尔才被请求几次页面,那是性能一般不会受到多少影响,也没什么技术高要求凑合能用就可以了。

2:数据量庞大,访问的人多了,自然数据积累也多了,持续几年每天上千人留言后,这数据量就很庞大了。

3:系统稳定运行了好几年,不能轻易修改,积累了不少个性化的业务数据、个性化的程序逻辑,也无法说更换论坛就可以更换论坛了,把这些逻辑都重新编写一遍也不是那么容易的。

4:普通ASP编写的程序,技术有些老旧,不太好进行缓存优化,一些比较好用的asp.net的技术积累派不上用处。

5:硬件服务器成本需要控制,若是没有预算限制,购买个超级强大的硬件服务器,程序写得稍微垃圾也没啥大问题,但是你这次购买了比较强大的服务器,1年后还需要买更强大的服务器才可以抵御性能的下降,这个办法几乎是无节制的,若购买硬件服务器的费用节省了,可以聘请更优秀的开发人员为公司服务了,那不是更理想了。

其实这些事情对专业的DBA来说是小菜一碟,对我们平时以开发为主的程序员来说,优化上千万条数据有时候就力不从心了。很多小公司难养得起一个专业数据库DBA,专业DBA也不愿去平时没事干的小公司工作,就是去了也会慢慢的水平退化,因为平时没事情干没啥动力挑战一个接一个的极限。

遇到的难题主要有这些:

1:当服务器有性能问题时,无法远程操控。

2:现有的业务系统不能影响。

3:当服务器有性能问题时,做一个动作优化很困难,无法连续做好好几个动作。

4:适当数据库量庞大时,管理器无法用,只能通过编写脚本进行处理。

5:数据量庞大时,一个动作可能需要2个小时才能完成,若一晚上做错几个动作,白忙一晚上了。

6:对现有的业务系统不熟悉。

7:对现有的论坛的功能,性能都不熟悉。

8:对ASP程序已经很陌生了。

9:天天在经营的网站不能被停机。

10:时间紧急,需要在几天时间里处理好。

11:没有强大的测试环境,不大可能有那么多好服务器。

12:数据量大,本地没数据,数据都在服务器上,下载30G数据也不容易。

13:系统的功能也多,SQL语句也多,某个语句出错后起连锁反应,整个系统就崩溃,无法调试,无法控制,相对棘手一些。

14:别人能相信你,甚至鉴定的相信你,你有能力优化大数据的性能,也是需要勇气的。

解决系统性能的方法,主要通过下面的方式:

1:周末加班,因为周末有安静的环境可以分析数据,网站的流量也不大,恶劣的影响少一些。

2:深夜导数据,服务器性能好,效率高。

3:深夜优化数据结构,服务器性能好,效率高。

4:找帮手一起协助,有时候1个人顾得里前面顾不来后面,人多力量大,特别是能干活儿,技术过硬的家伙。

其中一个大表里有13551695条数据,已经彻底上千万条了。

检查服务的各项性能

监视服务器上运行得所有SQL脚本,重点优化性能有问题的语句,通过修改ASP源程序进行优化。

在查询分析器里,分析语句的各项性能

修改数据类型,尽量用更短的数据类型,减少数据库的磁盘占用空间

由于我们采用的是完整备份,这部分也跟金额没多大影响的数据库,所以采用简单模式,减少日志容量

收缩数据库,减轻硬盘占用的多余空间,备份数据库时可以节约一些硬盘空间

对大数据进行了分区处理,这样也可以减轻数据库的压力,合理的分区可以显著提升系统的性能。

索引有碎片时可以重新进行索引,提高数据库的运行性能

经过优化后,数据库的大小变成了原先的1/3,从接近30G,变成了10来G了,后来优化的到10G了。

经过3天的优化,服务器的性能消耗终于降下来了,不会100%了,谢天谢地,总算没白折腾3天,也算可以给公司一个交代了,昏睡了整整一天,才稍微缓过劲儿来,年纪大了,不能总干通宵了。真不是25岁那个时候了。

这个论坛书库的服务器也很强大了,有16个CPU了,12G内存了,否则还真跑不来这么多大的并发大数据的需求。

总结:

01:干活需要有激情,不能逃避责任,需要勇于挑战一个个职业上的极限。

02:前10年的技术积累,经验积累是为了将来10年的工作打基础的,没前10年的努力,不会有今天的小成功。

03:技术上露一手的机会不是天天有,但是露一次可以解决2-3年的问题。

04:需要有良好的身体,通宵干活,持续2天,也打不垮的身体,当然累了需要好好休息一下。

05:要有坚强的意志,遇到什么困难都不能慌,有计划有目的的一个个摆平,你的意志倒下,别人都跟风全趴下了。

06:不仅要能说,能写,更需要能经得起实战,是骡子是马出来溜一溜就知道了。

07:水平再好,水平再差,需要有表达能力,能抓老鼠就是好猫,解决问题了就是技术牛人。

08:别人怎么打击怎么鄙视怎么辱骂,那是别人的事情,自己的日子需要自己过,走自己的路让别人打击去吧,需要有强劲的内心,经得起任何打击、开开心心过自己的日子。

09:写文章的好处就可以得到网上各种高手的指点,更容易得到提高。

吉日嘎拉 - 1300多万条数据30G论坛大数据优化实战经验小结相关推荐

  1. 看透2500万人生老病死 米因大数据解开健康密码

    导读:作为大数据体检先行者,米因大数据给传统体检行业带来翻天覆地的变化,引领着未来行业变革.一点资讯独家专访上海米因健康大数据创始人盛德熙,揭示大数据透视下的健康密码. 2008年春节,万家灯火辉映着 ...

  2. AI比赛-NER:“万创杯”中医药天池大数据竞赛——中药说明书实体识别挑战

    大赛概况 疫情催化下,人工智能正在持续助力中医药传承创新加速发展,其中中医用药知识体系沉淀挖掘是一个基础工作.通过挖掘中药说明书构建中药合理用药的知识图谱,将为中医规范诊疗奠定较好基础.挑战旨在通过抽 ...

  3. hive 插入数据映射到hbase_年薪50万都难招的大数据工程师,凭什么?

    回顾2018年,降薪.裁员.互联网寒冬似乎成为主旋律,那实际上资本市场萎缩了吗? 其实不然,2018年6月,蚂蚁金服还获得140亿融资,而热度较高的大数据行业,在2018年的融资额达到1273.1亿元 ...

  4. 连线IBM大数据案例 让大数据接地气

    文章讲的是连线IBM大数据案例 让大数据接地气,6月16日,对于世贸天阶来说可以说是大数据的一天,IBM连线大数据与分析活动在此举行.在这聚集时尚前沿的阵地上,IBM再次与我们公话"大数据& ...

  5. 漫谈阿里那些大数据技术,大数据学习者必看

    目前人人都在谈大数据,谈DT时代,但是,大数据是什么,每个人都有自己的一个看法,好比盲人摸象,每个都认为自己摸到是真正的大象.我也担心我所看到的,只是大数据的冰山一角,毕竟,将引领整个人类下一次变革的 ...

  6. 上市公司“掘金”大数据 多领域大数据应用受热捧

    <关于促进大数据发展的行动纲要>(简称"<纲要>")有着"大数据国家战略"之称,其下发点燃了上市公司掘金大数据产业的热情.据上证报记者最 ...

  7. 【工业大数据】工业大数据:构建制造型企业新型能力

    2015年5月8日,国务院公布<中国制造2025>,这是中国版的"工业4.0"规划.该规划提到"加快推动新一代信息技术与制造技术融合发展,把智能制造作为两化深 ...

  8. 【工业大数据】工厂大数据之数据源分析;如何挖掘并驾驭大数据的价值,成为“大数据企业”?

    众所周知,工业大数据是工厂智能化水平提升的关键路径,而数据源的分析和管理是工厂大数据的基础,理清理顺数据源也是实施工厂大数据的第一步.本文就对工厂的数据源进行简要分析. 数据源的划分 以下从两个维度对 ...

  9. 大数据经历了40年的发展,传统数据和网络大数据存在哪些不同?

    文章来源:探码科技 从"大数据"一词的正式出现距今已经将近40年的时间,现如今,互联网成为大数据三大来源之一,是获取.传播和扩散相关信息的重要渠道.作为主要数据类型,如今的网络大数 ...

最新文章

  1. 一条简单的更新语句,MySQL是如何加锁的?
  2. js笔记——call,apply,bind使用笔记
  3. java程序员从笨鸟到菜鸟之(七)一—java数据库操作
  4. 避免出现anr的方法_ANR原因及解决方法
  5. 命令行隐藏磁盘驱动器
  6. freemarker常见语法大全
  7. java erlang_Java开发人员的Erlang
  8. 远程调用 Spring Cloud Feign
  9. Magento: 产品页面下jquery change函数失效 Call javascript function onchange product option
  10. 数据结构队列代码_代码简介:队列数据结构如何工作
  11. 在VUE项目中使用SCSS,从安装步骤到语法说明,带你快速入门!!
  12. emacs org 日历_发送电子邮件并使用Emacs检查您的日历
  13. 数学建模常用模型、特点以及应用场景
  14. 【数学】线性代数技巧篇
  15. R软件本地安装GitHub下载的R包
  16. 服务器怎么读取加密狗信息,[求助]菜鸟请教:加密狗读取数据如下,请问如何分析这些数据,怎样复制这个加密狗!...
  17. linux清理unbuntu无用空间,如何给Ubuntu系统清理垃圾
  18. 基于Simulink使用激光雷达数据跟踪车辆仿真(附源码)
  19. 微信小店和微信小商店的区别?如何建立怎么开通?
  20. メリッサ / 梅莉莎

热门文章

  1. 基于RK3568的10.1寸智能显示终端
  2. PCLINT(1) LINT 代码规范
  3. 全球及中国铁路牵引电池行业发展规模调研及未来趋势预测报告2022-2028年
  4. web开发——前端基础(3)—— HTML字符编码
  5. 「产品中心」水电预付费云平台
  6. 谷歌留痕技术教程,Google留痕外推软件
  7. Bootstrap常见问题汇总
  8. MapReduce初级编程实践
  9. 汽车转向灯的c语言程序,实验三 模拟汽车左右转向灯控制
  10. 软件测试前景好,但不是所有人都适合