1. 问题描述在做爬虫的时候,数据量很大,大约有五百百万条数据,假设有个字段是conmany_name(拍卖公司名称),我们现在需要从五百万条数据里面查找出来五十家拍卖公司,  并且要求字段 time(时间) 大于7月一号,小于10月31号。

2. 问题解决我们首先想到的解决办法是添加索引,对拍卖公司字段添加索引,但是因为日期是大于7月1号,小于10月31号,在这里用索引的效率很低,  并且要重复的查询出来五十家公司,效率很低,有没有好的解决方案呢???
3.解决问题思路1.查询五百条数据,我们会发现内存不够用,这时候我们只查询一百万条数据,分五次处理完毕。2.因为这一百万条数据在内存中,把这一百万条数据放到list中去,同时把五十家拍卖公司组合成字符串,然后for循环每一条数据,    比较拍卖公司是否在字符串中,比较日期是否大于7月一号,小于10月31号。这样去处理,避免数据查询的速度慢。提高数据处理效率。4.感想: 好的解决问题的思路胜过好的解决问题的人

Python 爬虫 大量数据清洗 ---- sql语句优化相关推荐

  1. SQL语句优化技术分析

    SQL语句优化技术分析 操作符优化 IN 操作符 用IN写出来的SQL的优点是比较容易写及清晰易懂,这比较适合现代软件开发的风格. 但是用IN的SQL性能总是比较低的,从ORACLE执行的步骤来分析用 ...

  2. 优化数据库的方法及SQL语句优化的原则

    优化数据库的方法: 1.关键字段建立索引. 2.使用存储过程,它使SQL变得更加灵活和高效. 3.备份数据库和清除垃圾数据. 4.SQL语句语法的优化.(可以用Sybase的SQL Expert,可惜 ...

  3. 提高系统性能——对SQL语句优化的思考

    软件在研发的过程中自始至终都在留意着系统的可扩展性.但与此同一时候也在关注着系统的性能,SQL语句作为系统性能的一环不容忽视.从今天開始结合开发的经验,谈一下我对SQL语句优化的理解和认知: 1.在联 ...

  4. mysql优化的几种方法_详解mysql数据库不同类型sql语句优化方法

    概述 分享一下之前笔记记录的一些不同类型sql语句优化方法,针对mysql. 主要分成优化INSERT语句.优化ORDER BY语句.优化GROUP BY 语句.优化嵌套查询.优化OR语句这几个方面, ...

  5. 【腾讯面试题】SQL语句优化方法有哪些?

    SQL语句优化 性能不理想的系统中,除了一部分是因为应用程序的负载确实超过了服务器的实际处理能力外,更多的是因为系统存在大量的SQL语句需要优化. 为了获得稳定的执行性能,SQL语句越简单越好.对复杂 ...

  6. sql 一个字段在另外一个表没出现_都9012年啦,不懂得这些SQL语句优化,你是要吃大亏的...

    引言 数据库的性能优化技术一直是个老生常谈的问题,不管是MySQL.SQL Server还是Oracle. 对于我们IT开发人员和运维人员,掌握常用的SQL 优化语句是非常必要的,它可以使你的工作变得 ...

  7. MySQL优化之三:SQL语句优化

    一 SQL语句优化的一般步骤: 1 通过show status命令了解各种SQL语句的执行频率 mysql> show status;                #show status:显 ...

  8. mysql常用sql语句优化

    转载自:http://www.cnblogs.com/gomysql/p/3632209.html 在数据库日常维护中,最常做的事情就是SQL语句优化,因为这个才是影响性能的最主要因素.当然还有其他方 ...

  9. mysql高效sql语句_高效SQL优化 非常好用的SQL语句优化34条

    高效SQL优化 非常好用的SQL语句优化34条 相关软件相关文章发表评论 来源:2011/2/13 9:38:43字体大小: 作者:佚名点击:576次评论:0次标签: 类型:电子教程大小:8.5M语言 ...

最新文章

  1. sysctl -p详解
  2. mysql创建表语句 引擎、编码和字符集设置
  3. java-执行流程控制语句
  4. Spring-AOP @AspectJ切点函数之@within()和@target
  5. 突破三个自我,你就不光是老板的料
  6. (转)用ASP.NET向Javascript传递变量 方法1:
  7. 改变网页标签图片(favicon)
  8. Leetcode--343. 整数拆分
  9. onvif学习笔记5:onvif框架代码初步了解
  10. Android将ScrollView移动到最底部
  11. 图解TCPIP-传输层 UDP报文格式
  12. Linux NFS存储服务部署
  13. java 枚举源码解析
  14. 错误解决:src/cpp/cuda.hpp:  fatal error: cuda.h
  15. KEmulator eclipse 调试
  16. redis memcached 可视化管理及监控工具 TreeNMS
  17. 【C语言】筛选法求素数
  18. wmp12功能打不开_使用Windows Media Player Plus向WMP添加新功能
  19. 海思平台的拍照和拍照后期处理算法的介绍
  20. linux必装软件有哪些,来说说Linux下的那些常用软件

热门文章

  1. 全球及中国铝行业产销需求与未来前景预测分析报告2022-2028年版
  2. 数组与指针的艺术--深入探索c/c++数组与指针的奥秘
  3. c语言猴子吃桃嵌套调用编程,C语言实现猴子吃桃问题(循环、递归两种方法)...
  4. 网站推广必备手册:SEO教程:搜索引擎优化入门与进阶(第2版)
  5. Redis java使用
  6. java数组转list,list转数组。
  7. [上海]LinkCoder第四期活动——Jeffrey Richter:Win 8应用开发与.NET4.5
  8. 别拿BI不当产品(上)进击的数据产品
  9. 红包实名的背后,支付实名制如何影响产品设计?
  10. 圈子 | 精彩预告:P2P金融那些事儿