先贴原来的导入数据代码:

8

import os

os.environ.setdefault("DJANGO_SETTINGS_MODULE", "www.settings")

'''

Django 版本大于等于1.7的时候,需要加上下面两句

import django

django.setup()

否则会抛出错误 django.core.exceptions.AppRegistryNotReady: Models aren't loaded yet.

'''

import django

if django.VERSION >= (1, 7):#自动判断版本

django.setup()

from arrears.models import D072Qf

import xlrd #excel读工具

from datetime import datetime

from xlrd import xldate_as_tuple

import time

import random

time1 = time.time()

#data= xlrd.open_workbook('11.xlsx') 打开文件

with xlrd.open_workbook('11.xlsx') as data:

print u"读取文件结束,开始导入!"

time2 = time.time()

table = data.sheet_by_index(0) #获取工作表

time3 = time.time()

n=1

x = y = z = 0

WorkList = []

for line in range(n,table.nrows):#nrows = table.nrows #行数 ncols = table.ncols #列数 print sh.row_values(rownum)

row = table.row_values(line)

if row: #查看行值是否为空

for i in [0,1,2,4,28,30,32]:

if type(row[i]) == float:

row[i] = int(row[i])

if D072Qf.objects.filter(acct_month = row[0],serv_id=row[1]).exists():#判断该行值是否在数据库中重复

x = x + 1 #重复值计数

else:

WorkList.append(D072Qf(acct_month=row[0],serv_id=row[1],acc_nbr=row[2],user_name=row[3],acct_code=row[4],

acct_name=row[5],product_name=row[6],current_charge=row[7],one_charge=row[8],

two_charge=row[9],three_charge=row[10],four_charge=row[11],five_charge=row[12],

six_charge=row[13],seven_charge=row[14],eight_charge=row[15],nine_charge=row[16],

ten_charge=row[17],eleven_charge=row[18],twelve_charge=row[19],oneyear_charge=row[20],

threeyear_charge=row[21],upthreeyear_charge=row[22],all_qf=row[23],morethree_qf=row[24],

aging=row[25],serv_state_name=row[26],mkt_chnl_name=row[27],mkt_chnl_id=row[28],

mkt_region_name=row[29],mkt_region_id=row[30],mkt_grid_name=row[31],mkt_grid_id=row[32],

prod_addr=row[33]))

y = y + 1 #非重复计数

else:

z = z + 1 #空行值计数

n = n + 1

if n % 9999 == 0:

D072Qf.objects.bulk_create(WorkList)

WorkList = []

time.sleep(random.random()) #让Cpu随机休息0 <= n < 1.0 s

print "导入成功一次!"

print '数据导入成功,导入'+str(y)+'条,重复'+str(x)+'条,有'+str(z)+'行为空!'

time4 = time.time()

print "读取文件耗时"+str(time2-time1)+"秒,导入数据耗时"+str(time4-time3)+"秒!"

这条代码目前未全部将十几万行数据全部导入数据库中,只花了1个小时把5万行数据导入其中后,后面越来越慢,主要慢在excel表到了7万行数据左右后,读取excel中数据很慢了,总体来说影响导入速度有几个原因:

1、一直以来采用xlrd导入xls格式文件,如果文件有十几万行,只是读取文件就会花200秒,若换成csv则几乎不花时间

2、代码中这行语句也会影响速度,特别当数据库中数据很大时:if D072Qf.objects.filter(acct_month = row[0],serv_id=row[1]).exists():#判断该行值是否在数据库中重复

3、若一次性将字典添加十几万行数据,就windows的cpu而已是遭受不住的!所以建议1万条数据导入一次后,清空列表

改善后的代码:

优化部分:采用csv格式;取消掉检查重复数据语句;每5万导入一次数据

#coding:utf-8

import os

os.environ.setdefault("DJANGO_SETTINGS_MODULE", "www.settings")

'''

Django 版本大于等于1.7的时候,需要加上下面两句

import django

django.setup()

否则会抛出错误 django.core.exceptions.AppRegistryNotReady: Models aren't loaded yet.

'''

import django

if django.VERSION >= (1, 7):#自动判断版本

django.setup()

from arrears.models import D072Qf

import time

import random

time1 = time.time()

f = open('11.csv')

print u"读取文件结束,开始导入!"

time2 = time.time()

WorkList = []

next(f) #将文件标记移到下一行

y = 0

n = 1

for line in f:

row = line.replace('"','') #将字典中的"替换空

row = row.split(';') #按;对字符串进行切片

y = y + 1

WorkList.append(D072Qf(acct_month=row[0],serv_id=row[1],acc_nbr=row[2],user_name=row[3],acct_code=row[4],

acct_name=row[5],product_name=row[6],current_charge=row[7],one_charge=row[8],

two_charge=row[9],three_charge=row[10],four_charge=row[11],five_charge=row[12],

six_charge=row[13],seven_charge=row[14],eight_charge=row[15],nine_charge=row[16],

ten_charge=row[17],eleven_charge=row[18],twelve_charge=row[19],oneyear_charge=row[20],

threeyear_charge=row[21],upthreeyear_charge=row[22],all_qf=row[23],morethree_qf=row[24],

aging=row[25],serv_state_name=row[26],mkt_chnl_name=row[27],mkt_chnl_id=row[28],

mkt_region_name=row[29],mkt_region_id=row[30],mkt_grid_name=row[31],mkt_grid_id=row[32],

prod_addr=row[33]))

n = n + 1

if n%50000==0:

print n

D072Qf.objects.bulk_create(WorkList)

WorkList = []

time3 = time.time()

print "读取文件耗时"+str(time2-time1)+"秒,导入数据耗时"+str(time3-time2)+"秒!"

time3 = time.time()

print n

D072Qf.objects.bulk_create(WorkList)

print "读取文件耗时"+str(time2-time1)+"秒,导入数据耗时"+str(time3-time2)+"秒!"

WorkList = []

print "成功导入数据"+str(y)+"条"

f.close()

结果让人大吃一惊!!!,只耗时73秒

Python 2.7.10 (default, May 23 2015, 09:40:32) [MSC v.1500 32 bit (Intel)] on win32

Type "copyright", "credits" or "license()" for more information.

>>> ================================ RESTART ================================

>>>

读取文件结束,开始导入!

50000

读取文件耗时0.0秒,导入数据耗时34.3279998302秒!

100000

读取文件耗时0.0秒,导入数据耗时67.3599998951秒!

138400

读取文件耗时0.0秒,导入数据耗时73.4379999638秒!

成功导入数据138399条

>>>

几万条数据的excel导入到mysql_excel十几万行数据快速导入数据库研究(转,下面那个方法看看还是可以的)...相关推荐

  1. [DJANGO] excel十几万行数据快速导入数据库研究

    先贴原来的导入数据代码: 8 import os os.environ.setdefault("DJANGO_SETTINGS_MODULE", "www.setting ...

  2. oracle导出一个表数据库,excel怎么导出多个表格数据库数据-一个excel表格中有多个sheet,如何将其导入oracle数......

    一个excel表格中有多个sheet,如何将其导入oracle数... 解决方案如下: 可以新建一个查询,查询你所说的2个表中的所有数据 运行查询,这样查询结果就包含了你要的数据,再把查询结果导出 就 ...

  3. 插入100万条有随机姓名,随机电话等字段的数据最快需要几秒?

    问题描述:往数据库的teachers表里面随机插入100万条带随机姓名,随机电话等字段的数据,需要多少秒? 接下来,我将从1.需要多少秒?2.为什么会这么快(包括PreparedStatement与S ...

  4. matlab 图标分为两列,excel表格各组数据作图-EXCEL里如何将表示两组数据的两种图形放在同一个表......

    EXCEL图表中,如何把3组完全不同单位.不同数量级... 1.首先将excel表格打以WPS版本为打开后在里面输入相. 2.数据输入完毕之后,将需要的数据选中. 3.然后点击工具栏上面的插入,选中图 ...

  5. 配置导出MOSS2010列表数据到Excel并根据列表记录自动刷新数据

    第一章 简介 场景描述 根据最近客户的需求,他们需要自动维护MOSS2010列表数据导出到Excel的数据实时同步,就是列表添加记录后,导出的Excel列表自动同步数据过来. 第二章 配置方法 1. ...

  6. halcon 将数据保存到excel_halcon保存数据到excel表格-怎样把图像里面的数据提取到excel表格里面去?...

    mt4如何将自定义数据保存到excel表格 这种方式嵌入的,目的就是让你没有办法简单复制粘贴.即使通过OCR之类的软件,由于存在底色.水印等,错误率也相当高,意义不是很大. 怎样把图像里面的数据提取到 ...

  7. matlab将两组数据画一张图,excel多表格数据作图-EXCEL里如何将表示两组数据的两种图形放在同一个表......

    EXCEL里如何将表示两组数据的两种图形放在同一个表... 用xlsread()函数就可以Excel中的数 假设LHMHZ.xls的数据单元格A为x数据,B为y数据可以用代码实现来你的. data=x ...

  8. 数据科学和人工智能技术笔记 十九、数据整理(上)

    十九.数据整理(上) 作者:Chris Albon 译者:飞龙 协议:CC BY-NC-SA 4.0 在 Pandas 中通过分组应用函数 import pandas as pd# 创建示例数据帧 d ...

  9. python 批量查询网页导出结果_python导出网页数据到excel表格-如何使用python将大量数据导出到Excel中的小技巧...

    如何用python把返回的html提取相应的内容到excel 下载扩展库 xlrd 读excle xlwt 写excle 直百度上搜就能下载 下载后使用 import xlrd 就读excle了 打开 ...

最新文章

  1. PTA团体程序设计天梯赛-L2-010 排座位
  2. 银行的清算、清分、结算、对账
  3. 模板:树上启发式合并(dsu on tree)
  4. java 不同分辨率_java9新特性-14-多分辨率图像 API
  5. highcharts 显示平均值数值_拼多多评价多久能显示,有什么出评价技巧吗?
  6. 泡着枸杞写bug的三流程序员凭什么逆袭到一线大厂?
  7. mocha 测试 mysql_GitHub - zouzhenxing/lei: 整合Express mysql ioredis ejs 的一开发框架,使用mocha对api进行测试...
  8. linux sem函数,linux下信号量及其SEM_UNDO标志
  9. java se开发工具_JavaSE基础代码(1)-Hi ShanShi与开发工具
  10. PouchContainer 开源版本及内部版本一致性实践
  11. C++文件操作的HelloWorld
  12. 【408考研笔记】操作系统完整知识点
  13. Windows10 设置网络共享文件驱动器
  14. Win10WIFI链接不上||无线网卡错误代码56
  15. 学生宿舍(寝室)管理系统设计与实现(JavaWeb 附 演示、源码下载地址)
  16. 有关安全证书汇总及其科普
  17. Python 扫雷游戏 完整源代码+图片素材
  18. 20年时候收集的一些信息安全岗面试题
  19. Kubernetes---Secret配置管理
  20. 云主机和物理机有什么区别?

热门文章

  1. iOS开发 设置状态栏字体颜色
  2. 设置div的内容及子标签向右对齐
  3. 【前端】页面适配?移动端适配屏幕的各种解决方案!
  4. Unet(pytorch)——制作自己的数据集(二分类)
  5. 知物由学 | 听声辨人,看声纹识别技术如何保障内容安全?
  6. 【金猿案例展】某远程教育机构——以用户为中心 打造优势教学内容和智慧化学习产品...
  7. cad角度命令怎么输入_CAD制图软件中怎么输入相对坐标和绝对坐标?
  8. 教程08-微擎系统内置所有函数大全
  9. 冒泡排序--咕噜咕噜
  10. vscode将后缀为.art文件识别为html文件