当我们面对海量数据,总会出现那么一些异常数据,我们就需要对数据进行清洗,让我们更好的操作数据。

import codecs
import os
filepath="E:\\python\\python文件\\52G\\126\\"#需要读取文件的路径
savefilepath="D:\\数据处理\\good.txt"#需要写入文件的路径
filename=os.listdir(r"E:\python\python\52G葫\126")#批量输出文件名
filenum=len(filename)#所有文件的个数
for num in filename:#批量打开,因为我是从多个文本读取的内容,所以批量打开文本读取print(num)file=codecs.open(filepath+num,"rb","utf-8","ignore")savefile = open(savefilepath, "ab")mylist=file.readlines()#全部都出for i in mylist:mystr=i.split("----")if len(mystr)==2:#筛选savefile.write(i.encode("utf-8"))写入优质数据else:pass
file.close()#关闭文件
savefile.close()#关闭文件

这样,简单的数据清洗就完成了

玩好大数据:1.数据清洗相关推荐

  1. Cris 玩转大数据系列之消息队列神器 Kafka

    Cris 玩转大数据系列之消息队列神器 Kafka Author:Cris 文章目录 Cris 玩转大数据系列之消息队列神器 Kafka Author:Cris 1. Kafka 概述 1.1 消息队 ...

  2. 独家直播双十一全网动态?前黑客“劳改”带你玩转大数据

    独家直播双十一全网动态?前黑客"劳改"带你玩转大数据 发表于2015-11-24 10:26| 4044次阅读| 来源CSDN| 7 条评论| 作者蒲婧 CTO俱乐部CTOCTO讲 ...

  3. python玩转大数据视频[非原创视频]

    python玩转大数据:简介 http://v.youku.com/v_show/id_XNTk3NDcwMTg4.html python玩转大数据:网络爬虫 http://v.youku.com/v ...

  4. 玩转大数据系列之三:数据报表与展示

    为什么80%的码农都做不了架构师?>>>    经过了数据采集与数据同步.数据分析和处理,我们应该考虑将处理好的数据做成报表或者大屏展示给老板们看,以便老板们可以更加精准地做出战略决 ...

  5. 《一本书读懂大数据营销 玩透大数据营销 创造网络营销奇迹》pdf下载 百度云

    <一本书读懂大数据营销  玩透大数据营销  创造网络营销奇迹>pdf下载请到文末! 在使用低对比度光源的摄影作品中,辣椒的阴影不再是清晰可见的,阴影的线条也不再"生硬" ...

  6. 大数据培训课程数据清洗案例实操-简单解析版

    数据清洗(ETL) 在运行核心业务MapReduce程序之前,往往要先对数据进行清洗,清理掉不符合用户要求的数据.清理的过程往往只需要运行Mapper程序,不需要运行Reduce程序.大数据培训 数据 ...

  7. Cris 玩转大数据系列之日志收集神器 Flume

    Cris 玩转大数据系列之日志收集神器 Flume Author:Cris 文章目录 Cris 玩转大数据系列之日志收集神器 Flume Author:Cris 1. Flume 概述 1.1 什么是 ...

  8. Cris 玩转大数据系列之任务流神器 Azkaban

    Cris 玩转大数据系列之任务流神器 Azkaban Author:Cris 文章目录 Cris 玩转大数据系列之任务流神器 Azkaban Author:Cris 1. 概述 1.1 为什么需要工作 ...

  9. 孟凯想玩转大数据,得先看懂《小时代》

    湘鄂情在餐饮行业已经无路可走,这一点湘鄂情董事长孟凯理解得非常透彻.它高度依赖公务消费,现在政府说不做了,你有天大的本事也扭转不过来,这对湘鄂情是非常致命的. 和湘鄂情同为上市高端餐饮企业的全聚德也正 ...

  10. 玩转大数据风控—利用评分卡模型实现信用评级

    玩转大数据风控-利用评分卡模型实现信用评级 一.算法介绍 1. 什么是逻辑回归? 2. 逻辑回归为何逻辑 ? 3. 逻辑回归怎么回归? 二.构建流程 1.数据处理 1.1 数据清理 1.2 缺失值处理 ...

最新文章

  1. 二分图专题系列各大知识点总结(匈牙利,染色法,最大独立集,最小点覆盖,最小路径覆盖)
  2. Android Stdio 里的 SQLite数据库怎么查看
  3. 数字语音信号处理学习笔记——语音信号的同态处理(1)
  4. 组合模式_设计模式结构性:组合模式(CompositePattern)
  5. tomcat端口冲突解决 Address already in use: JVM_Bind :8080
  6. VC按最小化、关闭按钮、Esc都隐藏主窗口
  7. 外设驱动库开发笔记11:SHT3x系列温湿度传感器驱动
  8. 怎样解决外键约束_《设计心理学》|找寻“设计师”所遇的真正问题与解决之道...
  9. java中spring的web支持nio,Spring WebClient NIO功能和问题域,与Spring Webflux一起使用
  10. JavaScript:执行机制
  11. linux centos需要MPEG-4 AAC解码器
  12. java检查文件的编码格式
  13. 三相并网逆变器PI控制——离网模式
  14. linux qt qpa linuxfb,Linux qt qt.qpa.plugin: Could not load the Qt platform plugin xcb error解决方...
  15. 写好英语科技论文的诀窍: 主动迎合读者期望,预先回答专家可能质疑--周耀旗教授
  16. 太阳的后裔--OST.3 This love这份爱
  17. formality: 形式验证流程
  18. 数字调制系列:IQ调制基本理论
  19. react中label标签关联的用法
  20. 重装window7系统显示找不到驱动、装完系统后不显示网卡、USB没反应

热门文章

  1. Yolov5不止于目标检测,在图像分类上的落地应用!
  2. Docker详解---四、数据卷应用详解(将容器内部的应用配置文件挂在到宿主机)
  3. 解决卡巴和金山词霸冲突后的卡巴问题(部分保护组件启动失败)
  4. CN2线路与其他线路有什么区别?
  5. cpu和内存的关系(CPU,内存和cache之间的关系)
  6. 解决新能源汽车充电桩数量不足和充电时间过长的问题的思路
  7. android 系统图标的使用
  8. 鼠标的按下或松开事件
  9. LQ-630K/LQ-635K 打印过程中出现卡纸故障的分析与处理
  10. 一款App等保的预检测工具--ApplicationScanner