在做数据分析的时候,少不了数据清洗这个步骤。

很多时候我们会自己爬取数据,但是爬取了数据库的数据之后,数据不能直接拿来使用,我们怎么进行数据清洗和进行去重上传的

数据清洗:

数据清洗概念就是去重,检查数据一致性,处理无效值和缺失值等)删除重复信息、纠正存在的错误.

可以利用pandas模块(最常用的清洗模块)和正则或者numpy模块(机器学习),简单的去换行和去除空格可以直接调用方法====>replace,去掉换行符(\n),strip(),去掉头尾空行

数据去重:

(1)在scrapy中已经能做到url链接去重

(2)布隆过滤器(BloomFilter,原理和哈希基本一样)

(3)存数据库的时候先查询(如果不存)在再插入

(4)在数据中增加一个唯一索引字段,这个字段是某个字段做哈希,这样可以达到减少内存,比如我爬二手车,车牌是一个唯一值,我把车牌做哈希变成一个唯一索引,这样重复数据就不能插入了

布隆过滤器:网页URL的去重,垃圾邮件的判别,集合重复元素的判别,查询加速(比如基于key-value的存储系统)等

数据上传:

只要清洗去从完毕以后,就可以直接上传到数据库中,方便其他人使用

python清洗完数据做什么_python数据清洗的基本思路是什么?相关推荐

  1. python清洗完数据做什么_Python 数据的清洗和准备

    主要内容:缺失值处理 删除重复值,离散化和分箱 函数映射,轴索引重定向 异常值检测,虚拟变量 dummy 常用正则表达式 字符串操作 一,缺失值处理,过滤缺失值和补全缺失值 1, 过滤缺失值 可以使用 ...

  2. python处理完数据导入数据库_python操作数据库之批量导入

    python操作数据库之批量导入 Python语法简洁清晰,特色之一是强制用空白符(white space)作为语句缩进. Python具有丰富和强大的库.它常被昵称为胶水语言,能够把用其他语言制作的 ...

  3. python处理完数据导入数据库_python 将execl测试数据导入数据库操作

    import xlrd import pymysql # 打开execl表 book = xlrd.open_workbook('XXXX测试用例.xlsx') sheet = book.sheet_ ...

  4. python学完后做什么_python学完之后主要是做什么?

    回答: 学习3DSMAX必须掌握的内容 1.三维空间能力的锻炼,熟练掌握视图.与物体的位置关系该要做到放眼过去就可以判断物体的 空间位置关系,可以随心所欲地控制物体的位置.这是最基本的要掌握的内容,如 ...

  5. 使用Python清洗文本数据

    点击关注我哦 一篇文章带你了解使用Python清洗文本数据 数据格式并不总是表格格式.随着我们进入大数据时代,数据具有相当多样化的格式,包括图像,文本,图形等. 由于格式非常多样,从一种数据到另一种数 ...

  6. python学完可以干啥-Python学完可以做什么

    原标题:Python学完可以做什么 人工智能近年来极其火热,就业前景非常乐观,众多互联网企业兴起,越来越多的传统行业也开始使用人工智能分析,我们从招聘网站上面就可以看得出,人工智能相关的岗位越来越吃香 ...

  7. 用python处理excel数据做函数_如何使用python通过函数式编程完成excel中的数据处理及分析工作...

    Excel是数据分析中最常用的工具,本篇文章通过python与excel的功能对比介绍如何使用python通过函数式编程完成excel中的数据处理及分析工作.在Python中pandas库用于数据处理 ...

  8. python清洗文本数据_02.数据预处理之清洗文本信息

    准备30万条新闻数据 编号 新闻类别 新闻数量(条) 1 财经 37098 2 教育 41963 3 科技 65534 4 时政 63086 5 体育 65534 6 娱乐 65534 yield生成 ...

  9. python二维数据读取对齐_python代码要严格对齐

    此课程与<清华编程高手.尹成.带你实战python入门>大体相同,只需购买其中的一门课程. 本课程由清华大学尹成老师录制,课程的特色在于讲解原理的同时引入了每个程序员都热衷的黑客技术.py ...

最新文章

  1. 主席树 ---- LCA(树上第k大)Count on a tree
  2. 《C++应用程序性能优化::第五章动态内存管理》学习和理解
  3. 【iCore3 双核心板_FPGA】例程五:Signal Tapll实验——逻辑分析仪
  4. Linux下c/c++项目代码覆盖率的产生方法
  5. python存数据到excel_python爬取的数据--保存数据到excel
  6. JavaScript数组常用的方法总结
  7. React 学习笔记 —— Ref Hook
  8. 使用pymysql进行数据库的增删改查
  9. Mybatis 一对多关联查询collection用法
  10. python之集合操作
  11. java linux 信号_Java 中关于信号的处理在Linux下的实现
  12. winform ui 界面参考
  13. java过滤html相关标签
  14. iframe 自适应内容高度
  15. SQL最全基础教程(有本事别看啊!)
  16. 如何下载微信公众号里面的视频?
  17. 文件或目录损坏且无法读取的解决办法(集合)
  18. 电脑WIN XP蓝屏错误代码大全查询
  19. 手机轻松远程投屏,用Windows电脑一次看5个抖音账号!
  20. mnist手写数字模型训练、保存、加载及图片预测

热门文章

  1. 遇见未来 | MongoDB增强事务支持,向NewSQL的方向迈进
  2. 教你从零搭建Web漏洞靶场OWASP Benchmark
  3. 拥抱时序数据库,构筑IoT时代下智慧康养数据存储底座
  4. 保护亿万数据安全,Spring有“声明式事务”绝招
  5. 用DeBug的方式,带你掌握HBase文件在Snapshot的各种变化
  6. 带你了解数据库的“吸尘器”:VACUUM
  7. 再拔头筹,FusionInsight为华为云大数据打造硬实力
  8. k 近邻算法解决字体反爬手段|效果非常好
  9. 全面认识 RUST -- 掌控未来的雷电
  10. python环境变量添加失败_python环境变量设置失败