数据挖掘实战课程

章节1 课时2

定义

Data mining, DM

大量的数据中,通过统计学、人工智能、机器学习等方法挖掘出未知的、且有价值的信息和知识的过程。

案例:啤酒与尿布

可视化

算法

数据库

机器学习

统计学

市场营销

其他学科

数据挖掘工程师往往是熟悉和理解业务的人

数据挖掘 VS 数据分析

分析重统计,挖掘偏预测

分析[现状、原因、预测]

挖掘[分类、聚类、关联、预测]

分析[对比、分组、交叉、回归]

挖掘[决策树、审计网络、关联规则、聚类分析]

分析[指标统计量]

挖掘[输出模型或规则]

模型VS规则

模型:Y=f(X)

规则:Y={y|age>30 & income>10000}

算法则是求解模型的步骤与方法

章节1 课时3

常见问题

商业角度的问题->数据挖掘

用户流失,促销活动 -> 分类

目标市场 -> 聚类

交叉销售 -> 关联

未来销量 -> 预测

各方法特点

分类:有监督学习,已知目标分类的样本训练

决策树、贝叶斯、KNN等

用户流失,促销响应等

聚类:无监督,物以类聚的思想

层次、网格、密度等

目标市场细分、现有客户细分等

关联:无监督,别称购物篮分析,识别频繁发生的模式

Aprior、Carma、序列

交叉销售

预测:有监督学习

线性回归、时间序列

气温、GDP、收入、用户数预测等

章节1 课时4

CISP-DM

1. 商业理解

确定商业目标:商业背景,成功标准

确定挖掘目标:口径,数据,维度,成功标志

制定项目方案:算法,时间安排

2. 数据理解

收集

描述

探索

质量描述

3. 数据准备

导入、抽取、清洗、合并、变量计算

4. 模型构建

训练集,验证集

建模技术

建立模型

模型对比

5. 模型评估

技术层面:设计对照组比较;评估指标要设计合理[命中率、覆盖率、提升度]

业务经验

6. 模型部署

营销过程跟踪

观察模型衰退变化

引入新的特征优化模型

程序固化

章节2 课时5

文本挖掘

案例

常用词汇统计

语料库

待分析文档的集合

通过循环将路径全部读入

filePaths = []

for root, dirs, files in os.walk(

"D:\\PDM\\2.1\\SogouC.mini\\Sample"

):

for name in files:

filePaths.append(os.path.join(root, name))

章节2 课时6

中文分词

jieba

利用命令行pip install jieba即可

jieba.cut('我在用文本分析')

jieba.add_word('文本分析')

增加自定义分词,词库构建

jieba.load_userdict()

章节2 课时7

词频统计

词频:Term Frequency

dataframe.groupby()

词云

无效词语的过滤

最终统计剔除~isin(stopwords)

分词时直接剔除

章节2 课时8

词云绘制

词云:图形化表达词频

word cloud

章节2 课时9

词云梅花

词云配合形状

准备好词频数据

wordcloud

mask

调整图片质量,尺寸

章节2 课时10

关键词提取

jieba.analyse.extract_tags(content, topK)

章节2 课时11

关键词提取原理

TF-IDF原理

词频TF

逆文档频率(权重),log(文档综述/(包含该词的文档数+1) IDF

TF-IDF = TF * IDF

文档向量化

d_m 文档

w_n 分词

f_{ij}: 第i篇文章,分词j出现的次数

正则表达式

import re

re.complile(u'[\u400-u9fa5]+')

章节2 课时12

sklearn

scikit-learn, bsd-开源许可

利用空格人工先做分词,仿照英文

保留最短长度:中文单字可成词

sort by TF-IDF方法

向量化:sklearn.feature_extraction.text.CountVectorizer

TF-IDF计算:sklearn.feature_extraction.text.TfidfTransformer

章节2 课时13

相似文章推荐

推荐

好的人+事物,相似推荐+协同过滤推荐

相似推荐:用户表现出对某人/物的兴趣,为它推荐类似的人/物--人以群分,物以类聚

协同过滤:已有用户群历史的行为与偏好,预测当前用户的偏好

理论依据:余弦相似度

pairwise_distance

章节2 课时14

自动摘要

短文,全面准确反映

原理:类似余弦定理

算法:

获取到需要摘要的文章

对该文章进行词频统计

对该文章进行分句(跟进标点)

计算分句与文章之间的余弦相似度

取相似度最高的分句,作为文章的摘要

章节3 课时15

相关系数

关联程度的基本测度之一

相关分析基本特征

方向:正、负相关

量级:低度(0,0.3) 中度 [0.3,0.8) [0.8,1]

numpy.corrcoef(X,Y)

python数据挖掘建模实战_#Python3组数据挖掘实战总结#相关推荐

  1. python数学建模(二)线性规划2.实战(思路清晰\过程完整、详细)

    文章目录 (一)简单陈述本文章的内容 (二)线性规划例题(实战) 2.1 实战题目 2.2 符号规定和基本假设 2.3 模型的分析 2.4 模型的建立 2.5 模型一的求解和分析 2.5.1 (代码) ...

  2. python参数化建模加工图_基于Python的ABAQUS层压板参数化建模

    唐维 康泽毓 杨婷 曾凤 蒋莉 摘要:为了提高层压板在ABAQUS仿真中建模的效率与准确性,提出利用Python语言对ABAQUS二次开发进行层压板参数化建模的方法.基于ABAQUS有限元软件,采用P ...

  3. Python数据挖掘与机器学习_通信信用风险评估实战(1)——读数据

    案例及数据说明 本选题用到的数据包括公共数据集.用户通话数据.违约行为数据. 训练集数据:用户通话数据(201703-201706),违约行为数据(201707),公共数据-基本信息(201703-2 ...

  4. python3编程实战_生信编程实战第3题(python)

    image.png wget ftp://ftp.ensembl.org/pub/release-87/gtf/homo_sapiens/Homo_sapiens.GRCh38.87.chr.gtf. ...

  5. 数据挖掘如何计算相关性_一份数据挖掘入门指南!!!

    Datawhale 作者:王瑞楠.吴忠强.徐韬.田杨军 摘要:入门数据挖掘,必须理论结合实践.本文梳理了数据挖掘知识体系,帮助大家了解和提升在实际场景中的数据分析.特征工程.建模调参和模型融合等技能. ...

  6. python风控建模项目_像潘叔叔那样用半年时间学Python,有哪些书值得看?

    去年11月,SOHO中国董事长潘石屹先生发微博宣布,要开始学习Python,"这也是今天给自己人生的礼物".于是圈子里便有了"百亿身家中年男子告别房地产转行学Python ...

  7. python函数编程实战_(转)函数式编程实战教程(Python版)

    许多函数式文章讲述的是组合,流水线和高阶函数这样的抽象函数式技术.本文不同,它展示了人们每天编写的命令式,非函数式代码示例,以及将这些示例转换为函数式风格. 文章的第一部分将一些短小的数据转换循环重写 ...

  8. python数学建模可视化_数学建模之流程图和数据可视化

    数学建模之流程图及数据可视化 前言:数学建模比赛中,最吸引评审老师的就是figure了,figure分为开篇的流程图[模型思路].数据统计图[折线图.柱状图.扇形图.拟合图-].地图[热力分布图].恰 ...

  9. python 工程进度计划_从零开始的项目实战(7)——项目进度述职报告

    今天是2020年10月15号,说来真是惭愧,从我们实战系列第一篇文章发布开始算已经过去了快两个月. 没能按照排期计划完成工作是我的责任,在这里向所有的读者朋友们说一声对不起. 做错事情找借口绝不是一个 ...

最新文章

  1. 1、CSS样式及其基本语法
  2. HDU 4283:You Are the One(区间DP)
  3. Deep Learning---py-faster-rcnn基于PASCAL VOC数据集训练模型
  4. 解决EditText在ListView Item中,第一次点击无法获取焦点问题
  5. html无限添加元素,jquery--html【添加元素】
  6. 尤雨溪写的100多行的“玩具 vite”,十分有助于理解 vite 原理
  7. cassandra生产监控_碎玻璃:诊断生产Cassandra问题
  8. 原型设计+用户规格说明书
  9. 创建一列矩阵数字一样吗_吴恩达深度学习笔记(122) | NLP | 嵌入矩阵Embedding Matrix...
  10. artdialog4.1.7 中父页面给子页面传值
  11. mysql中的字符是多长_mysql中的varchar到底能存多长的字符
  12. python中的for语句可以在任意序列_python在循环内任意增加迭代器
  13. python 绘制图表生成svg文件_使用Python创建SVG
  14. 那些年我们一起追逐过的安全工具
  15. linux用execl函数创建,Linux办公一条龙之电子表格Calc(转)
  16. 谷歌gmail注册入口_Gmail,日历和其他Google Apps即将出现的外观如下
  17. nexus+4+android+6,Android 4.1.1+Nexus S安装BT5
  18. css修改方框内容,CSS改变checkbox的方框及对勾的粗细
  19. 超级计算机 弦理论,暗能量导致宇宙加速膨胀?弦理论能否帮忙解决?
  20. 低频电磁波与高频电磁波优势与劣势

热门文章

  1. Python IDE
  2. andorid中植入广告
  3. 商业隔断装修中的材料选择有何注意事项?
  4. (刷机经验+1)Nexus5的刷机和root
  5. 转 __IO定义的作用
  6. 从入门到放弃——VO小白学习VIO系列(1)VINS环境搭建
  7. VIOSLAM 综述
  8. vscode——VScode中增加翻译插件
  9. 多种可以反手“调戏”面试官的方案
  10. Python selenium PIL 全网页滚动截屏 headless全网页截屏