python数据挖掘建模实战_#Python3组数据挖掘实战总结#
数据挖掘实战课程
章节1 课时2
定义
Data mining, DM
大量的数据中,通过统计学、人工智能、机器学习等方法挖掘出未知的、且有价值的信息和知识的过程。
案例:啤酒与尿布
可视化
算法
数据库
机器学习
统计学
市场营销
其他学科
数据挖掘工程师往往是熟悉和理解业务的人
数据挖掘 VS 数据分析
分析重统计,挖掘偏预测
分析[现状、原因、预测]
挖掘[分类、聚类、关联、预测]
分析[对比、分组、交叉、回归]
挖掘[决策树、审计网络、关联规则、聚类分析]
分析[指标统计量]
挖掘[输出模型或规则]
模型VS规则
模型:Y=f(X)
规则:Y={y|age>30 & income>10000}
算法则是求解模型的步骤与方法
章节1 课时3
常见问题
商业角度的问题->数据挖掘
用户流失,促销活动 -> 分类
目标市场 -> 聚类
交叉销售 -> 关联
未来销量 -> 预测
各方法特点
分类:有监督学习,已知目标分类的样本训练
决策树、贝叶斯、KNN等
用户流失,促销响应等
聚类:无监督,物以类聚的思想
层次、网格、密度等
目标市场细分、现有客户细分等
关联:无监督,别称购物篮分析,识别频繁发生的模式
Aprior、Carma、序列
交叉销售
预测:有监督学习
线性回归、时间序列
气温、GDP、收入、用户数预测等
章节1 课时4
CISP-DM
1. 商业理解
确定商业目标:商业背景,成功标准
确定挖掘目标:口径,数据,维度,成功标志
制定项目方案:算法,时间安排
2. 数据理解
收集
描述
探索
质量描述
3. 数据准备
导入、抽取、清洗、合并、变量计算
4. 模型构建
训练集,验证集
建模技术
建立模型
模型对比
5. 模型评估
技术层面:设计对照组比较;评估指标要设计合理[命中率、覆盖率、提升度]
业务经验
6. 模型部署
营销过程跟踪
观察模型衰退变化
引入新的特征优化模型
程序固化
章节2 课时5
文本挖掘
案例
常用词汇统计
语料库
待分析文档的集合
通过循环将路径全部读入
filePaths = []
for root, dirs, files in os.walk(
"D:\\PDM\\2.1\\SogouC.mini\\Sample"
):
for name in files:
filePaths.append(os.path.join(root, name))
章节2 课时6
中文分词
jieba
利用命令行pip install jieba即可
jieba.cut('我在用文本分析')
jieba.add_word('文本分析')
增加自定义分词,词库构建
jieba.load_userdict()
章节2 课时7
词频统计
词频:Term Frequency
dataframe.groupby()
词云
无效词语的过滤
最终统计剔除~isin(stopwords)
分词时直接剔除
章节2 课时8
词云绘制
词云:图形化表达词频
word cloud
章节2 课时9
词云梅花
词云配合形状
准备好词频数据
wordcloud
mask
调整图片质量,尺寸
章节2 课时10
关键词提取
jieba.analyse.extract_tags(content, topK)
章节2 课时11
关键词提取原理
TF-IDF原理
词频TF
逆文档频率(权重),log(文档综述/(包含该词的文档数+1) IDF
TF-IDF = TF * IDF
文档向量化
d_m 文档
w_n 分词
f_{ij}: 第i篇文章,分词j出现的次数
正则表达式
import re
re.complile(u'[\u400-u9fa5]+')
章节2 课时12
sklearn
scikit-learn, bsd-开源许可
利用空格人工先做分词,仿照英文
保留最短长度:中文单字可成词
sort by TF-IDF方法
向量化:sklearn.feature_extraction.text.CountVectorizer
TF-IDF计算:sklearn.feature_extraction.text.TfidfTransformer
章节2 课时13
相似文章推荐
推荐
好的人+事物,相似推荐+协同过滤推荐
相似推荐:用户表现出对某人/物的兴趣,为它推荐类似的人/物--人以群分,物以类聚
协同过滤:已有用户群历史的行为与偏好,预测当前用户的偏好
理论依据:余弦相似度
pairwise_distance
章节2 课时14
自动摘要
短文,全面准确反映
原理:类似余弦定理
算法:
获取到需要摘要的文章
对该文章进行词频统计
对该文章进行分句(跟进标点)
计算分句与文章之间的余弦相似度
取相似度最高的分句,作为文章的摘要
章节3 课时15
相关系数
关联程度的基本测度之一
相关分析基本特征
方向:正、负相关
量级:低度(0,0.3) 中度 [0.3,0.8) [0.8,1]
numpy.corrcoef(X,Y)
python数据挖掘建模实战_#Python3组数据挖掘实战总结#相关推荐
- python数学建模(二)线性规划2.实战(思路清晰\过程完整、详细)
文章目录 (一)简单陈述本文章的内容 (二)线性规划例题(实战) 2.1 实战题目 2.2 符号规定和基本假设 2.3 模型的分析 2.4 模型的建立 2.5 模型一的求解和分析 2.5.1 (代码) ...
- python参数化建模加工图_基于Python的ABAQUS层压板参数化建模
唐维 康泽毓 杨婷 曾凤 蒋莉 摘要:为了提高层压板在ABAQUS仿真中建模的效率与准确性,提出利用Python语言对ABAQUS二次开发进行层压板参数化建模的方法.基于ABAQUS有限元软件,采用P ...
- Python数据挖掘与机器学习_通信信用风险评估实战(1)——读数据
案例及数据说明 本选题用到的数据包括公共数据集.用户通话数据.违约行为数据. 训练集数据:用户通话数据(201703-201706),违约行为数据(201707),公共数据-基本信息(201703-2 ...
- python3编程实战_生信编程实战第3题(python)
image.png wget ftp://ftp.ensembl.org/pub/release-87/gtf/homo_sapiens/Homo_sapiens.GRCh38.87.chr.gtf. ...
- 数据挖掘如何计算相关性_一份数据挖掘入门指南!!!
Datawhale 作者:王瑞楠.吴忠强.徐韬.田杨军 摘要:入门数据挖掘,必须理论结合实践.本文梳理了数据挖掘知识体系,帮助大家了解和提升在实际场景中的数据分析.特征工程.建模调参和模型融合等技能. ...
- python风控建模项目_像潘叔叔那样用半年时间学Python,有哪些书值得看?
去年11月,SOHO中国董事长潘石屹先生发微博宣布,要开始学习Python,"这也是今天给自己人生的礼物".于是圈子里便有了"百亿身家中年男子告别房地产转行学Python ...
- python函数编程实战_(转)函数式编程实战教程(Python版)
许多函数式文章讲述的是组合,流水线和高阶函数这样的抽象函数式技术.本文不同,它展示了人们每天编写的命令式,非函数式代码示例,以及将这些示例转换为函数式风格. 文章的第一部分将一些短小的数据转换循环重写 ...
- python数学建模可视化_数学建模之流程图和数据可视化
数学建模之流程图及数据可视化 前言:数学建模比赛中,最吸引评审老师的就是figure了,figure分为开篇的流程图[模型思路].数据统计图[折线图.柱状图.扇形图.拟合图-].地图[热力分布图].恰 ...
- python 工程进度计划_从零开始的项目实战(7)——项目进度述职报告
今天是2020年10月15号,说来真是惭愧,从我们实战系列第一篇文章发布开始算已经过去了快两个月. 没能按照排期计划完成工作是我的责任,在这里向所有的读者朋友们说一声对不起. 做错事情找借口绝不是一个 ...
最新文章
- 1、CSS样式及其基本语法
- HDU 4283:You Are the One(区间DP)
- Deep Learning---py-faster-rcnn基于PASCAL VOC数据集训练模型
- 解决EditText在ListView Item中,第一次点击无法获取焦点问题
- html无限添加元素,jquery--html【添加元素】
- 尤雨溪写的100多行的“玩具 vite”,十分有助于理解 vite 原理
- cassandra生产监控_碎玻璃:诊断生产Cassandra问题
- 原型设计+用户规格说明书
- 创建一列矩阵数字一样吗_吴恩达深度学习笔记(122) | NLP | 嵌入矩阵Embedding Matrix...
- artdialog4.1.7 中父页面给子页面传值
- mysql中的字符是多长_mysql中的varchar到底能存多长的字符
- python中的for语句可以在任意序列_python在循环内任意增加迭代器
- python 绘制图表生成svg文件_使用Python创建SVG
- 那些年我们一起追逐过的安全工具
- linux用execl函数创建,Linux办公一条龙之电子表格Calc(转)
- 谷歌gmail注册入口_Gmail,日历和其他Google Apps即将出现的外观如下
- nexus+4+android+6,Android 4.1.1+Nexus S安装BT5
- css修改方框内容,CSS改变checkbox的方框及对勾的粗细
- 超级计算机 弦理论,暗能量导致宇宙加速膨胀?弦理论能否帮忙解决?
- 低频电磁波与高频电磁波优势与劣势