我有一个为NLP分类器设计的多维向量。在

以下是数据帧(文本框):

我使用TfidVectorizer创建向量:from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_v = TfidfVectorizer(max_df=0.5,

max_features=13000,

min_df=5,

stop_words='english',

use_idf=True,

norm=u'l2',

smooth_idf=True

)

X = tfidf_v.fit_transform(corpus).toarray()

y = text_df.iloc[:,1].values

X的形状是(138342701)。在

我为KMeans使用了7个集群:

^{pr2}$

我试过使用PCA,但我不确定图表是否正确。在from sklearn.decomposition import PCA

X_pca = PCA(2).fit_transform(X)

plt.scatter(X_pca[:,0],X_pca[:,1],c=y_kmeans)

plt.title("Clusters")

plt.legend()

plt.show()

这对于基于NLP的集群来说是正常的吗?我希望有更独特的集群。有没有办法清理这个聚类图?(即更清晰的分组、清晰的边界、更紧密的聚类点等)。在

python kmean 多维_绘制多维Kmeans集群NLP python相关推荐

  1. 如何在Python中建立和训练K最近邻和K-Means集群ML模型

    One of machine learning's most popular applications is in solving classification problems. 机器学习最流行的应 ...

  2. 运维工程师必备之负载 均衡集群及LVS详解

    原文地址:运维工程师必备之负载 均衡集群及LVS详解作者:蚁巡运维平台 来源: chrinux 的BLOG 时间: 2013-07-01 14:00 此博文主要介绍集群和负载均衡的基本理论和类别,内容 ...

  3. CentOS安装Elasticsearch_IK分词器拼音分词器_部署kibana_部署es集群

    CentOS安装Elasticsearch_IK分词器_部署kibana_部署es集群 一.部署单点es ①:创建网络 因为我们还需要部署kibana容器,因此需要让es和kibana容器互联.这里先 ...

  4. 运维学python用不上_作为运维你还在想要不要学Python,看完这篇文章再说!

    原标题:作为运维你还在想要不要学Python,看完这篇文章再说! 本文由马哥教育Python自动化实战班5期学员推荐,转载自简书,作者为Li.Yingjie,内容略经小编改编和加工,观点跟作者无关,最 ...

  5. 【MATLAB】二维绘图 ( 绘制二维图像 | 设置图像样式 )

    文章目录 一.绘制二维图像 1.二维绘图步骤 2.二维绘图步修饰 3.代码示例 二.设置图像参数 1.图像参数 2.代码示例 一.绘制二维图像 1.二维绘图步骤 绘图前需要给定 xxx 轴 , yyy ...

  6. demo 网络运维_【运维面试】面试官:你们公司的docker主要用来做啥?

    文章来源: [运维面试]面试官:你们公司的docker主要用来做啥?_涅槃重生-CSDN博客​blog.csdn.net 前言 关于docker的面试题,很多面试官会问,你们公司的docker主要用来 ...

  7. python第一章测试题_第一章 测试【含答案】 Python大数据分析

    (1)单选题 python中,常见的结构化数据不包括( ) A  表格型数据 B  多维数组 C  通过关键列相互联系的多个表 D  序列 E  图像数据 (2)单选题 下列不是数据分析的方法有( ) ...

  8. python 请假审批系统_菜鸟也要懂点设计模式|用Python设计一个请假模式

    很多同学学Python一段时间了,但是总感觉自己的写代码不好维护,或者时间长了一旦增加需求或者需要扩展功能,发现自己写的代码就是一团糟!尽管也代码不断的重构了,好像也遵循了PEP8的风格,为啥代码量一 ...

  9. python图像隐写_在图像中隐藏数据:用 Python 来完成图像隐写术

    什么叫"隐写术"? 隐写术是将保密信息掩藏在更大的信息内容中,使他人没法了解掩藏信息内容的存有及其掩藏信息的全过程.隐写术的目地是确保彼此中间的商业秘密沟通交流.与掩藏保密信息內容 ...

最新文章

  1. 中文发音关系频谱的猜想
  2. 下列哪个不是it行业技术岗位_28岁毕业进入IT互联网行业从事技术研发岗位是否还来得及...
  3. SQL登录 18470 18452 错误
  4. BeanUtils工具包下载及应用
  5. Mac上QQ音乐无损保存音频方法
  6. hdfs命令_HDFS命令
  7. 随笔-Python批量转换图片格式
  8. PC端微信自动发送机器人
  9. 淡泊明志, 宁静致远--如何在自学之路上爬得更高更远?
  10. pytorch实战:采用Lenet运行iChallenge-PM数据集
  11. 数据泄露事件频发,深扒企业数据库安全隐患(内附高效防护手段)
  12. 字符在计算机中的存储
  13. 架构专家李伟山:电商系统之订单系统
  14. 联通光猫上海贝尔阿尔卡特 100A-AA 刷 OpenWRT
  15. 模糊测试+符号执行等漏洞挖掘工具安装使用
  16. 第四代微型计算机,第四代树莓派微型电脑正式发布 首搭4GB内存,支持USB 3.0和双屏4K输出...
  17. 计算机的内存条比硬盘,电脑硬盘比内存条还小,全是这个协议的功劳!
  18. Peterson拓展到多线程情况
  19. 企业信息安全应对勒索软件的攻击难度提升
  20. 如何用手机浏览电脑上的本地网站(PHP+Mysql+Apache环境)

热门文章

  1. 负对数似然(negative log-likelihood, NLL)
  2. TCAM与HASH表的差异
  3. 2021年终总结--躺平的一年
  4. 推荐两款简单好用的扒站工具
  5. Flink-Connectors(连接器)(1)JDBC
  6. 开源优测-积微速成计划历次任务及总结
  7. MySql自定义函数的定义和使用
  8. Linux下thread编程
  9. 深入浅出Yolo系列之Yolov3Yolov4核心基础知识完整讲解
  10. 官网购买的个人版 ArcGIS Pro安装授权问题汇总(持续更新)