sklearn库实现

  • 数据集
  • 特征抽取
  • 聚类
  • 找出每簇的中心思想

数据集

部分数据如下:微博id + 内容
3794120055174366 #九阳有礼 无需多滤#九阳免滤豆浆机C668SG耀世首发!智能预约免过滤,贴心配置强到飞起,让你再续温柔一小时!好豆浆,九阳造!经常在苏宁买东西,正品又实惠.相信苏宁!支持苏宁!@俏宝贝筱筱 @可妞儿的小妈咪 @爱情砖家V小K
3794120118102891 #九阳有礼 无需多滤#[新年快乐]九阳免滤豆浆机C668SG耀世首发!智能预约免过滤,贴心配置强到飞起,让你再续温柔一小时![加油啊]@想做二奶 @豆浆需要油条我需要你o @不想要你满嘴的谎言o
3794120209918455 #九阳有礼 无需多滤#九阳免滤豆浆机C668SG耀世首发!智能预约免过滤,贴心配置强到飞起,让你再续温柔一小时!好豆浆,九阳造!经常在苏宁买东西,正品又实惠.相信苏宁!支持苏宁!@爱仔妈咪 @张祥890613 @张夫人1129
3794120248499886 九阳免滤豆浆机C668SG耀世首发,生活也免滤了,活动太给力了,@桐桐宝宝爱妈咪 @专扣岩石 @我是逗逼小倪

链接:数据集及代码
提取码:lk6a

特征抽取

def load_data():"""加载微博文章return  id_:所有微博id列表topics:所有文章列表"""f = open("train.txt","rb")topics = []id_ = []#每一行 为一篇文章#获取所有文章 和 id号while True:line = f.readline()if line:line = line.decode("utf-8")w_id,topic = line.split("\t")id_.append(w_id)topics.append(topic)else:breakid_[0] = id_[0][1:]print(id_[:10])return id_,topicsdef extract_features(topics):"""文档向量化return X:2dim array,特征集"""vectorizer = TfidfVectorizer()sparse = vectorizer.fit_transform(topics)return sparse,vectorizer

聚类

 #加载数据id_, topics = load_data()#抽取特征X,vectorizer = extract_features(topics)#训练模型kmeans = KMeans(n_clusters=20,random_state=3)y_pred = kmeans.fit_predict(X)#评估模型from sklearn.metrics import silhouette_scorescore = silhouette_score(X,y_pred)print("轮廓系数:",score)

找出每簇的中心思想

TFIDF 值越大,越能代表中心思想

基于KMeans的微博聚类相关推荐

  1. 基于K-Means的文本聚类算法

    源代码下载:TDIDF_Demo.rar        声明:本文代码思路完全来自蛙蛙池塘的博客,只为技术交流用途,无其他目的 昨天有幸拜读了蛙蛙池塘的<蛙蛙推荐:蛙蛙教你文本聚类>这篇文 ...

  2. C#下实现的基础K-MEANS多维聚类

    转自:http://www.cnblogs.com/lzxwalex/p/7708266.html C#下实现的基础K-MEANS多维聚类 #本文PDF版下载 C#下实现的基础K-MEANS多维聚类P ...

  3. 【毕业设计_课程设计】基于 K-means 算法的校园微博热点话题发现系统(源码+论文)

    文章目录 0 前言 1 项目说明 2 开发环境 3 系统架构 4 研究结果 5 论文目录 6 项目工程 0 前言 基于 K-means 算法的校园微博热点话题发现系统 提示:适合用于课程设计或毕业设计 ...

  4. kmeans及模型评估指标_基于K-MEANS聚类模型和RFM价值分类模型的订单交易用户价值分析...

    用户数据化运营是互联网运营工作必备工作之一,且产品的生存必须有用户.而会员价价值度是用来评估用户的价值情况,是区分会员价值的重要性模型和参考依据,也是衡量不同营销效果的关键指标之一,我们可以通过复购率 ...

  5. 基于K-Means聚类算法的主颜色提取

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 01.简介 本期我们将一起实现基于K-Means聚类算法的主色提取 ...

  6. 基于Kmeans聚类算法的图像分割(色彩分割)实战

    基于Kmeans聚类算法的图像分割(色彩分割)实战 图像分割是将一幅图像分割成多个像素区域的任务.属于同一对象类型的所有像素都被分配到同一类别下.图像分类是给一副完整的图像一个类别,目标检测是检测到图 ...

  7. 【Kmeans】基于Kmeans的聚类算法的MATLAB仿真

    0.完整源码获得方式 ​​​​​​​方式1:微信或者QQ联系博主 方式2:订阅MATLAB/FPGA教程,免费获得教程案例以及任意2份完整源码 1.软件版本 MATLAB2021a 2.本算法理论知识 ...

  8. 基于Kmeans算法的文档聚类(包含Java代码及数据格式)

    本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 内容可能有不到之处,欢迎交流. 未经本人允许禁止转载. 介绍 给定多篇文档,如何对文档进行聚类.本博客使用的是k ...

  9. 【matlab】机器学习与人工智能期末课设,基于 K-means 聚类算法的图像区域分割系统

    基于 K-means 聚类算法的图像区域分割系统主要由两部分组成,分别是登录界面和主界面.用户登录模块负责用户的登录功能,用户输入账号和密码正确后,进入主界面,失败则跳出弹窗,提示用户登录失败.这是用 ...

最新文章

  1. 为了智能驾驶,李彦宏要改造城市道路
  2. 第十六届全国大学生广东赛区线上比赛流程规范
  3. 并行计算实战-双调排序
  4. python if语句多个条件-Python中if有多个条件怎么办
  5. python电脑如何下载软件-Python如何下载文件
  6. 黑马程序员Linux系统开发视频之线程共享资源与非共享资源
  7. 【PC工具】更新chrome谷歌浏览器最新离线安装版各种版本,最好用的浏览器没有之一...
  8. linux fish,LINUX命令fishshell-系统管理-比bash更好用的shell
  9. zoj 3327 Friend Number 模拟题
  10. [排序][二分][dp]JZOJ 2747 捡金子
  11. 【知识补充】对称加密、非对称加密、数字签名与DDoS攻击
  12. jquey-整屏滚动的制作过程
  13. sql如何遍历几百万的表_SQl SERVER 2000 遍历表中数据的方法
  14. 微信视频不能连接到服务器,微信无法连接到服务器
  15. 《游戏设计艺术(第二版)》第十二章个人学习
  16. shp地图如何导入奥维地图手机_奥维地图如何导入文件 奥维地图导出文件在哪...
  17. AD9361_AD9371_AD9363_AD9364 对比
  18. Apache Solr 建立 HBase 二级索引
  19. stm32之HAL库实现us延时方法
  20. uva 11538 Chess Queen

热门文章

  1. 将光驱文件拷入linux系统方法
  2. 资料员培训建筑八大员培训工程施工技术资料管理的依据和实例
  3. 抽签小游戏:Python-Tkinter
  4. ansys的kbc_ANSYS中接触单元参数设置要点
  5. 免费教程大型网站整理大集合
  6. 【电子产品】ThinkPad 黑将S5 尺寸
  7. 探索HTML5 Plus 拍照或者相册选择图片上传过程
  8. vue+elementUI 实现图片上传预览功能
  9. swing的JTextField的介绍及其使用方法
  10. rk3368H android7.1 固定竖屏参数修改