问题来源:

先做的huggingface-bert文本分类(参考text-classification,情感分类,数据集可以考虑SST2),但是数据量太大了,无法穷举所有的类别,故而先用分类来做,但这样也有一个问题,既然做分类,而且要其中比较重要的垂类,那么完全可以用分类模型来预测所有的数据,只要把控其中的score分数即可,如下示例:(输入数据长度无法突破bert 512的限制,超出会自动截断),label有修改。

{'label': '帅气的男孩', 'score': 0.9975317716598511}

经抽检数k数据,发现是这一个类别的基本上都是score大于0.99的,当然训练的时候也是用前面512个字符串来作为一个样本的,其后数据全部舍弃。

本文聚类解决方法:

使用微调后bert-base-chinese,因为要用于聚类,与分类相

Bert文本聚类实践相关推荐

  1. K-means算法及文本聚类实践

    K-Means是常用的聚类算法,与其他聚类算法相比,其时间复杂度低,聚类的效果也还不错,这里简单介绍一下k-means算法,下图是一个手写体数据集聚类的结果. 基本思想 k-means算法需要事先指定 ...

  2. 【NLP】BERT 模型与中文文本分类实践

    简介 2018年10月11日,Google发布的论文<Pre-training of Deep Bidirectional Transformers for Language Understan ...

  3. 尝试用bert做文本聚类

    尝试用bert做文本聚类 以前文本聚类多以TF-IDF构建词权重的方法进行,在本文中尝试用bert提取的向量做文本聚类.对于bert模型,尝试提取不同层的特征,尝试对bert做fun-tune,观察相 ...

  4. SinglepassTextCluster项目:基于single-pass算法思想的自动文本聚类组件

    项目的背景 SinglepassTextCluster, an TextCluster tool based on Singlepass cluster algorithm that use tfid ...

  5. hanlp 词频统计_10.HanLP实现k均值--文本聚类

    AI 人工智能 10.HanLP实现k均值--文本聚类 10. 文本聚类 正所谓物以类聚,人以群分.人们在获取数据时需要整理,将相似的数据归档到一起,自动发现大量样本之间的相似性,这种根据相似性归档的 ...

  6. 中文文本聚类(切词以及Kmeans聚类)

    简介 一 切词 二 去除停用词 三 构建词袋空间VSMvector space model 四 将单词出现的次数转化为权值TF-IDF 五 用K-means算法进行聚类 六 总结 简介 查看百度搜索中 ...

  7. [Python从零到壹] 十五.文本挖掘之数据预处理、Jieba工具和文本聚类万字详解

    欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...

  8. Python中文文本聚类

    原文:https://blog.csdn.net/yyxyyx10/article/details/63685382 简介 一 切词 二 去除停用词 三 构建词袋空间VSMvector space m ...

  9. 物以类聚人以群分,通过GensimLda文本聚类构建人工智能个性化推荐系统(Python3.10)

    众所周知,个性化推荐系统能够根据用户的兴趣.偏好等信息向用户推荐相关内容,使得用户更感兴趣,从而提升用户体验,提高用户粘度,之前我们曾经使用协同过滤算法构建过个性化推荐系统,但基于显式反馈的算法就会有 ...

最新文章

  1. win7访问不了服务器共享文件夹权限设置,win7系统开启共享文件夹访问权限的操作方法...
  2. 从领导身上学习到的几个观点
  3. Doxygen的使用,配置及实例
  4. 基于区块链的健康链系统设计与实现(5)区块链性能优化
  5. 工业用微型计算机笔记(3)-存储单位与基本组成
  6. vue 获取元素在浏览器的位置_JavaScript获取窗口位置和元素坐标(兼容版)
  7. oracle11g 读写,oracle11g pysical standby开启临时读写
  8. solaris 10 安装Apache Mysql PHP
  9. H5唤醒app,不完全兼容
  10. AIX下sort命令简介及使用
  11. PHP操作图片简单案例
  12. 【优化算法】动物迁徙优化算法(AMO)【含Matlab源码 1806期】
  13. 生物流体力学及血流动力学建模仿真技术实战
  14. python 判断字符串是否为空
  15. 主、谓、宾、定、状、补
  16. linux驱动管道,Xilinx Linux 如何理解V4L2的管道驱动程序
  17. WPF 3D 点光源学习
  18. 笔记本linux蓝牙驱动怎么安装程序,如何安装蓝牙设备的驱动程序
  19. 上了 BI,B 就 I 了吗?
  20. 模型剪枝,“剪”掉了什么?

热门文章

  1. python--读取特定的txt文件,并统计文件中的词汇
  2. 剖析GPT,背后的算法,文献,行业影响和中小企业落地建议
  3. 从print(‘andunderst‘[3:6] + ‘andunderst‘[6:10] + ‘andunderst‘[0:3])中也许你发现自己白敲了几年Python代码
  4. 视频教程-RPC服务框架(Dubbo)源码分析-Java
  5. Uboot中start.S源码的指令级的详尽解析【转】
  6. html导航栏字体颜色怎么换,在WordPress的默认主题TwentyTen中修改导航条的颜色
  7. winform使用NPIO导入导出Excel
  8. 大数据时代,人流量统计系统如何提高商业价值
  9. Windows DOS常用命令
  10. Excel 导出8000401a 错误及解决办法