最近用到了fastText,今天我要做的对比是拿20W数据

进行监督学习,看看是分词的效果好,还是句子的效果好

先准备原始数据

然后对它们进行正则匹配,这里使用的是scala,指定对应的label

指定完成后的样子

然后咱们 进入fastText进行训练

训练完毕

咱们进行测试

好像还行

咱们接着试试,找一找正则匹不上的数据

wt?这个不应该是妇科检查吗

咱们接着来

惨不忍睹!!!因为这个正则是我根据医生整理出来关系自动生成的,因为这种叫法各种不同,医生可能只是写标准的词,所以匹配了大部分。但是其他的还是不能识别。咱们试试分词的。

这里分词使用的是python,真的是慢,用Jieba分词产生文件,大概花了半个小时

当然,中间它将括号也分开了,我觉得应该是要去掉,这些括号/等特殊字符,打算读取过来,写个正则将他们去掉。

然后进行老样子训练

相同的词汇一下变的多了很多,words少了很多,label也少了很多,我应该先匹配后在分词训练的

这里先不管了,jieba分词很慢

看看效果吧

这个分词后的效果好像更差。

还是乖乖写正则吧,等我们有自己的分词字典了在说吧。

fastText训练集对比,分词与句子相关推荐

  1. python使用matplotlib对比多个模型的在训练集上的效果并使用柱状图进行可视化:基于交叉验证的性能均值(mean)和标准差(std)进行可视化分析、使用标准差信息添加误差区间条yerr

    python使用matplotlib对比多个模型的在训练集上的效果并使用柱状图进行可视化:基于交叉验证的性能均值(mean)和标准差(std)进行可视化分析.使用标准差信息添加误差区间条yerr 目录

  2. R语言决策树、bagging、随机森林模型在训练集以及测试集的预测结果(accuray、F1、偏差Deviance)对比分析、计算训练集和测试集的预测结果的差值来分析模型的过拟合(overfit)情况

    R语言决策树.bagging.随机森林模型在训练集以及测试集的预测结果(accuray.F1.偏差Deviance)对比分析.计算训练集和测试集的预测结果的差值来分析模型的过拟合(overfit)情况 ...

  3. R语言基于Bagging算法(融合多个决策树)构建集成学习Bagging分类模型、并评估模型在测试集和训练集上的分类效果(accuray、F1、偏差Deviance):Bagging算法与随机森林对比

    R语言基于Bagging算法(融合多个决策树)构建集成学习Bagging分类模型.并评估模型在测试集和训练集上的分类效果(accuray.F1.偏差Deviance):Bagging算法与随机森林对比 ...

  4. 基于朴素贝叶斯和预训练Bert模型的中文句子情感分类实践

    基于朴素贝叶斯和预训练Bert模型的中文句子情感分类实践 1.任务介绍   本次实践选题为AI研习社2019年9月份举办的中文对话情感分析任务,并在原任务基础上进行了拓展.任务首先给定一中文语句数据集 ...

  5. python 分词工具训练_中文分词入门和分词工具汇总攻略

    [注意]如果寻找分词和文本分析软件,为了完成内容分析和其他文本研究任务,直接使用集搜客分词和文本分析软件就可以了.本文是为了讲解集搜客分词和文本分析的实现原理,是给产品设计者和开发者看的. 最近在整理 ...

  6. EMNLP 2021 | PairSupCon:基于实例对比学习的句子表示方法

    ©作者 | ShusenW 学习 | 北京邮电大学 研究方向 | 自然语言处理 论文标题: Pairwise Supervised Contrastive Learning of Sentence R ...

  7. 手把手!基于领域预训练和对比学习SimCSE的语义检索(附源码)

    之前看到有同学问,希望看一些偏实践,特别是带源码的那种,安排!今天就手把手带大家完成一个基于领域预训练和对比学习SimCSE的语义检索小系统. 所谓语义检索(也称基于向量的检索),是指检索系统不再拘泥 ...

  8. fasttext文本分类python实现_一个使用fasttext训练的新闻文本分类器/模型

    fastext是什么? Facebook AI Research Lab 发布的一个用于快速进行文本分类和单词表示的库.优点是很快,可以进行分钟级训练,这意味着你可以在几分钟时间内就训练好一个分类模型 ...

  9. 用fasttext 训练

    用fasttext 训练 下载fasttext 编译 和安装 使用fasttext 变换数据 使用和测试 数据下载 下载fasttext 官网: https://github.com/facebook ...

最新文章

  1. 订单峰值激增 230%,Serverless 如何为世纪联华降本超 40%?|双11 云原生实践
  2. Java中性能优化的35种方法汇总
  3. Layui宣布下线,不自禁的感叹一下,回忆啊
  4. 我现写掼蛋游戏就是要努力奋斗
  5. 1亿以内素数的个数_算法|找出给定范围的所有素数
  6. 【Flink】FlinkConsumer是如何保证一个partition对应一个thread的
  7. Python接口测试之moco
  8. 配置MAC地址表实现绑定和过滤
  9. mysql 表单插入数据_PHP表单数据写入MySQL数据库的代码
  10. 怎么调用获取被创建的预制体_PostgreSQL为每一个backend创建的cache
  11. 百度人脸识别文档冲突,facetype应是face_type
  12. java俄罗斯方块设计报告_俄罗斯方块JAVA课程设计实验报告毕业设计
  13. 游戏王决斗连接显示服务器错误,游戏王决斗链接
  14. 【Python精彩案例】生成动态二维码
  15. 【Rust日报】 2020-01-10 track_caller 錯誤處理大突破
  16. 装箱与拆箱(TDB)
  17. 使用Sinc卷积从原始音频数据进行轻量级的端到端语音识别
  18. 用DIV+CSS技术设计的凤阳旅游网站(web前端网页制作课作业)HTML+CSS+JavaScript
  19. sql Server 创建临时表 嵌套循环 添加数据
  20. 【Ansible自动化运维工具】Ansible变量之lookup生成变量方法

热门文章

  1. 轻量级封装DbUtilsMybatis之四MyBatis主键
  2. saas系统需要什么样的云服务器,SAAS系统和云服务器的区别
  3. java实现仓储选址_邮局选址问题 (Java代码)并不难
  4. 深入浅出AT命令(5)-短信命令
  5. 通过bat文件加密文件夹,放入你的秘密小电影
  6. 微信小程序调取微信支付遇到的问题“商户号该产品权限未开通,请前往商户平台产品中心检查后重试”
  7. windows 10 安装 db2 v11.1(血淋淋的教训)
  8. Odoo相关资源(持续更新中)
  9. GC—MS常见数据库有哪些,NIST和AMDIS有什么作用?
  10. 【R言R语】算法工程师入职一年半的总结与感悟