fastText训练集对比,分词与句子
最近用到了fastText,今天我要做的对比是拿20W数据
进行监督学习,看看是分词的效果好,还是句子的效果好
先准备原始数据
然后对它们进行正则匹配,这里使用的是scala,指定对应的label
指定完成后的样子
然后咱们 进入fastText进行训练
训练完毕
咱们进行测试
好像还行
咱们接着试试,找一找正则匹不上的数据
wt?这个不应该是妇科检查吗
咱们接着来
惨不忍睹!!!因为这个正则是我根据医生整理出来关系自动生成的,因为这种叫法各种不同,医生可能只是写标准的词,所以匹配了大部分。但是其他的还是不能识别。咱们试试分词的。
这里分词使用的是python,真的是慢,用Jieba分词产生文件,大概花了半个小时
当然,中间它将括号也分开了,我觉得应该是要去掉,这些括号/等特殊字符,打算读取过来,写个正则将他们去掉。
然后进行老样子训练
相同的词汇一下变的多了很多,words少了很多,label也少了很多,我应该先匹配后在分词训练的
这里先不管了,jieba分词很慢
看看效果吧
这个分词后的效果好像更差。
还是乖乖写正则吧,等我们有自己的分词字典了在说吧。
fastText训练集对比,分词与句子相关推荐
- python使用matplotlib对比多个模型的在训练集上的效果并使用柱状图进行可视化:基于交叉验证的性能均值(mean)和标准差(std)进行可视化分析、使用标准差信息添加误差区间条yerr
python使用matplotlib对比多个模型的在训练集上的效果并使用柱状图进行可视化:基于交叉验证的性能均值(mean)和标准差(std)进行可视化分析.使用标准差信息添加误差区间条yerr 目录
- R语言决策树、bagging、随机森林模型在训练集以及测试集的预测结果(accuray、F1、偏差Deviance)对比分析、计算训练集和测试集的预测结果的差值来分析模型的过拟合(overfit)情况
R语言决策树.bagging.随机森林模型在训练集以及测试集的预测结果(accuray.F1.偏差Deviance)对比分析.计算训练集和测试集的预测结果的差值来分析模型的过拟合(overfit)情况 ...
- R语言基于Bagging算法(融合多个决策树)构建集成学习Bagging分类模型、并评估模型在测试集和训练集上的分类效果(accuray、F1、偏差Deviance):Bagging算法与随机森林对比
R语言基于Bagging算法(融合多个决策树)构建集成学习Bagging分类模型.并评估模型在测试集和训练集上的分类效果(accuray.F1.偏差Deviance):Bagging算法与随机森林对比 ...
- 基于朴素贝叶斯和预训练Bert模型的中文句子情感分类实践
基于朴素贝叶斯和预训练Bert模型的中文句子情感分类实践 1.任务介绍 本次实践选题为AI研习社2019年9月份举办的中文对话情感分析任务,并在原任务基础上进行了拓展.任务首先给定一中文语句数据集 ...
- python 分词工具训练_中文分词入门和分词工具汇总攻略
[注意]如果寻找分词和文本分析软件,为了完成内容分析和其他文本研究任务,直接使用集搜客分词和文本分析软件就可以了.本文是为了讲解集搜客分词和文本分析的实现原理,是给产品设计者和开发者看的. 最近在整理 ...
- EMNLP 2021 | PairSupCon:基于实例对比学习的句子表示方法
©作者 | ShusenW 学习 | 北京邮电大学 研究方向 | 自然语言处理 论文标题: Pairwise Supervised Contrastive Learning of Sentence R ...
- 手把手!基于领域预训练和对比学习SimCSE的语义检索(附源码)
之前看到有同学问,希望看一些偏实践,特别是带源码的那种,安排!今天就手把手带大家完成一个基于领域预训练和对比学习SimCSE的语义检索小系统. 所谓语义检索(也称基于向量的检索),是指检索系统不再拘泥 ...
- fasttext文本分类python实现_一个使用fasttext训练的新闻文本分类器/模型
fastext是什么? Facebook AI Research Lab 发布的一个用于快速进行文本分类和单词表示的库.优点是很快,可以进行分钟级训练,这意味着你可以在几分钟时间内就训练好一个分类模型 ...
- 用fasttext 训练
用fasttext 训练 下载fasttext 编译 和安装 使用fasttext 变换数据 使用和测试 数据下载 下载fasttext 官网: https://github.com/facebook ...
最新文章
- 订单峰值激增 230%,Serverless 如何为世纪联华降本超 40%?|双11 云原生实践
- Java中性能优化的35种方法汇总
- Layui宣布下线,不自禁的感叹一下,回忆啊
- 我现写掼蛋游戏就是要努力奋斗
- 1亿以内素数的个数_算法|找出给定范围的所有素数
- 【Flink】FlinkConsumer是如何保证一个partition对应一个thread的
- Python接口测试之moco
- 配置MAC地址表实现绑定和过滤
- mysql 表单插入数据_PHP表单数据写入MySQL数据库的代码
- 怎么调用获取被创建的预制体_PostgreSQL为每一个backend创建的cache
- 百度人脸识别文档冲突,facetype应是face_type
- java俄罗斯方块设计报告_俄罗斯方块JAVA课程设计实验报告毕业设计
- 游戏王决斗连接显示服务器错误,游戏王决斗链接
- 【Python精彩案例】生成动态二维码
- 【Rust日报】 2020-01-10 track_caller 錯誤處理大突破
- 装箱与拆箱(TDB)
- 使用Sinc卷积从原始音频数据进行轻量级的端到端语音识别
- 用DIV+CSS技术设计的凤阳旅游网站(web前端网页制作课作业)HTML+CSS+JavaScript
- sql Server 创建临时表 嵌套循环 添加数据
- 【Ansible自动化运维工具】Ansible变量之lookup生成变量方法
热门文章
- 轻量级封装DbUtilsMybatis之四MyBatis主键
- saas系统需要什么样的云服务器,SAAS系统和云服务器的区别
- java实现仓储选址_邮局选址问题 (Java代码)并不难
- 深入浅出AT命令(5)-短信命令
- 通过bat文件加密文件夹,放入你的秘密小电影
- 微信小程序调取微信支付遇到的问题“商户号该产品权限未开通,请前往商户平台产品中心检查后重试”
- windows 10 安装 db2 v11.1(血淋淋的教训)
- Odoo相关资源(持续更新中)
- GC—MS常见数据库有哪些,NIST和AMDIS有什么作用?
- 【R言R语】算法工程师入职一年半的总结与感悟