2018-3-5(论文——网络中非结构信息的表示与应用)笔记二 (歧义词,未登录词,禁用词)
1.文本的词性标注
词性作为一种语义特征通常:名词 n 动词 v 副词 d 连词 c 形容词 a
通过使用自动标注器,完成文本的标注。
2.歧义词 -----汉字处理
按照偏正结构,汉字通常是形容词在前名词(中心词)在后,所以我们使用的方法通常是使文字和右边的结合看是否是中心词,然后再把左边 的看成修饰词
3.未登录词
在适用基于字典的算法中,未登录词就是没有被字典收录的词汇
通常的解决方法:
统计各个词汇的频率,并且 设置一个阈值e当超过阈值e的时候就将未登录词,则将其作一个字段切分的依据。
4.禁用此处理:
依据: 分词完成后,会发现文本中有狠多没有用的词汇,这个时候对其进行过滤,从而提高特征词获取的精度以及准确度
5.特征选取:
通过以上的那些步骤我们获得了特征集,而在特征集中的特征并不是每一个都用用,需要进行进一步的筛选,这个过程就就是特征提取
特征提取应当遵循的几个规则:
2018-3-5(论文——网络中非结构信息的表示与应用)笔记二 (歧义词,未登录词,禁用词)相关推荐
- 2018-3-6 (论文—网络评论中非结构信息应用于研究)笔记-----论文中的特征抽取的模型算法
整体的流程 网络评论预处理------------------->>>>>>利用相关性特征得到网络评论特征抽取的模型算法 特征提取算法模型: 论文46 马尔科夫链( ...
- header python 环境信息_python获取网页header头部信息(python小白学习笔记二)
方法一:代码查看 通过python获取网页的链接url,返回码,以及相关的信息 #对反爬虫网页,可以设置一些headers信息,模拟成浏览器取访问网站 import urllib.request ur ...
- 2018-3-3 论文(网络评论中非结构化信息的表示与应用研究)笔记一
文章立脚点: 大量网络评论的出现,使得产品制造商或消费者很难跟踪己购产品用户的意见和建议,这就给他们的决策造成了额外的困难. 文章思路; 将网络评论中的非结构化信息处理成结构化信息 文章的总体的脉络 ...
- 2018-3-12论文(非结构化网络中有价值信息数据挖掘研究)笔记一总体思路以及三种目前进行价值信息挖掘的研究思想
文章主要的内容: 提出了基于关联规则的非结构化网路中有价值信息数据挖掘的方法 总体的思想: (1)利用特征提取的方法进行初步的分类与识别,提取出不同文本类型的特征, (2)利用关联规则方法计算各个类型 ...
- 2018-3-12论文(非结构网络中有价值信息数据挖掘)笔记二-----作者:关联规则的非结构网络有价值信息数据挖掘(看不懂,看不懂)
中国知网:<计算机仿真>----------山西农业大学信息科学与工程学院 林媛 非结构化网络中有价值信息数据挖掘原理 确定信息数据挖掘的历史样本(? ...
- 【2020论文】U-Det:一种改进的双向特征网络U-Net结构用于肺结节分割
关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 肺癌的早期诊断和分析涉及在计算机断层扫描(CT)图像中进行精确而有效的肺结节分割. ...
- 2018顶会论文汇编
其它机器学习.深度学习算法的全面系统讲解可以阅读<机器学习-原理.算法与应用>,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造. 书的购买链接 书的勘误,优化,源代码资源 CVPR ...
- IJCAI 2021 | 会议摘要有难度?快来引入对话篇章结构信息
点击下面卡片,关注我呀,每天给你送来AI技术干货! 论文:Dialogue Discourse-Aware Graph Model and Data Augmentation for Meeting ...
- 2018最佳GAN论文回顾(下)
继上一篇<2018最佳GAN论文回顾(上)>,我又继续介绍了一个对于GAN的基于样式的生成器体系结构的新论文,提出了一个新的模型来应对这种挑战. 一种用于生成式对抗网络的基于生成器体系结构 ...
最新文章
- 【解决办法】pandas画出时序数据(股票数据)横轴不是时间
- 一些实用却很少用到的css以及标签
- 多合一图床源码 - QQ图床/搜狗图床/头条图床
- SpringBoot2.1.5 (21)---使用 devtools 热部署
- HTML5本地存储与会话存储
- 突然情怀就上来啦,‘闭包’ 今天咱们讲一下子
- java 中文网址大全
- 编译原理第二版5.1答案
- [AngularJS面面观] 16. 依赖注入 --- 注入器中如何管理对象
- Apache 报错指定的网络名不再可用解决方案
- 大学加权平均分计算器_澳大利亚移民宝藏专业----西澳大学幼教硕士解析
- 百度地图/腾讯地图/世界开源地图经纬度API查询接口
- 数据结构PTA 进阶实验5-3.2 新浪微博热门话题(分离链接法 )
- win10设置共享文件夹局域网访问
- MTK OTA更新方法
- Big Faceless Java Pdf报表生成器控件介绍
- Datepicker日期选择器插件
- 《Python编程金典》读书笔记
- 使用do-while结构计算常数e的值。
- Unity 实战项目 ☀️| 只用一个脚本做一个 刮刮乐 案例,一不小心刮出来一个女朋友!【学习娱乐一下】
热门文章
- 观察者模式C#实现实例(一)
- Your stream was neither an OLE2 stream, nor an OOXML stream.问题的解决
- 几何匹配和分合算法的图像识别技术
- [IoC容器Unity]第四回:使用范例
- 在不影响配置下,清除netscreen密码
- eosjs-ecc中文文档
- 我开发的代码,如何申请版权_代码简介:我花了3个月时间申请开发人员职位。 这是我学到的。...
- mysql 锁语句_mysql-笔记 事务 锁 语句
- linux用户在哪个文件夹,LINUX中用命令成功建立一个用户后信息会记录在哪个文件中...
- 不使用powerdesigner手工绘制用例图例题详解