1.文本的词性标注

词性作为一种语义特征通常:名词  n         动词  v       副词 d    连词  c    形容词 a

通过使用自动标注器,完成文本的标注。

2.歧义词    -----汉字处理


按照偏正结构,汉字通常是形容词在前名词(中心词)在后,所以我们使用的方法通常是使文字和右边的结合看是否是中心词,然后再把左边 的看成修饰词

3.未登录词     

在适用基于字典的算法中,未登录词就是没有被字典收录的词汇

通常的解决方法:

统计各个词汇的频率,并且 设置一个阈值e当超过阈值e的时候就将未登录词,则将其作一个字段切分的依据。

4.禁用此处理:

依据:   分词完成后,会发现文本中有狠多没有用的词汇,这个时候对其进行过滤,从而提高特征词获取的精度以及准确度

5.特征选取:

通过以上的那些步骤我们获得了特征集,而在特征集中的特征并不是每一个都用用,需要进行进一步的筛选,这个过程就就是特征提取

特征提取应当遵循的几个规则:

2018-3-5(论文——网络中非结构信息的表示与应用)笔记二 (歧义词,未登录词,禁用词)相关推荐

  1. 2018-3-6 (论文—网络评论中非结构信息应用于研究)笔记-----论文中的特征抽取的模型算法

    整体的流程 网络评论预处理------------------->>>>>>利用相关性特征得到网络评论特征抽取的模型算法 特征提取算法模型: 论文46 马尔科夫链( ...

  2. header python 环境信息_python获取网页header头部信息(python小白学习笔记二)

    方法一:代码查看 通过python获取网页的链接url,返回码,以及相关的信息 #对反爬虫网页,可以设置一些headers信息,模拟成浏览器取访问网站 import urllib.request ur ...

  3. 2018-3-3 论文(网络评论中非结构化信息的表示与应用研究)笔记一

    文章立脚点: 大量网络评论的出现,使得产品制造商或消费者很难跟踪己购产品用户的意见和建议,这就给他们的决策造成了额外的困难. 文章思路; 将网络评论中的非结构化信息处理成结构化信息 文章的总体的脉络 ...

  4. 2018-3-12论文(非结构化网络中有价值信息数据挖掘研究)笔记一总体思路以及三种目前进行价值信息挖掘的研究思想

    文章主要的内容: 提出了基于关联规则的非结构化网路中有价值信息数据挖掘的方法 总体的思想: (1)利用特征提取的方法进行初步的分类与识别,提取出不同文本类型的特征, (2)利用关联规则方法计算各个类型 ...

  5. 2018-3-12论文(非结构网络中有价值信息数据挖掘)笔记二-----作者:关联规则的非结构网络有价值信息数据挖掘(看不懂,看不懂)

    中国知网:<计算机仿真>----------山西农业大学信息科学与工程学院                    林媛 非结构化网络中有价值信息数据挖掘原理 确定信息数据挖掘的历史样本(? ...

  6. 【2020论文】U-Det:一种改进的双向特征网络U-Net结构用于肺结节分割

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 肺癌的早期诊断和分析涉及在计算机断层扫描(CT)图像中进行精确而有效的肺结节分割. ...

  7. 2018顶会论文汇编

    其它机器学习.深度学习算法的全面系统讲解可以阅读<机器学习-原理.算法与应用>,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造. 书的购买链接 书的勘误,优化,源代码资源 CVPR ...

  8. IJCAI 2021 | 会议摘要有难度?快来引入对话篇章结构信息

    点击下面卡片,关注我呀,每天给你送来AI技术干货! 论文:Dialogue Discourse-Aware Graph Model and Data Augmentation for Meeting ...

  9. 2018最佳GAN论文回顾(下)

    继上一篇<2018最佳GAN论文回顾(上)>,我又继续介绍了一个对于GAN的基于样式的生成器体系结构的新论文,提出了一个新的模型来应对这种挑战. 一种用于生成式对抗网络的基于生成器体系结构 ...

最新文章

  1. 【解决办法】pandas画出时序数据(股票数据)横轴不是时间
  2. 一些实用却很少用到的css以及标签
  3. 多合一图床源码 - QQ图床/搜狗图床/头条图床
  4. SpringBoot2.1.5 (21)---使用 devtools 热部署
  5. HTML5本地存储与会话存储
  6. 突然情怀就上来啦,‘闭包’ 今天咱们讲一下子
  7. java 中文网址大全
  8. 编译原理第二版5.1答案
  9. [AngularJS面面观] 16. 依赖注入 --- 注入器中如何管理对象
  10. Apache 报错指定的网络名不再可用解决方案
  11. 大学加权平均分计算器_澳大利亚移民宝藏专业----西澳大学幼教硕士解析
  12. 百度地图/腾讯地图/世界开源地图经纬度API查询接口
  13. 数据结构PTA 进阶实验5-3.2 新浪微博热门话题(分离链接法 )
  14. win10设置共享文件夹局域网访问
  15. MTK OTA更新方法
  16. Big Faceless Java Pdf报表生成器控件介绍
  17. Datepicker日期选择器插件
  18. 《Python编程金典》读书笔记
  19. 使用do-while结构计算常数e的值。
  20. Unity 实战项目 ☀️| 只用一个脚本做一个 刮刮乐 案例,一不小心刮出来一个女朋友!【学习娱乐一下】

热门文章

  1. 观察者模式C#实现实例(一)
  2. Your stream was neither an OLE2 stream, nor an OOXML stream.问题的解决
  3. 几何匹配和分合算法的图像识别技术
  4. [IoC容器Unity]第四回:使用范例
  5. 在不影响配置下,清除netscreen密码
  6. eosjs-ecc中文文档
  7. 我开发的代码,如何申请版权_代码简介:我花了3个月时间申请开发人员职位。 这是我学到的。...
  8. mysql 锁语句_mysql-笔记 事务 锁 语句
  9. linux用户在哪个文件夹,LINUX中用命令成功建立一个用户后信息会记录在哪个文件中...
  10. 不使用powerdesigner手工绘制用例图例题详解