4年人力资源从业经验,情报学硕士,主要内容涵盖python、数据分析和人力资源相关内容

本文运用自然语言处理技术,对中文小说《神雕侠侣》人物角色进行抽取,为使用通过社会网络分析法对人物关系进行分析奠定基础,使文学研究者、社会学家和普通读者对小说人物关系和背景有更全面的认识

自然语言处理技术

自然语言处理(NLP)是一门融语言学、计算机科学、数学于一体的科学。国外学者于20世纪40年代末至50年代初开始NLP相关的研究,近年来,随着人工智能和计算机技术的发展,自然语言处理(NLP)已经成为一个重要的人工智能发展方向,目前已广泛的应用于机器翻译、问答系统、文本分类、信息检索、自动文本摘要等领域。中文的自然语言处理相对于英文还是有诸多差异的,英文是以空格来区分词语,每一个单词即是一个词语,而中文则是以字为字符单位,以词语来表达意思,而且存在一词多义、多词一义等情况,所以相对于英文来说,中文的自然语言处理更为艰难。分词、词性标注、句法分析是中文自然语言处理的三大基本任务,本文主要应用分词、词性标注两类处理技术。

jieba库基本介绍

jieba库概述

jieba是优秀的中文分词第三方库

中文文本需要通过分词获得单个的词语

jieba是优秀的中文分词第三方库,需要额外安装

jieba库提供三种分词模式,最简单只需掌握一个函数

jieba分词的原理

Jieba分词依靠中文词库

利用一个中文词库,确定汉字之间的关联概率

汉字间概率大的组成词组,形成分词结果

除了分词,用户还可以添加自定义的词组

jieba库的优点

支持三种分词模式:

精确模式,试图将句子最精确地切开,适合文本分析;

全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;

搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

安装jieba:

命令行安装方法

pip3 install jieba

jupyter notebook中的安装方法

!pip3 install jieba

!pip3 install jieba

Requirement

already satisfied: jieba

in

d:\ancanda3\lib\site-packages (

0.39

)

jieba库常用函数

分词

词性标注

Jieba0.39版本提供55种词性标注,部分符号及含义如表1所示。由表1可知,人名被标注为nr,因此对小说进行分词和词性标注后的文本进行进一步提取,提取出词性为nr的词作为人物角色名称,即可构建角色列表。

jieba分词的简单应用

使用 jieba 分词对一个文本进行分词,统计长度大于2,出现次数最多的词语,这里以《神雕侠侣》为例

从小说中抽取出现的人名及次数

词性标注

Jieba0.39版本提供55种词性标注,部分符号及含义如表1所示。由表1可知,人名被标注为nr,因此对小说进行分词和词性标注后的文本进行进一步提取,提取出词性为nr的词作为人物角色名称,即可构建角色列表。

jieba词性标注的简单应用

使用 jieba 分词对一个文本进行分词及词性标注,统计词性为nr,出现次数最多的词语,这里以《神雕侠侣》为例

提取后的文件内容如下图所示

jieba 同义词_Jieba库实现词性标注及小说人物角色抽取相关推荐

  1. jieba安装_Jieba库实现词性标注及小说人物角色抽取

    公众号: 小叶叶学Python 4年人力资源从业经验,情报学硕士,主要内容涵盖python.数据分析和人力资源相关内容 本文运用自然语言处理技术,对中文小说<神雕侠侣>人物角色进行抽取,为 ...

  2. Jieba库实现词性标注及小说人物角色抽取

    公众号: 小叶叶学Python 4年人力资源从业经验,情报学硕士,主要内容涵盖python.数据分析和人力资源相关内容 本文运用自然语言处理技术,对中文小说<神雕侠侣>人物角色进行抽取,为 ...

  3. jieba 同义词_jieba 自定义词典

    今天研究了一下结巴自定义词典的使用,稍作记录后续了解原理再修正. 我们添加自定义的词无非有4种 1.添加词完全不同于原词典的词 这时候,uaerdict.txt中添加词的词频随意设定3即可 2.添加词 ...

  4. 媒体利器!最新同义词词库助力创作伪原创

    [文章标题] "激动人心!最新同义词词库发布,助力媒体创作伪原创" [文章内容] 近日,一份全新的同义词词库正式发布,为媒体行业带来了一股新的创作风潮.这个词库的独特之处在于,它能 ...

  5. 第三方库实现中文词频分析和词语可视化(jieba,wordcloud库)

    jieba,wordcloud库实现中文词频分析和词语可视化 文章目录 前言: 一.实验题目: 二.实验准备: 三.实验内容 1.全部代码: 2.实验结果: 3.难点分析: 结语: 前言: 这篇文章是 ...

  6. mysql调用jieba库_jieba库的使用及实例

    安装: cmd模式下输入 pip install jieba anaconda对应环境 conda install jieba 分词原理: Jieba分词依靠中文词库 -利用一个中文词库,确定汉字之间 ...

  7. mysql调用jieba库_jieba库的使用

    jieba库是一款优秀的 Python 第三方中文分词库,jieba 支持三种分词模式:精确模式.全模式和搜索引擎模式,下面是三种模式的特点. 精确模式:试图将语句最精确的切分,不存在冗余数据,适合做 ...

  8. jieba 同义词_中文分词库FNLP与jieba的安装与使用

    本篇讲述FNLP自然语言处理库和jieba中文分词库的安装与使用,FNLP自然语言处理库适合Java开发者学习中文分词处理,jieba中文分词库适合Python开发者学习中文分词处理.通过本篇的学习, ...

  9. ORACLE同义词源库锁表导致目标库删除操作报ora 02055 02049 02063 06512

    故障现象:目标库执行存储过程过程中报ora 02055 02049 02063 06512错误 排查过程: 1.查询该存储过程的110行只是简单的删除动作 2.通过如下SQL语句查死锁,未见任何死锁 ...

最新文章

  1. android base64编码
  2. 系统设计 - 使用面向 iOS 的本机插件扩展
  3. 【BZOJ4069】【APIO2015】巴厘岛的雕塑 [贪心][DP]
  4. 怎么用python编简单游戏_用Python实现一个简单的算术游戏详解
  5. 如何使用Axure高效完成高保真原型
  6. Java基础学习路线送给零基础的朋友
  7. QUIC/HTTP2相关资料整理
  8. Python实战之多线程编程thread模块
  9. 详解java二叉排序树_java实现二叉排序树
  10. 计算机科学素养大赛,第六届全国大学生计算机应用能力与信息素养大赛圆满结束...
  11. [渝粤教育] 西南科技大学 土力学基础工程 在线考试复习资料
  12. 高职高专院校人才培养工作水平评估工作感想
  13. 宏观经济学 - 宏观经济的基本指标及其衡量
  14. Python笔记 之 dict模块
  15. Word文档怎么删除html标签,word删除指定页面
  16. 我的Go+语言初体验——工欲善其事,必先利其器
  17. php api开发书籍,概述 · ThinkPHP API开发入门 · 看云
  18. C# 重载 Equals() 方法、重载运算符、声明显隐式转换的简要整理
  19. highcharts特殊定制:x轴文字竖直显示(兼容各浏览器)
  20. 浅谈软件测试行业的现状和前景

热门文章

  1. Android开发:最详细的 Toolbar 开发实践总结
  2. 里奥老师乾坤大挪移—浅尝状态机
  3. 数据结构java版txt,图解数据结构:使用Java
  4. .net GridView中 A标签runat=server问题
  5. 【计算流体力学CFD】Fluent软件模拟:方腔热对流圆柱绕流(卡门涡街)|Matlab
  6. springboot定时发送短信_spring boot 1.5.4 定时任务和异步调用(十)
  7. (2019春)软件构造:雨课堂试卷(第7章)
  8. 从心认识“完美小助手”(推荐)
  9. GimbalLock万向节锁与四元数旋转
  10. excel打开密码忘记了_安卓手机忘记解锁密码怎么办?三招教你打开手机