基于

Python

语言的中文分词技术的研究

祝永志

;

荆静

【期刊名称】

《通信技术》

【年

(

),

期】

2019(052)007

【摘要】

Python

作为一种解释性高级编程语言

,

已经深入大数据、人工智能等

热门领域

.Python

在数据科学领域具有广泛的应用

,

比如

Python

爬虫、数据挖

掘等等

.

将连续的字序列划分为具有一定规范的词序列的过程称为分词

.

在英文中

,

空格是单词间的分界符

,

然而中文比较复杂

.

一般来说对字、句子和段落的划分比

较简单

,

但中文中词的划分没有明显的标志

,

所以对中文文本进行分词的难度较大

.

运用

Python

爬虫对网页数据进行抓取作为实验文本数据

,

使用

python

强大的

分词库

jieba

对中文文本进行分词处理

.

对分词结果分别采用

TF-IDF

算法和

TextRank

算法进行提取关键词

,

实验结果明显优于基于词频的分词算法

.

最后采

用词云的方式对关键词进行展现

,

使得分词结果一目了然

.

【总页数】

8

(1612-1619)

【关键词】

python;

文本分词

;jieba;

词云

;

数据可视化

【作者】

祝永志

;

荆静

【作者单位】

曲阜师范大学

信息科学与工程学院

,

山东

日照

276826;

曲阜师范

大学

信息科学与工程学院

,

山东

日照

276826

【正文语种】

中文

【中图分类】

TP312

【相关文献】

1.Python

环境下的文本分词与词云制作

[J],

严明

;

郑昌兴

python中文分词算法_基于Python语言的中文分词技术的研究相关推荐

  1. python电影推荐算法_基于Python的电影推荐算法

    原标题:基于Python的电影推荐算法 第一步:收集和清洗数据 数据链接:https://grouplens.org/datasets/movielens/ 下载文件:ml-latest-small ...

  2. python交通流预测算法_基于机器学习的交通流预测技术的研究与应用

    摘要: 随着城市化进程的加快,交通系统的智能化迫在眉睫.作为智能交通系统的重要组成部分,短时交通流预测也得到了迅速的发展,而如何提升短时交通流预测的精度,保障智能交通系统的高效运行,一直是学者们研究的 ...

  3. python 排列组合算法_基于python快速实现排列组合算法

    1.python语言简单.方便,其内部可以快速实现排列组合算法,下面做简单介绍. 2.一个列表数据任意组合 2.1主要是利用自带的库#_*_ coding:utf-8 _*_ #__author__= ...

  4. python多叉树遍历_基于Python的多叉树遍历算法

    [ 综直厘翹 S 赛理 ) 信息记录材料 2019 年 5 月第 20 卷第 5 期 基于 Python 的多叉树遍历算法 钱雨波 , 王金祥 ( 指导老师 ) ( 延边大学 吉林 延边 1 3300 ...

  5. python实现ocr识别算法_基于Python的OCR实现示例

    摘要: 近几天在做一个东西,其中需要对图像中的文字进行识别,看了前辈们的文章,找到两个较简单的方法:使用python的pytesseract库和调用百度AI平台接口.写下这篇文章做一个比较简短的记录和 ...

  6. python回归算法_基于Python的函数回归算法验证

    看机器学习看到了回归函数,看了一半看不下去了,看到能用方差进行函数回归,又手痒痒了,自己推公式写代码验证: 常见的最小二乘法是一阶函数回归 回归方法就是寻找方差的最小值 y = kx + b xi, ...

  7. python数据预测模型算法_基于机器学习的股票分析与预测模型研究

    摘 要:近年来,随着全球经济与股市的快速发展,股票投资成为人们最常用的理财方式之一.本文研究的主要目标是利用机器学习技术,应用Python编程语言构建股票预测模型,对我国股票市场进行分析与预测.采用S ...

  8. python数据获取就业方向_基于Python的就业岗位数据获取与预处理

    林长谋 黄玮 摘要:互联网数据获取及分析是当前数据科学的一個重要部分.该文针对互联网中就业岗位数据获取与分析的过程基于Python构建了网络爬虫.并在通爬虫获取网络数据的基础上,对所获得的就业岗位数据 ...

  9. python人脸识别库_基于Python的face_recognition库实现人脸识别

    Python Python开发 Python语言 基于Python的face_recognition库实现人脸识别 一.face_recognition库简介 face_recognition是Pyt ...

  10. python微信好友分析_基于python实现微信好友数据分析(简单)

    一.功能介绍 本文主要介绍利用网页端微信获取数据,实现个人微信好友数据的获取,并进行一些简单的数据分析,功能包括: 1.爬取好友列表,显示好友昵称.性别和地域和签名, 文件保存为 xlsx 格式 2. ...

最新文章

  1. Kafka实战-Flume到Kafka
  2. golang 比较字符串 版本号大小
  3. python requests 示例_Python Requests模块的简单示例
  4. 区块链系统之《一种基于区块链的云数据共享方法》
  5. sqlmap自动扫描注入点_同天上降魔主,真是人间太岁神——SQLMAP 高级教程
  6. [LeetCode] Count Primes - 素数系列问题
  7. 人口普查系统_晋江市召开第七次人口普查区域划分及标绘系统操作培训会
  8. CSerialPort类定义的消息
  9. Linux下编译Jsoncpp
  10. 【360开源】Quicksql——更简单,更安全,更快速的跨数据源统一SQL查询引擎
  11. 华为云ModelArts2.0来袭
  12. FJ集团企业级邮件服务器——Exchange服务器安装与配置(边缘传输服务器)
  13. sklearn 中的 Pipeline 机制
  14. OpenCV-特征提取与检测(03、自定义角点检测器)
  15. 237.删除链表中的节点
  16. Intent与intent-filter
  17. php168 discuz论坛贴子调用设置,Z-blog调用Discuz论坛最新帖子的方法
  18. 数据挖掘模型中的IV和WOE详解
  19. 游戏辅助制作核心--植物大战僵尸逆向之植物叠加种植(八)
  20. 初来乍到,请多多指教

热门文章

  1. Docker容器镜像加速器
  2. 使用Autumn框架进行C++依赖注入示例
  3. 企业快速构建可落地的IT服务管理体系的五大关键点
  4. 英语砖石法则(三)----用好你的耳朵
  5. 100人PJ?へへ。バージョン1.0の反省書を書かなければなりません、今日。
  6. 计算机笔记检讨,上课没做笔记的反省检讨书范文550字
  7. 《P2P技术详解》系列文章
  8. ios 发光字体文字的实现
  9. 网络安全 Windows用户密码破解 使用破解MD5值的在线网站和监听工具Cain
  10. VMware Workstation左侧不见了,左侧菜单栏不见了