Python很强大,也是做大数据分析的工具之一

做文本分析用Python也很顺手

举个实例,展示下如何使用Python做文本分析的

目前文本分析在现实生活中有着广泛的应用,大家最熟悉的莫过于以Google和百度为代表的搜索系统,Information />

中文文本分析常见的问题

中文的文本分析相对于英文有着很大的不同。英文天然具有分词的标志——空格,每个单词之间一定是以空格进行分离,所里在对于英文文章进行分词变得相对简单,没有分错词的问题。然而对于中文来说,分词是一个十分困难的事情,中文之间并没有诸如空格这样的分词标志,如何对中文进行分词,对于提高中文文本分析的准确率有着很重要的影响。

中文的分词大致可以分为两类,分别是基于字典的机械分词方法和以及基于统计模型的序列标注方法。字典匹配是将文本中的文字切片和已有的字典进行匹配,如果文字切片在字典中出现,则为正确的匹配字符,字典匹配包括最大匹配法和全切分路径选择等方法。序列标注的方法有隐马尔科夫模型(HMM)和条件随机场(CRF),通过统计计算的方式,得出最有可能的文字组合。

基于Stanford CoreNLP Toolkit

和Python NLTK的中文分词实例

Stanford CoreNLP Toolkit

Stanford

NLP是Stanford

NLP团队开发的一款基于java的开源自然语言处理工具集,提供了包括统计NLP和深度学习NLP在内的多种自然语言解决方案。Stanford

NLP Software有着丰富的文本处理功能,包括分词,词性标注,命名实体辨别,句法依存分析等。Stanford NLP Word

Segmenter提供了基于条件随机场(CRF)的中文分词解决方案,拥有两个分别基于 Chinese Penn Treebank

Standard和Peking University Standard的模型。

Python NLTK Library

在Python的NLTK(Natural

Language Toolkit)中也提供了Stanford

NLP分词器的接口,我们可以使用Python来进行简单的文本分析训练。NLTK是Python中最常用的自然语言处理包,提供了包括50是个语料库在内的许多工具接口,并提供一系列文本处理的工具,使用起来十分方便。NLTK提供的工具包括文本分类,文本分词,文本标注和解析等。

下面我们使用Stanford NLP的分词器来进行一个简单的分词训练,通过调用segment方法来实现中文分词:

代码:

segmenter.segment(u"昆仑数据是一家专注于工业大数据的公司")

结果:昆仑 数据 是 一 家 专注于 工业 大数 据 的 公司

我们也可以调用Stanford

NLP

Software来做词性标注的工作,从官网下载Postagger组件,同样,将其置于你的Python目录下,调用NLTK的StanfordPOSTagger包,并编辑接口的相对路径,需要注意的是,做词性标注时,输入的文本应为分词后的单词集,不是未分词的文本,如下图所示: />

代码: />

结果: />

Stanford NLP Software还有许多十分有用的功能,感兴趣的话,可以在官网上下载其他的组件,配置好路径,自己选择一个文本进行试验,相信一定会发现许多有趣的结果。

作者:JasonKeine

出身华盛顿大学的数据科学小砖家,92年小鲜肉,180+,K2分析团队颜值担当之一,文艺,深沉……看到这里心动了?人家已脱离单身苦海。这次我们真的不招亲~

关于昆仑数据:昆仑数据是工业大数据领域的领军企业,创始团队来自国内顶尖信息科技与工业企业以及顶尖研究机构,蝉联“中国大数据企业50强”,受邀参与制订《中国制造2025》工业大数据技术路线图,发起成立并主导运营工业大数据制造业创新中心,致力于用大数据和人工智能技术。已服务新能源、石油天然气、电子制造、工程机械、环保、动力装备、生物制药等领域。更多内容请关注微信公众号 ( id:k2datas ) 了解。

python做啥用-你都用 Python 来做什么?相关推荐

  1. python有哪些作用-你都用Python来做什么,它对你来说有什么作用?

    要说作用大概如下几点: 1.Web应用开发 服务器端编程,具有丰富的Web开发框架,如Django和TurboGears,快速完成一个网站的开发和Web服务.典型如国内的豆瓣.果壳网等;国外的Goog ...

  2. python流浪图书馆_你都用 Python 来做什么?

    这一年自学了Python,然后又学习了基于Python的界面程序框架PyQt5,本身自己也是写软件测评的,所以对市面上的刚需有所了解. 比如我发现市面上的音频转文字和PDF文章翻译这两项功能几乎都是收 ...

  3. 头条上python广告_满大街都是Python广告,真的如广告说的那样方便吗?,学精通后真能月如过万吗?业内大佬怎么看?...

    在编程领域.Python语言已经被吹得神乎其神.很多人已经产生了一种错觉:仿佛当今编程世界,唯Python莫属,其它语言皆为渣渣. 就连地产大佬潘石屹也发微博为Python背书,不愧两者都姓" ...

  4. 老师学python可以干嘛-你都用 Python 来做什么?

    Pyhton可以用来做金融量化投资分析.Python金融量化 探讨问题与分析思路 本文以Python为量化工具,主要探讨以下三个问题: (1)指数定投的优势与劣势在哪? (2)指数定投受哪些因素影响, ...

  5. python3能做什么_你都用 Python 来做什么?

    python能做的有很多,我这里之阐述我自学的数据分析的内容,这也是我学习利用python进行数据分析的过程,如果要看实践可以直接看项目篇 数据分析中常用的软件是jupyter notebook,而应 ...

  6. 只安装python能干什么_你都用 Python 来做什么?

    人在美国,刚下飞机,这个问题要先拉一拉时间轴2016年第一次接触 python,做的是自动化测试 2017年开始自学 python,做的是投票网页开发 2018年正式接触 python,做的是WAF机 ...

  7. 为什么这么多python广告_为什么铺天盖地都是Python的广告?

    我说一下培训机构吧 市面上对于培训机构的评价大多数是负面的,培训机构的课程基本能在书上github上B站上找到类似或者替代的课程,这是你需要知道的,但是一个良心的培训机构老师或者助教会给你拓展一些很有 ...

  8. python办公自动化pdf下载,你们都用Python实现了哪些办公自动化?

    处理Excel.Word.PDF等常用办公软件,处理CSV文件和JSON数据,从Web抓取网络信息,批量处理大量图片,发送电子邮件和短信等等,用Python都可以轻松完成! 光说不练假把式,人邮君举几 ...

  9. 小学生学python到底能干什么-小学生都学Python了,你还没用万矿?

    2 不止步于策略回测,还提供各种量化分析工具和实用模板 3 交互式可视化库,要多炫酷有多炫酷 4 丰富的机器学习和人工智能框架,方便进行前沿投资技术研究 Hold 住~ 前方高能! 1 强大数据接口+ ...

最新文章

  1. 常用的CSS(收集)
  2. The 2016 ACM-ICPC Asia China-Final Contest Promblem D
  3. leetcode 491. 递增子序列 思考分析
  4. c语言智能小车项目的感想,智能小车毕业论文(完整版)要点分析.doc
  5. kali里PHP文件502错误,解决Linux Kali iptables开放22端口失败等一系列问题
  6. 前端笔记----jquery入门知识点总结 (转)
  7. pcb布线拐角处打地孔_嵌入式开发必看: PCB设计的这几个问题,你能明白了吗?...
  8. php与html5怎么弹出消息框,jQuery实现消息弹出框效果
  9. alter在mysql_MySQL的alter的使用
  10. 对抗训练+FGSM, FGM理解与详解
  11. hsql转换oracle,Hive系列之HSQL转换成MapReduce过程
  12. 儿童时间管理表,让孩子学会善待时间
  13. 计算机网络:第四章网络层课后习题及答案(精细版)
  14. 冬季黄山旅游费用明细
  15. 利用Excel可视化分析,柱形图、条形图、饼图、复合饼图,圆环图、组合图、漏斗图、地图的操作方法(适合小白)
  16. openshift和Docker和kubernetes的关系
  17. 超融合一体机概述及优势
  18. 名悦集团分享秋季汽车保养指南,给你更好的用车体验
  19. dnf鹰犬boss机器人_dnf鹰犬boss怎么打
  20. ECNU OJ学习记录

热门文章

  1. csharp OverflowException——超出数值范围会抛出异常
  2. laravel5.6 分页样式目录
  3. n 模块切换 node 版本无效的解决办法
  4. node第三方登陆github(express)
  5. Mysql8.0.16 only_full_group_by
  6. 第4章 DHCP服务
  7. d3.js——比例尺的使用
  8. mysql删除数据后不释放空间问题
  9. LNK1123: 转换到 COFF 期间失败: 文件无效或损坏
  10. 实现 对象在内存中的引用一致性 之第一步