中文文本分析

Mac 安装pip 和 jieba

curl https://bootstrap.pypa.io/get-pip.py | python3
你可以接着输入 pip --version
看到pip的版本
pip install jieba

文本分析

import jieba
import jieba.posseg as psg  # 词性标注入口s = "我爱北京天安门"for x in jieba.cut(s):print(x)print(jieba.lcut(s, cut_all=True))  # 全模式s = "李明硕士毕业于中国科学院计算所"
result = jieba.lcut_for_search(s)   # 搜索引擎  在精确模式基础上 再对长词切分
print(result)test_sent = "李元帅是计科系主任也是云计算方面的专家"
words = jieba.cut(test_sent)
print("/".join(words))words = jieba.cut(test_sent)
jieba.add_word("云计算")   # 添加一个词 不让 云/计算  而是 云计算
print("/".join(words))jieba.load_userdict("words.txt")   # 加载自定义词库《字典》
words = jieba.cut(test_sent)
print("/".join(words))test = "我和同学一起去北京故宫玩"
seg = psg.lcut(test)  # 词性标注
print(seg)
for els in seg:if els.flag == 'ns':print(els, end=" ")
print()lst = [x.word for x in seg if x.flag == 'ns']  # 筛选
print(lst)

结果

Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/s0/zmlxbj21347470whgkgz35p00000gn/T/jieba.cache
我
爱
北京
天安门
['我', '爱', '北京', '天安', '天安门']
['李明', '硕士', '毕业', '于', '中国', '科学', '学院', '科学院', '中国科学院', '计算', '计算所']
李/元帅/是/计科/系主任/也/是/云/计算/方面/的/专家
李/元帅/是/计科/系主任/也/是/云计算/方面/的/专家
李元帅/是/计科系主任/也/是/云计算/方面/的/专家
[pair('我', 'r'), pair('和', 'c'), pair('同学', 'n'), pair('一起', 'm'), pair('去', 'v'), pair('北京故宫', 'ns'), pair('玩', 'v')]
北京故宫/ns
['北京故宫']
Loading model cost 0.736 seconds.
Prefix dict has been built successfully.

analysis

from jieba import analysetext = '''最近在学习python学到jieba库的操作,本想在电脑上练练手发现还得安装,好麻烦。在网上找了半天怎么安装jieba库,没有找到看得懂的安装教程。。。可能是我太小白了。。。就像下面这张图说的,啥全自动半自动啊。。看不懂,当然我也是有点基础的,全自动安装里提到里pip,书里也提到过啊,是第三方库安装工具,那就先安装pip吧。'''keywords = analyse.extract_tags(text, topK=10, withWeight=True)
print(keywords)
for keyword in keywords:print("{:<5} weight:{:4.2f}".format(keyword[0], keyword[1]))

结果

Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/s0/zmlxbj21347470whgkgz35p00000gn/T/jieba.cache
Loading model cost 0.656 seconds.
Prefix dict has been built successfully.
[('安装', 0.9139764647549999), ('jieba', 0.5433985228590908), ('pip', 0.5433985228590908), ('全自动', 0.4344032831872727), ('提到', 0.3008143851077273), ('练练手', 0.2844178020659091), ('python', 0.2716992614295454), ('看得懂', 0.2594493409590909), ('书里', 0.2427682233431818), ('图说', 0.23385817589318184)]
安装    weight:0.91
jieba weight:0.54
pip   weight:0.54
全自动   weight:0.43
提到    weight:0.30
练练手   weight:0.28
python weight:0.27
看得懂   weight:0.26
书里    weight:0.24
图说    weight:0.23Process finished with exit code 0

wordcloud(词云)

networks

网络分析算法

python 中文文本分析相关推荐

  1. Python中文文本分析时遇到的编码问题小结

    最近在做python的中文文本分析,万事开头难,最开始就发现了很多中文编码问题,以下对问题进行了汇总. 问题1:中文文本读取时遇到的编码问题 在读取文件后,直接print就会产生问题,如下: 解决方案 ...

  2. Python中文文本分析基础

    文章目录 一. 中文文本分析相关库 1. 中文分词jieba库 (1). jieba库概述 (2). jieba库安装 (3). jieba分词原理 (4). jieba库的使用说明 1. 精确模式 ...

  3. python中文文本分析_python使用snownlp进行中文文本处理以及分词和情感分析 - pytorch中文网...

    SnowNLP: 一个简单的中文文本处理库 SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的 ...

  4. python中文文本分析_中文文本处理

    斯坦福大学自然语言处理组是世界知名的NLP研究小组,他们提供了一系列开源的Java文本分析工具,包括分词器(Word Segmenter),词性标注工具(Part-Of-Speech Tagger), ...

  5. python中文文本分析_Python有趣|中文文本情感分析

    前言 前文给大家说了python机器学习的路径,这光说不练假把式,这次,罗罗攀就带大家完成一个中文文本情感分析的机器学习项目,今天的流程如下: 数据情况和处理 数据情况 这里的数据为大众点评上的评论数 ...

  6. python中文文本分析_python--文本分析

    一. 导读 文本分析主要用来分词分析,情感分析以及主题分析,参考 知乎用户的文章,他从方法代码上讲解了中英文分词(wordcloud,jieba),中英文情感分析(textblob,snownlp), ...

  7. python中文文本分析_基于CNN的中文文本分类算法(可应用于垃圾邮件过滤、情感分析等场景)...

    基于cnn的中文文本分类算法 简介 参考IMPLEMENTING A CNN FOR TEXT CLASSIFICATION IN TENSORFLOW实现的一个简单的卷积神经网络,用于中文文本分类任 ...

  8. python中文文本分析和提取_python str(使用python对txt文本进行分析和提取)

    python 文本文件数据处理 #/usr/bin/env python3 # -*- coding: utf-8 -*- def zhidao_560604345(infile, outfile): ...

  9. python中文文本分析_python简单的分析文本

    import collections import re #读取tips.txt文件内容,type(mytips)=str with open("tips.txt","r ...

最新文章

  1. 【2019/4/30】周进度报告
  2. golang goroutine 得到返回值
  3. java设计模式---原型模式
  4. 用python创建数据库监控平台(3)安装Python3.5
  5. 区块链BaaS云服务(14)华大BGI区块链“安全多方计算“
  6. 20181009-9 每周例行报告
  7. 一个关于sql server索引与填充因子的链接
  8. 用线程实现动态改变图标
  9. 面试官系统精讲Java源码及大厂真题 - 46 ServerSocket 源码及面试题
  10. 计算机网络专业图片,计算机网络专业个人简历封面图片
  11. python面向对象使用方法_python面向对象之方法
  12. 2021-05-21
  13. 安川焊接机器人做圆弧运动编程_安川机器人示教器编程插补方式详细介绍--安川机器人...
  14. dcpb连接mysql_MySQL Cluster 7.3.7+CentOS7集群配置入门 MySQL双管理节点配置入门
  15. java short相加_为什么两个short类型相加会自动提升为int?
  16. h3c路由器msr2600-10,msr3600-28调试记录
  17. 重学计算机组成原理(一) —— 冯诺伊曼结构
  18. C语言微信控制windows电脑代码,Windows电脑版微信实现多开 无需第三方软件(bat命令实现)...
  19. 从零开始制作一个飞机大战类型的射击游戏
  20. 中国汽车使用保险行业市场供需与战略研究报告

热门文章

  1. Showcase地址:https://github.com/Solido/awesome-flutter
  2. CSV转tfRecord
  3. 广西首家!云计算企业梯度科技通过可信云认证
  4. 100Audio是谁?首轮千万融资后它要干什么?
  5. 智能AI电话机器人系统(各版本机器人部署)
  6. JS读取本地CSV文件数据
  7. Oracle 备份、恢复表空间数据步骤
  8. IDEA学习篇——IDEA刷新项目/清除项目缓存
  9. Essay-时刻努力与坚持
  10. Qt编写控件属性设计器2-拖曳控件