说明

  • 本篇是基于python下mecab使用,系统为windows,python是anaconda下的
  • 如果你需要使用基于python下的mecab,你需要安装python,哪个系统环境下都可以,在安装mecab
  • 如果你需要安装python可见python安装
  • 如果你需要安装mecab可见mecab安装
  • 如果你只需要简单的进行日语分词可以下载下面这个软件
  • 链接: https://pan.baidu.com/s/1Xz3ZbuEItpEqvdUGZRnM9Q
  • 提取码: mae9

什么是mecab

  • mecab 是基于CRF 的一个日文分词系统,代码使用 c++ 实现, 基本上内嵌了 CRF++ 的代码, 同时提供了多种脚本语言调用的接口 (python, perl, ruby 等).整个系统的架构采用通用泛化的设计,用户可以通过配置文件定制CRF训练中需要使用的特征模板。

mecab的使用

import os
os.getcwd()#将需要分析的文件放在相应的路径下面#输出结果
'D:\\PythonFlie'import MeCab
import pandas as pd
#导入对应的库file_in = open('test.txt',encoding = "utf-8")#注意这边的编码格式,与所要分析的文件编码格式要对应
f_line = file_in.read()
mecab_tagger = MeCab.Tagger("-Ochasen")
result=mecab_tagger.parse(f_line)
my_list = []
for i in result.splitlines()[:-1]:i = i.split()try:v = (i[2], i[1], i[-1])     except:passmy_list.append(v)word_dict = {}
word_sub = {}
word_pro={}
for i in my_list:if i[-1].split('-')[0] not in ['助詞','記号']:if i[0] not in word_dict:word_dict[i[0]]=1word_sub[i[0]]=i[-1]word_pro[i[0]]=i[1]else:word_dict[i[0]] =word_dict[i[0]]+1
df =pd.DataFrame({"fre":word_dict,'pro':word_pro,'sub':word_sub})
df=df[df.fre>1]
df=df.sort_values(by=['fre'],ascending=False)
df.to_csv('雅虎词频分析.txt',encoding = "utf-8")#这里与上面的编码格式要对应

插句题外话

  • 由于本人刚刚学完日语五十音,好多日语单词都不太认识,即使将日语词频弄出来,还要将这些日语词汇翻译成中文,以便后续更好的分析,所以下面讲讲日语翻译软件的使用体验
  • 由于本人日语不精通,故不对准确性做评价,主要从分析的速度、处理日语文件的大小来评价
  • 主要是两款软件:Google翻译、在线文档翻译器

日语翻译软件

Google翻译

  • 可以直接翻译文档,可以翻译文档的类型挺多的,翻译的速度也非常可,基本上不到1分钟
  • 不能翻译特别大的文件,基本上不到1M大小的文件可以翻译;太大了会卡到翻译不出来
  • 直接网页端进行翻译,不能安装软件
  • 但是不能同一时间段翻译很多次,会被禁

在线文档翻译器

  • 可以直接翻译文档,可以翻译文档的类型挺多的,主要是能翻译几十M的文件,速度基本上也在5分钟之内
  • 如果翻译文件比较大的话,强力推荐这个软件
  • 同时网页端的翻译软件,不用安装软件
  • 链接在线文档翻译器

日语词频分析——mecab使用相关推荐

  1. python单词词频字典_用python实现词频分析+词云

    2020.05.13更新:大家点个赞再收藏吧(点赞后观看,养成好习惯)TAT 如你所见.文章标题图是以 周杰伦的百度百科 词条为分析文档,以 周杰伦超话第一的那张图+PPT删除背景底色 为词频背景进行 ...

  2. 用javascript自制ctf词频分析工具

    不废话,上代码: <!DOCTYPE html> <html> <head><title></title> </head> &l ...

  3. python 对excel文件进行分词并进行词频统计_python 词频分析

    python词频分析 昨天看到几行关于用 python 进行词频分析的代码,深刻感受到了 python 的强大之处.(尤其是最近自己为了在学习 c 语言感觉被它的语法都快搞炸了,python 从来没有 ...

  4. jieba库词频统计_网购评论之词频分析

    日常数据分析中,词频分析是一个很好的文本挖掘方法,这篇文章说说词频分析方法. 这里选用京东商场中购买手机的部分数据信息,利用jieba词库对购物评论进行分词,提取客户群体对手机的关注点. 数据集来源: ...

  5. 【python数据挖掘课程】十三.WordCloud词云配置过程及词频分析

    这篇文章是学习了老曹的微信直播,感觉WordCloud对我的<Python数据挖掘课程>非常有帮助,作者学习后准备下次上课分享给我的学生,让他们结合词频分析来体会下词云.希望这篇基础文章对 ...

  6. python数据挖掘学习笔记】十三.WordCloud词云配置过程及词频分析

    #2018-03-28 09:59:40 March Wednesday the 13 week, the 087 day SZ SSMR 11,12因为涉及到数据库被我暂时放弃了 python数据挖 ...

  7. python文本聚类 词云图_有哪些软件可以进行中文词频分析?

    在现实生活中,人想做词云,也有了关键词的数据但自己又不会做词云可怎么办,我给大家推荐几款词云制作工具,让你瞬间呈现美观.酷炫的词云可视化.我们先来看看国外的词云制作工具: 1.Wordle Wordl ...

  8. 基于python的中文词频分析

    受http://yixuan.cos.name/cn/2011/03/text-mining-of-song-poems/这篇文章的启发,觉得PYTHON来做文字处理分析应该不错,可以来做个词频分析, ...

  9. 【自然语言处理概述】文本词频分析

    [自然语言处理概述]文本词频分析 作者简介:在校大学生一枚,华为云享专家,阿里云专家博主,腾云先锋(TDP)成员,云曦智划项目总负责人,全国高等学校计算机教学与产业实践资源建设专家委员会(TIPCC) ...

  10. python文本txt词频统计_python实例:三国演义TXT文本词频分析

    0x00 前言 找不到要写什么东西了!今天有个潭州大牛讲师  说了个  文本词频分析 我基本上就照抄了一遍 中间遇到一些小小的问题 自我百度 填坑补全了  如下 : 效果演示 0x01   准备环境及 ...

最新文章

  1. 图像的大小计算 位深和色深
  2. crm系统是什么很棒ec实力_CRM系统都有哪些功能?CRM管理系统的主要用途又是什么?...
  3. linux文件安装DBeaver,[deepin][linux][DBeaver]DBeaver社区版安装好没有图标
  4. 词法分析器和lex工具基本学习
  5. [STL][C++]STACK QUEUE
  6. less中each的用法
  7. php自动滚动到页尾,让DOM元素自动滚到视野内ScrollIntoView
  8. django学习笔记01
  9. asp.net怎样在URL中使用中文、空格、特殊字符
  10. jpushinterface.setalias的几个参数都是啥意思_很多电工老师傅都不知道,低压断路器基本参数,你懂几个?...
  11. 【codevs1116】四色问题
  12. java spring 下载文件_springboot下载文件(使用流)
  13. Windows无法连接到打印机、打印机连接出现0X00000bcb错误应该如何解决?这应该是是最全面的解决方法啦~~
  14. vc red.msi matlab,vc red.msi x64+x32位版下载
  15. Windows 下快速删除大量文件的办法
  16. COMSOL中文指导教程全集
  17. Python爬虫案例:大批量抓取堆糖网图片
  18. 【微信小程序】关于getCurrentPages()的使用
  19. 微信扫二维码挪车小程序开发制作功能
  20. 使用cookie实现一周内自动登录

热门文章

  1. 国际电话区号mysql表SQL
  2. 解决——虚拟机无法Ping通主机
  3. 用线性探测法处理冲突时的散列表_案例
  4. python输入生日输出星座代码 过程_用Python来写一个男女相亲小程序|码农的情人节...
  5. python画k线_python下画k线
  6. java生成视频缩略图
  7. compositionstart、compositionend事件屏蔽拼音状态
  8. Java 表格转换成图片
  9. Python爬取NBA虎扑球员数据
  10. CAD插入块不显示,通过复制到原坐标实现两图的叠加