3. 在“3_人民日报语料”中统计“日语借词”的词频;

pyhton方法

# -*- coding: utf-8 -*-
import json
japanese_words_file = open('japanese_words.txt')  # japanese_words.txt是日语借用词
japanese_words = []   # list 用于存储日语借用词
for i in japanese_words_file:japanese_words.append(i.replace('\r\n', ''))
japanese_words_file.close()
data_file = open('3.txt')  # 3.txt 是人民日报语料
result = {}       # 存储词频统计结果
for i in data_file:word_lists = i.split()for each_word in word_lists:word = each_word.split('/')[0]if word in japanese_words:if word in result:result[word] += 1else:result[word] = 1
data_file.close()
print json.dumps(result, encoding="UTF-8", ensure_ascii=False)  # 输出结果

在“3_人民日报语料”中统计“日语借词”的词频;相关推荐

  1. 去掉“3_人民日报语料”中每行前边的数字编号,改成“1, 2,......”

    2. 去掉"3_人民日报语料"中每行前边的数字编号,改成"1, 2,......" pyhton处理 #coding=utf-8 index = 19 file ...

  2. 统计“3_人民日报语料”文本中的字符数和词数,把文件分别保存为 ansi, UTF8,UTF16,unicode 格式

    统计"3_人民日报语料"文本中的字符数和词数,把文件分别保存为 ansi, UTF8,UTF16,unicode 格式; 首先,统计文件的字符数,有两种方法.第一种是将文件复制到w ...

  3. 自然语言处理:用paddle对人民日报语料进行分词,停用词,数据清洗和熵计算

    自然语言处理:用paddle对人民日报语料进行分词,停用词,数据清洗和熵计算 数据集提取: 公众号:YOLO的学习进阶日常 然后回复:nlp1 安装本地飞桨 本人 win10 python3.7 用的 ...

  4. 使用cat,awk和sort命令从nginx访问日志中统计user-agent类型

    业务场景描述如下: 我有一个Nginx的web服务器,需要从统计日志中统计有哪些类型的设备终端和浏览器访问了我的网站. 访问日志中的每条记录是这样的: 使用下面的命令得到user-agent所在的字段 ...

  5. 您对TOP Server的德语、中文和日语语言支持了解吗?(二)

    2019独角兽企业重金招聘Python工程师标准>>> 下载TOP Server OPC Server最新版本 TOP Server文档支持 除了特定于驱动程序的属性/设置之外,还包 ...

  6. SQLSERVER中统计所有表的记录数

    SQLSERVER中统计所有表的记录数 利用系统索引表sysindexes中索引ID indid<1的行中的rows列存有该表的行数这一特点.    方法是利用隐藏未公开的系统存储过程sp_MS ...

  7. linux日志中有空格,linux中统计排序的内容含有空白行的解决办法

    linux中统计排序的内容含有空白行的解决办法 废话不多说,直接上实例: 文件 sharkyun.log 的内容如下 [root@x201t ~]# cat -n sharkyun.log 1http ...

  8. git中统计代码提交数

    git中统计代码提交数 通过git log来取 git log --pretty='%aN' | sort | uniq -c | sort -k1 -n -r | head -n 5

  9. 计算机统计字符数,如何在Word中统计相同字符(文字)出现的个数 -电脑资料

    大家都知道,在Word中我们可以统计一篇文章字符的总个数! 但是,却不知道是啥原因,不知道是Word觉得此功能太简单了,还是忽略了这一点;却没有统计相同字符个数的功能! 但这未提供的功能却广为大众所需 ...

最新文章

  1. 《构建高性能web站点》随笔 无处不在的性能问题
  2. 东北大学计算机应用基础在线作业,东北大学计算机应用基础
  3. Linux——基础IO(总结)
  4. 经典排序算法 - 冒泡排序Bubble sort
  5. Effective C# 学习笔记(八)多用query语法,少用循环
  6. why metadata request for GM4 via http will be redirected to https via 307 s
  7. 大学本科 java教材,大学本科自学java之路——IO
  8. sqlmapapi的基本使用和源码阅读
  9. 如何让oracle用户不过期,Oracle用户密码设为不过期的两种方法
  10. Word没有到一行自动换行如何解决
  11. 计算机网络hdcp是什么意思,为什么显卡面板显示此显示器不支持HDCP是怎么回事...
  12. 工业相机在全息成像中的应用
  13. 余贞侠C语言程序设计课后参考答案
  14. 黑客高手是这样上网的!Vimium、Vimperator 浏览器插件让你全程用键盘快捷高效浏览网页
  15. 阿里Sophix热修复框架使用入门
  16. 怎么用计算机自己做动画片,怎样用电脑制作动画,电脑动画制作怎么做
  17. 【bzoj4011】落忆枫音
  18. 【零基础入门MyBatis系列】第三篇——使用MyBatis完成CRUD
  19. 1ke android逆向助手_android逆向助手
  20. Ubuntu下查看隐藏文件

热门文章

  1. 进程间通信各方法优劣
  2. VLC播放器如何录制rtsp流生成视频文件?
  3. labelImg 使用教程 图像标定工具
  4. numpy的常规使用(数组合并、拼接、添加)
  5. IO流介绍、java常用的几个IO流类之间的区别,以及各自的用法、使用场景
  6. Spring Security 玩出花!两种方式 DIY 登录
  7. Java设计模式-工厂模式(2)工厂方法模式
  8. 分布式:阿里云HSF转dubbo+zookeeper
  9. 深入浅出设计模式_深入浅出设计模式03接口隔离原则
  10. 简单绘图软件实现mfc大作业_生产流程图怎么做?简单易上手的流程图工具