统计“3_人民日报语料”文本中的字符数和词数,把文件分别保存为 ansi, UTF8,UTF16,unicode 格式
统计“3_人民日报语料”文本中的字符数和词数,把文件分别保存为 ansi, UTF8,UTF16,unicode 格式;
首先,统计文件的字符数,有两种方法。第一种是将文件复制到word中,word自动统计;第二种是在python中,将文本内容读取到字符串中,去除换行符和空格,字符串的长度就是字符的数目。然后统计文件中的单词数目,因为所给文件已经做好了分词处理,因此将文本读取到字符串中,用python中的split()函数将字符串转换成list,这样list的长度就是单词的数目。最后要做的是将文件转换成不同的编码,可以采用记事本、notepad++、sublime text等软件进行处理。
1.统计“3_人民日报语料”文本中的字符数
方法一:将文字复制到word文档中,word自动统计文本字符数:
方法二 python处理
#coding=utf-8
try:file_read = open("3.txt","r") #打开人民日报语料s = file_read.read().decode("UTF-8-SIG") #将文件读取到变量s中,并将其转换为unicode编码s = s.replace('\n', '') #除去其中的换行符s = s.replace('\r', '') #除去其中的换行符s = s.replace(" ", '') #除去其中的空格file_read.close() #关闭文件print "The total number of characters is "+str(len(s)) #输出结果 字符串s的长度就是总共的字符数
except Exception, e:print e.message
2.统计“3_人民日报语料”文本中的词数
#coding=utf-8
try:file_read = open('3.txt') #打开文件s = file_read.read().decode("UTF-8-SIG") #读取文件s = s.split()#因为语料已经做好了分词,所以只需split()即可print "Total number of words is "+str(len(s)) #list s 的长度就是字数
except Exception, e:print e.message
3.把文件分别保存为 ansi, UTF8,UTF16,unicode 格式;
(1)UTF16或UTF8
sublime
(2)ansi或utf8
notepad++
(3)unicode或ansi或utf8
记事本
(4)UTF16
python
#coding=utf-8
import codecs
import chardet
file_name = '3.txt'
file_utf_16_name = '3_utf_16.txt'
try:file_read = open(file_name) #打开文件file_utf_16 = codecs.open(file_utf_16_name, mode='w', encoding='utf-16') #创建要写入UTF-16编码的文件,此处要调用codecs包text = file_read.read() #读取文件内容file_utf_16.write(text.decode("UTF-8-SIG")) #将转换成unicode的内容写入文件file_read.close() #关闭文件file_utf_16.close() #关闭文件fs = open(file_utf_16_name, 'r')check = chardet.detect(fs.read()) #以上两行是对utf-16编码的文件的验证print 'the encoding of '+file_utf_16_name+' is ' + check.get('encoding') #输出结果
except Exception, e:print e.message
统计“3_人民日报语料”文本中的字符数和词数,把文件分别保存为 ansi, UTF8,UTF16,unicode 格式相关推荐
- android信息中字符个数,在android中指定编辑文本中的字符数
Jayabal.. 10 使用以下xml属性设置允许的最大字符数和数字 android:digits android:maxLength 例如: android:id="@+id/et_na ...
- python读word文档计算字数,Python 实现word count 简单计算源代码中的字符数、词数、行数。...
1.PSP PSP2.1 PSP阶段 预估耗时 (分钟) 实际耗时 (分钟) Planning 计划 20 30 · Estimate · 估计这个任务需要多少时间 20 30 Development ...
- 在“3_人民日报语料”中统计“日语借词”的词频;
3. 在"3_人民日报语料"中统计"日语借词"的词频; pyhton方法 # -*- coding: utf-8 -*- import json japanes ...
- 去掉“3_人民日报语料”中每行前边的数字编号,改成“1, 2,......”
2. 去掉"3_人民日报语料"中每行前边的数字编号,改成"1, 2,......" pyhton处理 #coding=utf-8 index = 19 file ...
- 解析统计文本文件中的字符数、单词数、行数。
用android 编程解析统计文本文件中的字符数.单词数.行数(作业) 主要代码 ... private void analysis() { String str = " "; i ...
- python excel处理重复行并统计个数_python统计一个文本中重复行数的方法
python统计一个文本中重复行数的方法 这篇文章主要介绍了python统计一个文本中重复行数的方法,涉及针对Python中dict对象的使用及相关本文的操作,具有一定的借鉴价值,需要的朋友可以参考下 ...
- python统计重复的数_python统计一个文本中重复行数的方法
本文实例讲述了python统计一个文本中重复行数的方法.分享给大家供大家参考.具体实现方法如下: 比如有下面一个文件 2 3 1 2 我们期望得到 2,2 3,1 1,1 解决问题的思路: 出现的文本 ...
- 【C语言】(错题整理) 寻找完数、字符串中各类字符数的统计、最大公约数和最小公倍数、回文数计算 (循环、函数相关内容)
目录 一.循环 1.寻找完数(计算因子例题) 2.字符串中各类字符数的统计 3.最大公约数和最小公倍数 求最大公约数: 最小公倍数:最小公倍数=两整数的乘积÷最大公约数 二.函数 1.回文数计算 本篇 ...
- 第4关:字符串中各类字符数的统计-------C语言程序设计技术(循环结构程序设计1)
第4关:字符串中各类字符数的统计-------C语言程序设计技术(循环结构程序设计1) #include<stdio.h>int main(void){ /*********Begin** ...
最新文章
- Redis和Memcache的区别是什么
- 人工智能语音技术支持“多情感程度”调节,细腻演绎“人声”
- GHDDI | 新冠药物门户网站
- python 颜色空间转换_python实现色彩空间转换
- try catch用法_synchronized用法总结
- 2020 华为杯 数模 B题 数据挖掘
- python初始化方法对应的变量是全局变量嘛_在Python中初始化全局变量的正确方法...
- 【BZOJ2813】奇妙的Fibonacci
- unity 随机数_Unity 雨水滴到屏幕效果
- 最新emoji表情代码大全_如何给微信公众号菜单添加emoji(亲测有效)
- 2020年了,Windows Me还能用吗?
- 卓越的社会化营销人的6个习惯
- selenium不定位元素直接操作键盘之Keys.CONTROL
- wangEditor 粘贴从 word 复制的带图片内容的最佳实践
- TMS320F28335与10位数模转换器TLC5615的SPI通讯问题1(DAC数模转换原理篇)
- CorelDraw论坛cdr2022V24.0.0301简体中文包
- 大厂面试:一个四年多经验程序员的BAT面经(字节、阿里、腾讯)
- 百度ueditor上传图片时如何设置默认宽高度
- DVD转VCD,MPG文件参考
- spring-scop (单例模式?)
热门文章
- pytorch torch.norm(input, p=2) → float、torch.norm(input, p, dim, out=None) → Tensor(求范数)
- 【哲学】不可知论是什么?agnosticism
- 为什么csdn搜索自己文章时,加了英文分号的搜索不了?“ ' ”
- python如何判断一段代码运行是否超出一定时间,如果超出则抛出异常?(检测函数运行是否超时,规定时间内执行,限制时间)eventlet模块 (eventlet.timeout.Timeout)
- tensorflow tf.is_gpu_available() (判断GPU是否可用)
- python 内置函数 sum()函数 求和函数
- python sklearn.decomposition.PCA 主成分分析, 原理详解
- Springboot中使用Google 的Kaptcha工具实现验证码校验
- python多态的概念_python中的多态
- 进程隐藏工具hidetoolz源码_linux最好用的资源监控工具-glances