python_习题四
CSV 格式数据清洗
类型:Python 文件
附件是一个 CSV 文件,其中每个数据前后存在空格,请对其进行清洗,要求如下:
- 去掉每个数据前后空格,即数据之间仅用逗号 (,) 分割;
- 清洗后打印输出。
示例1:
输入:"
1, 2, 3, 4, 5
'a', 'b' , 'c' , 'd','e'
"
输出:"
1,2,3,4,5
'a','b','c','d','e'
"
注意:
- 示例1 是一个格式示例,不是正确结果;
- 该题输入是读取附件中的数据。
with open("data.csv","r") as fp:#打开文件for line in fp:#按行遍历line = line.replace(" ", "")#将空格替换为""print(line, end="")#按行输出
文本字符分布
类型:Python 文件
分析附件 data.txt 文件的字符分布,即每个字符对应的数量。
按照 字符:数量
显示,每行一个结果,如果没有出现该字节则不显示输出,字符采用 Unicode 编码升序排列。
示例1:
输入:无
输出:"a:1
b:2
c:3
"
注意:
- 示例1 是一个输入输出示范样例,不是正确结果;
字符:数量
,其中,字符表示为可打印字符,按照升序。
d = {}
with open("data.txt","r") as fp:#打开文件for line in fp:#统计字符for item in line:d[item] = d.get(item,0) + 1keys = sorted(d)#排序,注意!!!!!!!#字典排序返回的是一个列表for key in keys:#遍历输出print(key +':'+ str(d[key]))
《白鹿原》词频统计
类型:Python 文件
附件是《白鹿原》原著内容,请读入内容,分词后输出长度大于 2 且最多的单词。
如果存在多个单词出现频率一致,请输出按照 Unicode 排序后最大的单词。
示例1:
输入:无
输出:"白鹿原"
注意:示例1 是一个输入输出示范样例,不是正确结果
import jieba
f=open('白鹿原.txt','r',encoding='utf-8').read()
words=jieba.lcut(f)
counts={}
for word in words:if len(word)==1:continueelse:counts[word]=counts.get(word,0)+1
items=list(counts.items())
items.sort(key=lambda x:x[1], reverse=True)
print(items[0][0])
双一流高校及所在省份统计
类型:Python 组合数据类型
字典 d
中存储了我国 42 所双一流高校及所在省份的对应关系,请以这个列表为数据变量,完善 Python 代码,统计各省份学校的数量。
d = {"北京大学":"北京", "中国人民大学":"北京","清华大学":"北京",\
"北京航空航天大学":"北京","北京理工大学":"北京","中国农业大学":"北京",\
"北京师范大学":"北京","中央民族大学":"北京","南开大学":"天津",\
"天津大学":"天津","大连理工大学":"辽宁","吉林大学":"吉林",\
"哈尔滨工业大学":"黑龙江","复旦大学":"上海", "同济大学":"上海",\
"上海交通大学":"上海","华东师范大学":"上海", "南京大学":"江苏",\
"东南大学":"江苏","浙江大学":"浙江","中国科学技术大学":"安徽",\
"厦门大学":"福建","山东大学":"山东", "中国海洋大学":"山东",\
"武汉大学":"湖北","华中科技大学":"湖北", "中南大学":"湖南",\
"中山大学":"广东","华南理工大学":"广东", "四川大学":"四川",\
"电子科技大学":"四川","重庆大学":"重庆","西安交通大学":"陕西",\
"西北工业大学":"陕西","兰州大学":"甘肃", "国防科技大学":"湖南",\
"东北大学":"辽宁","郑州大学":"河南", "湖南大学":"湖南", "云南大学":"云南", \
"西北农林科技大学":"陕西", "新疆大学":"新疆"}
示例1:
输入:无
输出:"
北京:8
天津:2
辽宁:2
吉林:1
"
注意:示例1 仅是输入输出样例,不是正确结果。
d = {"北京大学": "北京", "中国人民大学": "北京", "清华大学": "北京", \"北京航空航天大学": "北京", "北京理工大学": "北京", "中国农业大学": "北京", \"北京师范大学": "北京", "中央民族大学": "北京", "南开大学": "天津", \"天津大学": "天津", "大连理工大学": "辽宁", "吉林大学": "吉林", \"哈尔滨工业大学": "黑龙江", "复旦大学": "上海", "同济大学": "上海", \"上海交通大学": "上海", "华东师范大学": "上海", "南京大学": "江苏", \"东南大学": "江苏", "浙江大学": "浙江", "中国科学技术大学": "安徽", \"厦门大学": "福建", "山东大学": "山东", "中国海洋大学": "山东", \"武汉大学": "湖北", "华中科技大学": "湖北", "中南大学": "湖南", \"中山大学": "广东", "华南理工大学": "广东", "四川大学": "四川", \"电子科技大学": "四川", "重庆大学": "重庆", "西安交通大学": "陕西", \"西北工业大学": "陕西", "兰州大学": "甘肃", "国防科技大学": "湖南", \"东北大学": "辽宁", "郑州大学": "河南", "湖南大学": "湖南", "云南大学": "云南", \"西北农林科技大学": "陕西", "新疆大学": "新疆"}
x = list(d.values())
count = {}
for i in x:if i not in count:count[i] = 1else:count[i] += 1
items = list(count.items())# 输出词和与之对应的频率
for i in range(len(items)):word, count = items[i]print("{0}:{1}".format(word, count))
实例10:文本词频统计(一)-- 三国演义
描述
这是"实例"题,不需要作答。
文本词频统计::《三国演义》人物出场次数统计
https://python123.io/resources/pye/threekingdoms.txt
(1) 中文文本分词,使用字典表达词频;
(2) 将词频与人物相关联,面向问题;
(3) 使用字典表达词频,扩展程序解决问题.
实例代码
这是"实例"题,不需要作答,给出代码如下:
import jieba
excludes = {"将军","却说","荆州","二人","不可","不能","如此"}
txt = open("threekingdoms.txt", "r", encoding='utf-8').read()
words = jieba.lcut(txt)
counts = {}
for word in words:if len(word) == 1:continueelif word == "诸葛亮" or word == "孔明曰":rword = "孔明"elif word == "关公" or word == "云长":rword = "关羽"elif word == "玄德" or word == "玄德曰":rword = "刘备"elif word == "孟德" or word == "丞相":rword = "曹操"else:rword = wordcounts[rword] = counts.get(rword,0) + 1
for word in excludes:del counts[word]
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True)
for i in range(10):word, count = items[i]print ("{0:<10}{1:>5}".format(word, count))
输出
实例12:政府工作报告词云
描述
基本思路:
(1) 读取文件、分词整理;
(2) 设置并输出词云;
(3) 观察结果,优化迭代。
实例代码
这是"实例"题,不需要作答,给出代码如下:
常规矩形词云
import jieba
import wordcloud
f = open("新时代中国特色社会主义.txt", "r", encoding="utf-8")t = f.read()
f.close()
ls = jieba.lcut(t)txt = " ".join(ls)
w = wordcloud.WordCloud( \width = 1000, height = 700,\background_color = "white",font_path = "msyh.ttc" )
w.generate(txt)
w.to_file("grwordcloud.png")
非常规图形词云
import jieba
import wordcloud
from scipy.misc import imread
mask = imread("chinamap.jpg")
excludes = { }
f = open("新时代中国特色社会主义.txt", "r", encoding="utf-8")
t = f.read()
f.close()
ls = jieba.lcut(t)
txt = " ".join(ls)
w = wordcloud.WordCloud(\width = 1000, height = 700,\background_color = "white",font_path = "msyh.ttc", mask = mask)
w.generate(txt)
w.to_file("grwordcloudm.png")
输出
新时代中国特色社会主义 | 2018 年一号文件 | |
常规矩形词云 | ||
非常规图形词云 |
python_习题四相关推荐
- Nwafu-OJ-1421 Problem S C语言实习题四——4.数据顺序调整
问题 S: C语言实习题四--4.数据顺序调整 时间限制: 1 Sec 内存限制: 128 MB 题目描述 由键盘任意输入10个数,将最大数调到最前面,最小数调到最后面. 输入 任意10个数 输出 ...
- Nwafu-OJ-1425 Problem V C语言实习题四——7.输出杨辉三角形
问题 V: C语言实习题四--7.输出杨辉三角形 时间限制: 1 Sec 内存限制: 128 MB 题目描述 打印如下形式的杨辉三角形. 1 1 1 1 2 1 1 3 3 1 1 ...
- Nwafu-OJ-1418 Problem P C语言实习题四——1.字符串连接
问题 P: C语言实习题四--1.字符串连接 时间限制: 1 Sec 内存限制: 128 MB 题目描述 由键盘任意输入两串字符,不用库函数strcat,连接将两串字符. 输入 两串字符 输出 将两 ...
- Python.习题四 循环结构
Python.<习题四> 循环结构 1.编写程序,计算1×2×3×-×10. s=1 i=1 while i<=10:s=s*ii=i+1 print("s=", ...
- 计算机存储和处理文档的汉字时 使用的是,理论练习题-04习题四文字处理与编辑排版...
习题四 文字处理与编辑排版 一.填空题 1. 汉字信息处理过程分为汉字____________.加工处理和输出三个阶段. 2. 用拼音或五笔字型输入汉字,字母键必须是________________状 ...
- 英寸和厘米转化python_习题 5: 更多的变量和打印 | 笨办法学 Python
一. 简述 "格式化字符串(format string)" - 每一次你使用 ' '或 " " 把一些文本引用起来,你就建立了一个字符串. 字符串是程序将信息 ...
- 软件设计师习题笔记-重点习题四
1.在程序运行过程中,CPU需要将指令从内存中取出并加以分析和执行.CPU依据(指令周期的不同阶段)来区分在内存中以二进制编码形式存放的指令和数据. 解析: 本题查计算机系统基础知识. 指令周期是执行 ...
- 计算机应用基础试题及答案地大,《计算机应用基础》模拟试卷习题四及答案.docx...
<计算机应用基础>模拟试卷四 考试形式:闭卷 考试时间: 90 分钟 注:所有答案都做在答题纸上,做在试卷上不得分. 一.单选题( 50 分) 1.在资源管理左窗口中,文件夹图标左侧有&q ...
- 给定奇数、横、竖、斜、总和相等python_第四章练习
1.使用循环输出九九乘法表. for i in range(1, 10): for m in range(1, i+1): print(m, "X", i, '=', i * m, ...
最新文章
- PHP使用header方式实现文件下载
- 解决 swap file “*.swp”already exists!问题
- [Documentation]porting
- C#.Net 中的 new 的几个用法
- 程序员和编码员之间的区别
- 人脸方向学习(十):Face Detection-MobileNet_SSD解读
- 匹配滤波器为何使得输出SNR最大?
- c语言编八卦图形,关于C语言实现一个八卦图!(我代码写好了,求人改动一下)
- i78700k配什么显卡好_最新适合搭配i7-8700的显卡推荐 i7 8700配什么显卡好
- 二维码的生成细节和原理源码
- 一条互联网广告多少钱?
- Failed to introspect Class from LaunchedURLClassLoader
- 2023 IEEE Fellow出炉:唐立新、宗成庆、朱军、姬水旺、李佳等入选
- 哈夫曼树的构建及应用
- 什么是案例管理模型和符号(CMMN)
- 以太坊加速区块同步方法
- Rocket MQ 详解
- 关于win10应用商店打不开,win10应用商店明明连接网络确提示无网络连接,代码: 0x80131500
- 红警ol总是服务器满 可服务区显示流程,红警OL:11月27日部分服务器数据互通合服公告...
- Android SDK 详解