200个句子搞定3500个高考词汇,究竟有多少词?

  • 起因
  • 分析方法
    • 取出来所有英文
    • 对每行进行第1次预处理
    • 将所有行合并成一行
    • 替换掉文中的逗号
    • 分出每个单词并逐行输出
  • 问题排查
    • python查一行
    • python读全部文本
    • 替换掉异常文本
  • 结果
    • 最终大致单词数2300
    • 词组未计算在内

起因

发现杨哥单词总是背单词表,容易忘,期末考试过后在网上发现了200句记3500个词汇的小册子,一看句子还不错,在很多相似的词编写在一个句子里,对照着看,如respectable,respectful,respect,以及effect,affect, make efforts,诸如此类。突然间很好奇,这些个句子真的是3500个词吗?于是想着分析一下。

分析方法

写程序显然不是我的选择。第一想法是用命令进行分析。

取出来所有英文

这个很简单,网上有处理好的。实际上网上处理好的下载时要钱,我是自己把200个中文剪切掉放到文后的。

对每行进行第1次预处理

通过.号,将索引1、2、3和文末的小.都去掉。
awk -F “.” '{print $2}‘
这一句能成立主要是句子中间没有小.

将所有行合并成一行

使用paste命令格式化打印,-d指定分隔符,-s表示合并成一行:
paste -d" " -s - < test.txt

替换掉文中的逗号

英语里最多的就是逗号,用sed替换成空格。
sed ‘s/,/ /g’ t2.txt >t3.txt
现在得到一个基本上全是空格的长字符串。可以进行单词输出了。

分出每个单词并逐行输出

cat cc1.txt |awk -F " " ‘{for(i=1;i<NF;i++) print $i}’
但是,输出的结果与自己想要的有些差异。有些单词没有分开,居然是连在一起的。实在无法理解。用vi进去也看不出来。用gedit,notepad,notepad++都看不出来异常。

问题排查

python查一行

改用python,将字符串复制到python中,仍看不出什么,但一split(),立即就发现了异常,原来还夹杂着其它字符。百度了一下,是网页中的空格。

python读全部文本

使用2行命令,f=open(“v4.txt”,“r”);
s=f.readlines()
这个是在交互环境下执行的,不算编程。然后简单起见,把S的所有内容复制到一个文本中。

替换掉异常文本

开始用sed替换,正常文本还好说,碰到反斜杠总是不容易得到正确结果,后来干脆换成gedit替换,哪个快用哪个。

结果

得到正常的文本串后,使用以下命令
==cat cc1.txt |awk -F " " ‘{for(i=1;i<NF;i++) print $i}’ ==
算了一下,全部字符为5966个。
使用sort排序,再用uniq计算以后,得到个2328单词。但是看开头,有些是文中的数字、时间,A,a算了2个,country,countries,countrys都在。就算2300单词吧。

最终大致单词数2300

词组未计算在内

*实际上,这200个句子还有大量的词组,未统计进来,如第一句的bear in mind,with the help of, be ignorant of,按1个句子平均3个词组计算,也才600个词组,总计2900个词,离3500还是有距离。

不过不纠结,这200个句子仍然是好句子,值得反复诵读。

200个句子搞定3500个高考词汇,究竟有多少词?相关推荐

  1. 200行代码搞定一个购物网站+电影站+APP

    以前有一个朋友问我,说想做一个购物网站 ,电影站 ,需要APP 形式提供 . 问我一个星期能不能搞定,听了他的奇葩需求后,有点被耍的感觉,在普通人眼里 一个程序可能就是半天就做出来的东西. 后来仔细想 ...

  2. 太赞了!用200道题彻底搞定Python数据处理!

    前言 Pandas与NumPy都是Python数据分析中的利器,但是对着官方文档学习是十分枯燥且低效的方式,因此我精心挑选了200个Python数据处理中的常用操作,并整理成习题的形式创作了Panda ...

  3. 炸金花 php算法,200行代码搞定炸金花游戏(PHP版)

    0 ) { //给出一个从小到大的顺序 if( fmod($dian[0], 14 ) >= fmod($value, 14) || fmod($value, 14) == 1 ) { //得到 ...

  4. html中如何制作星空背景,HTML5网页制作200行代码搞定canvas星空背景连线

    {getUnitName} {getLessonName} 敬请期待 免费 {getTaskName} 剩余观看时长:{watchLimitRemaining} 回放 {activityStartTi ...

  5. 集群对讲 文字 文件_英国小学生是如何学习中国高考词汇的?第一讲(文末留言送礼)...

    本文首发于公号:婴幼儿英语启蒙,专注高质量家庭亲子英文启蒙,秉持"父母是孩子最好的英语启蒙导师"理念,以独创的高质量英语生活情景输入法,让宝宝从小自然习得英文!咨询可加顾问老师微信 ...

  6. 高考估分查分选志愿一键搞定_支付宝又操办了件人生大事

    摘要: 可能比高考更考验心力的填报志愿,支付宝要帮你一键搞定. 支付宝今天正式上线集估分.查分.选志愿等众多服务于一体的高考后综合服务平台,陪伴高考学生的青春大考.考生在估分.查分后,还可以看到系统智 ...

  7. 1小时搞定马化腾,却巨亏200亿!近五年最火的创业明星,正在沦为网红

    作者:祥燎,本文经授权转载自公众号金错刀(ID:ijincuodao) 文/金错刀频道  祥燎 今年以来,一系列的蔚来汽车失控.自燃事件,令这家明星车企的星光黯淡许多. 从前的蔚来风光无限.创立时,腾 ...

  8. ppt倒计时3分钟_老板发来200页PPT文件,让我翻译成英文,3分钟教你搞定

    过年放假期间,终于可以好好休息几天了,把工作烦恼全部抛在脑后. 如果老板突然发来200页PPT文件,让你翻译成英文,你还在抱怨吗? 下面就来教你两种方法,如何将PPT翻译成英文,3分钟就能搞定. 一. ...

  9. java粒子特效_程序员20分钟搞定粒子效果, 仅仅200行代码

    原标题:程序员20分钟搞定粒子效果, 仅仅200行代码 这粒子的打造,确实没有布局代码,稍后大家在源码上可以看到,css代码都只有几行,绝大部分代码都是java代码,而且是原生java书写的,现在很多 ...

  10. python统计句子中单词个数_python练习:一行搞定-统计一句话中每个单词出现的个数...

    原博文 2018-10-04 19:42 − 一行搞定-统计一句话中每个单词出现的个数 >>> s'i am a boy a bood boy a bad boy' 方式一:> ...

最新文章

  1. 【福利】Java 依然很牛逼!
  2. android动作传感器
  3. 企业战略:前瞻性决定发展性
  4. 【Linux网络编程】并发服务器之select模型
  5. rsync同步服务配置手记
  6. Android2.2 API 中文文档系列(3) —— AccessibilityService
  7. 【机器学习】K-Means(非监督学习)学习及实例使用其将图片压缩
  8. Angular2 初识
  9. oracle中varchar2和nvarchar2的区别
  10. 神经网络drop out
  11. 获取HG526超级密码
  12. 如何在物联网低代码平台中使用数据字典功能?
  13. 用js判断ie版本,ie11被识别为ie7
  14. 送 9 个漫步者蓝牙耳机,程序员听歌神器
  15. 树莓派小车C语言循迹,自动循迹小车_单片机/STM32/树莓派/Arduino/开发板创意项目-聚丰项目-电子发烧友网...
  16. MOS在锂电池的核心原理
  17. python验证码识别cnn_用CNN识别验证码的实用教程
  18. python 实例二:搬家具
  19. 重磅!2022国家杰青,硕博校友统计出炉
  20. 微信小程序code和其他内容的获取

热门文章

  1. Cat Snuke and a Voyage AtCoder - 2660
  2. Ubuntu Linux,及Python matplot,安装Times New Roman等字体,让图标签可以用Times New Roman等字体
  3. elementui messagebox没有取消按钮
  4. 屏幕写画和缩放:ZoomIt【转】
  5. 【信息技术】【2003.03】视觉监控应用中人体跟踪算法的设计与实现
  6. nexus4刷机 android6.0,谷歌nexus 5刷机工具
  7. Python获取Excel中超链接并下载至本地
  8. android图片存储到本地文件夹在哪里找,android系统下,上网浏览的图片等临时文件的存放文件夹在哪?...
  9. 背单词App开发日记6(终章总结)
  10. Lua的安装配置出现的问题以及解决方案(Win10环境下)