收集英语单词及释义的前期准备工作
纯英语单词可以从下面几个网址下载(第3个和第4个为博主上传到CSDN的文件):
网址1
网址2
网址3
网址4
我将下载好的英文单词列表存放到阿里云服务器,文件结构与爬虫所在目录结构如图1与图2所示。并使用如下所示的Python代码,对于每个单词分别爬取Bing在线词典所給出的释义。
import urllib.requestdef grab(url, filename, num):resp = urllib.request.urlopen(url)data = resp.read()name = "/home/crawler/" + str(num) + ".txt"file_name = open(name, "wb")file_name.write(data)file_name.close()print("Job done.")def getFileName(num):path = "/home/non_alphabetical/result" + str(num) + ".txt"with open(path) as f:lines = f.readlines()return linesif __name__ == '__main__':for cnt in range(0, 21):lines = getFileName(cnt)for line in lines:EnglishWord = line.rstrip()print(EnglishWord)web_addr = "https://cn.bing.com/dict/search?q=" + str(EnglishWord) + "&qs=n&form=Z9LH5&sp=-1&pq=" + str(EnglishWord) + "&sc=8-8&sk=&cvid=AA1C8A024F484889A4B788484086A7DF" #input("请输入要抓取的网址:")try:grab(web_addr, EnglishWord, cnt)except:print("Wrong URL")
因为有些单词不在Bing在线词典的数据库里面,因此搜素不到其单词释义,对应爬取到的页面源代码的文件容量较小,经观察为:112 KB,使用如下Linux指令删除容量小于112 KB的文件即可(具体做法是新建delete_invalid_file.sh文件并将下列命令复制其中)。
while true ;do find /home/crawler -name "*" -type f -size -112k | xargs -n 1 rm -f; done;
为了能够使爬虫和删除指令一直保持运行,需要借助screen,详情参考博文。结合本实验,最终运行的指令分别如下所示(需在两个不同的终端执行,且另一个终端不能使用exit或者CTRL-C终止,你可以直接用鼠标把终端叉掉,哈哈哈!):
screen -s crawlerpython3 test1.py
screen -s delete_invalid_filechmod 777 delete_invalid_file.sh./delete_invalid_file.sh
最终运行效果如图3所示。
爬取到的忘记是网页文档的形式,包含了大量的HTML标签,后期需要进一步处理才能得到“干净”的数据。
收集英语单词及释义的前期准备工作相关推荐
- 基于微信小程序的英语单词记忆系统的设计与实现(论文+源码)_kaic
摘 要 当前时期,国内的经济获得了非常快速的发展,互联网技术在持续的创新和完善,教育教学方面也在不断的进步,教育全面深化改革在发展,并且移动互联网技术在教育领域获得了大量的实践以及应用.语言的全球化 ...
- 成人怎么学计算机英语单词,成人怎么从零开始学英语单词
英语学习的过程中掌握方法很重要,方法用对,学习才能提高效率.下面是积累英语单词的方法,大家可以作为学习的参考. 1. 所选单词书不应太厚. 人们大都有喜新厌旧的毛病,老是捧着同一本书难免会产生厌烦情绪 ...
- python英语单词 扇贝英语安卓下载_扇贝单词app下载-扇贝单词英语版 安卓版v3.6.503-pc6手机下载...
扇贝单词app是一款可以和小伙伴一起学英语背单词的app,扇贝单词英语版属于千万用户的背单词神器,让你的英语水平突飞猛进,你确定不要来试一试吗? 软件介绍 扇贝单词英语版是一款很实用的英语单词学习软件 ...
- kubernetes英语怎么读_陷阱英语单词怎么读?
陷阱英语单词怎么读: Trap 释义:陷阱,罗网,夹,捕捉器;圈套;诡计; 音标:英 [træp] 美 [træp] Pitfall 释义:陷阱;险境逃脱;缺陷;诱惑;圈套 音标:英 [ˈpɪtfɔː ...
- 计算机考研英语词汇书,求助:有知道电脑背考研英语单词的
2017考研英语复习进行到今天,相信大家对背单词都不陌生,背单词是每个学生都会头疼的地方,背了忘.忘了背如此恶性循环,到最后记住的单词却没有几个.面对这样的结果,都教授想说:你背单词的方法用对了吗?背 ...
- python需要的英语单词怎么写_如何删除Python中的非英语单词?
我正在用Python做一个情感分析项目(使用自然语言处理).我已经从twitter收集了数据,并将其保存为CSV文件.该文件包含tweets,其中大部分是关于加密货币的.我清理了数据,但在使用分类算法 ...
- python编程技术解决英语单词测试(包括添加英文单词、查询英文单词和查询英文单词)以及绘制雷达图功能
用如Tkinter或wxPython等GUI开发库开发程序用户界面,通过同用户界面交互,程序至少完成以下基本功能: 1.添加英文单词:能对单词添加多重中文释义,不同释义用逗号分开, 单词保存在txt文 ...
- python英语词汇读音_40行Python代码区分英语单词和汉语拼音
前天在一个群里有人问:利用一些英语语料,如何训练一个模型来识别出测试语句中的汉语拼音.我的第一反应想到了语言模型中的拼写纠错模型,但是纠错模型应该更复杂一些,需要实现的功能也多,比如英语单词拼错之后, ...
- 背英语单词词根词缀的重要性
原文地址:https://www.zhihu.com/question/22896159 18 个回答 得得得君 有时候,了解词根会给你带来"哇,原来是这样"的惊叹. 我想,就算单 ...
最新文章
- CSS之定位(绝对定位)
- python与人工智能编程-总算明白python人工智能编程入门案例
- 虚拟实验室中的事务管理系统(一、概述)
- hdu4740 Sum
- 美宇航局发现地球“表兄弟” 距离1400光年
- 信号与系统研讨(二)归一化正交函数在匹配滤波器中的应用
- 小美赛之matlab笔记
- “声波识别”可用于购物
- 地理空间数据云DEM数据解压失败_解决了
- dell r710重装系统_dell服务器安装系统指南
- dell服务器分区表修复,使用 BIOSConnect 恢复 SupportAssist OS Recovery 分区
- html文档标记语言,html是超文本标记语言标签有
- Hibernate报错org.hibernate.MappingException: Unknown entity解决方法
- Petalinux和SDK安装
- ​什么是响应时间测试?
- 基于分数阶傅里叶变换的车载多用户雷达通信一体化系统
- 如何将WORD中的公式转为图片
- 用计算机模拟掷骰子实验,实验一古典概型及其模拟(6页)-原创力文档
- theta悖论:4-8 Hz的EEG振荡既反映睡眠压力又体现认知控制
- 2019美国数学建模B题翻译:Problem B: Send in the Drones: Developing an Aerial Disaster Relief Response System