纯英语单词可以从下面几个网址下载(第3个和第4个为博主上传到CSDN的文件):

网址1

网址2

网址3

网址4

我将下载好的英文单词列表存放到阿里云服务器,文件结构与爬虫所在目录结构如图1与图2所示。并使用如下所示的Python代码,对于每个单词分别爬取Bing在线词典所給出的释义。

import urllib.requestdef grab(url, filename, num):resp = urllib.request.urlopen(url)data = resp.read()name = "/home/crawler/" + str(num) + ".txt"file_name = open(name, "wb")file_name.write(data)file_name.close()print("Job done.")def getFileName(num):path = "/home/non_alphabetical/result" + str(num) + ".txt"with open(path) as f:lines = f.readlines()return linesif __name__ == '__main__':for cnt in range(0, 21):lines = getFileName(cnt)for line in lines:EnglishWord = line.rstrip()print(EnglishWord)web_addr = "https://cn.bing.com/dict/search?q=" + str(EnglishWord) + "&qs=n&form=Z9LH5&sp=-1&pq=" + str(EnglishWord) + "&sc=8-8&sk=&cvid=AA1C8A024F484889A4B788484086A7DF" #input("请输入要抓取的网址:")try:grab(web_addr, EnglishWord, cnt)except:print("Wrong URL")

图1 单词文件列表结构

图2 爬虫程序与所爬取文件结构

因为有些单词不在Bing在线词典的数据库里面,因此搜素不到其单词释义,对应爬取到的页面源代码的文件容量较小,经观察为:112 KB,使用如下Linux指令删除容量小于112 KB的文件即可(具体做法是新建delete_invalid_file.sh文件并将下列命令复制其中)。

while true ;do find /home/crawler -name "*" -type f -size -112k | xargs -n 1 rm -f; done;

为了能够使爬虫和删除指令一直保持运行,需要借助screen,详情参考博文。结合本实验,最终运行的指令分别如下所示(需在两个不同的终端执行,且另一个终端不能使用exit或者CTRL-C终止,你可以直接用鼠标把终端叉掉,哈哈哈!):

screen -s crawlerpython3 test1.py
screen -s delete_invalid_filechmod 777 delete_invalid_file.sh./delete_invalid_file.sh

最终运行效果如图3所示。

图3 借助screen同时保持多个程序处于运行状态

爬取到的忘记是网页文档的形式,包含了大量的HTML标签,后期需要进一步处理才能得到“干净”的数据。

收集英语单词及释义的前期准备工作相关推荐

  1. 基于微信小程序的英语单词记忆系统的设计与实现(论文+源码)_kaic

    摘  要 当前时期,国内的经济获得了非常快速的发展,互联网技术在持续的创新和完善,教育教学方面也在不断的进步,教育全面深化改革在发展,并且移动互联网技术在教育领域获得了大量的实践以及应用.语言的全球化 ...

  2. 成人怎么学计算机英语单词,成人怎么从零开始学英语单词

    英语学习的过程中掌握方法很重要,方法用对,学习才能提高效率.下面是积累英语单词的方法,大家可以作为学习的参考. 1. 所选单词书不应太厚. 人们大都有喜新厌旧的毛病,老是捧着同一本书难免会产生厌烦情绪 ...

  3. python英语单词 扇贝英语安卓下载_扇贝单词app下载-扇贝单词英语版 安卓版v3.6.503-pc6手机下载...

    扇贝单词app是一款可以和小伙伴一起学英语背单词的app,扇贝单词英语版属于千万用户的背单词神器,让你的英语水平突飞猛进,你确定不要来试一试吗? 软件介绍 扇贝单词英语版是一款很实用的英语单词学习软件 ...

  4. kubernetes英语怎么读_陷阱英语单词怎么读?

    陷阱英语单词怎么读: Trap 释义:陷阱,罗网,夹,捕捉器;圈套;诡计; 音标:英 [træp] 美 [træp] Pitfall 释义:陷阱;险境逃脱;缺陷;诱惑;圈套 音标:英 [ˈpɪtfɔː ...

  5. 计算机考研英语词汇书,求助:有知道电脑背考研英语单词的

    2017考研英语复习进行到今天,相信大家对背单词都不陌生,背单词是每个学生都会头疼的地方,背了忘.忘了背如此恶性循环,到最后记住的单词却没有几个.面对这样的结果,都教授想说:你背单词的方法用对了吗?背 ...

  6. python需要的英语单词怎么写_如何删除Python中的非英语单词?

    我正在用Python做一个情感分析项目(使用自然语言处理).我已经从twitter收集了数据,并将其保存为CSV文件.该文件包含tweets,其中大部分是关于加密货币的.我清理了数据,但在使用分类算法 ...

  7. python编程技术解决英语单词测试(包括添加英文单词、查询英文单词和查询英文单词)以及绘制雷达图功能

    用如Tkinter或wxPython等GUI开发库开发程序用户界面,通过同用户界面交互,程序至少完成以下基本功能: 1.添加英文单词:能对单词添加多重中文释义,不同释义用逗号分开, 单词保存在txt文 ...

  8. python英语词汇读音_40行Python代码区分英语单词和汉语拼音

    前天在一个群里有人问:利用一些英语语料,如何训练一个模型来识别出测试语句中的汉语拼音.我的第一反应想到了语言模型中的拼写纠错模型,但是纠错模型应该更复杂一些,需要实现的功能也多,比如英语单词拼错之后, ...

  9. 背英语单词词根词缀的重要性

    原文地址:https://www.zhihu.com/question/22896159 18 个回答 得得得君 有时候,了解词根会给你带来"哇,原来是这样"的惊叹. 我想,就算单 ...

最新文章

  1. CSS之定位(绝对定位)
  2. python与人工智能编程-总算明白python人工智能编程入门案例
  3. 虚拟实验室中的事务管理系统(一、概述)
  4. hdu4740 Sum
  5. 美宇航局发现地球“表兄弟” 距离1400光年
  6. 信号与系统研讨(二)归一化正交函数在匹配滤波器中的应用
  7. 小美赛之matlab笔记
  8. “声波识别”可用于购物
  9. 地理空间数据云DEM数据解压失败_解决了
  10. dell r710重装系统_dell服务器安装系统指南
  11. dell服务器分区表修复,使用 BIOSConnect 恢复 SupportAssist OS Recovery 分区
  12. html文档标记语言,html是超文本标记语言标签有
  13. Hibernate报错org.hibernate.MappingException: Unknown entity解决方法
  14. Petalinux和SDK安装
  15. ​什么是响应时间测试?
  16. 基于分数阶傅里叶变换的车载多用户雷达通信一体化系统
  17. 如何将WORD中的公式转为图片
  18. 用计算机模拟掷骰子实验,实验一古典概型及其模拟(6页)-原创力文档
  19. theta悖论:4-8 Hz的EEG振荡既反映睡眠压力又体现认知控制
  20. 2019美国数学建模B题翻译:Problem B: Send in the Drones: Developing an Aerial Disaster Relief Response System

热门文章

  1. java 并发 csp_CSP与并发编程
  2. 应用与系统稳定性第五篇---Watchdog原理和问题分析
  3. STM32+光敏模块
  4. 跨专业考研应该怎么做?
  5. 怎么自定义服务器的404,如何自定义404页面
  6. 数据结构与算法10:图与图搜索
  7. MA1 轻轻松松学统计分析(下)
  8. 四阶龙格库塔方程解二阶常微分方程组并计算船舶在迎浪下的纵摇埀荡耦合运动方程-附Python代码
  9. uniapp链接生成二维码
  10. win101909要不要更新_win101909版本千万别更新?win10 1909值得升级吗要不要更新