Oxford Learner’s Dictionaries
Oxford 3000 and 5000

一、代码

# 导入模块
from selenium import webdriver
from bs4 import BeautifulSoup
import requests
import urllib
import time
import numpy as np
import pandas as pd# 网页地址
url = "https://www.oxfordlearnersdictionaries.com/wordlists/oxford3000-5000"# 打开浏览器
driver = webdriver.Chrome(r"C:\Users\53224\_jupyter\chromedriver.exe")# 打开网页
driver.get(url)  # 点击Filters > List > Oxford 5000word_li_list = driver.find_elements_by_css_selector("ul.top-g > li")
len(word_li_list)special_word_dic = {'nursing': {'uk_pron_url': "https://www.oxfordlearnersdictionaries.com/media/english/uk_pron/n/nur/nursi/nursing__gb_1.mp3",'us_pron_url': "https://www.oxfordlearnersdictionaries.com/media/english/us_pron/n/nur/nursi/nursing__us_1.mp3",},
}
special_word_dic.keys()word_list = []
word_url_list = []
pos_list = []
ox3000_list = []
ox5000_list = []
uk_pron_url_list = []
us_pron_url_list = []# word_li_list = word_li_list[3550:]cnt = 1
for word_li in word_li_list:word = word_li.get_attribute('data-hw')word_url = word_li.find_element_by_css_selector("a").get_attribute("href")pos = word_li.find_element_by_css_selector("span.pos").textox3000 = word_li.get_attribute('data-ox3000')ox5000 = word_li.get_attribute('data-ox5000')media_div_list = word_li.find_elements_by_css_selector("div > div")uk_pron_url = Noneus_pron_url = Noneif len(media_div_list) == 0:uk_pron_url = special_word_dic[word]['uk_pron_url']us_pron_url = special_word_dic[word]['us_pron_url']else:uk_pron_url = "https://www.oxfordlearnersdictionaries.com" + media_div_list[0].get_attribute("data-src-mp3")us_pron_url = "https://www.oxfordlearnersdictionaries.com" + media_div_list[1].get_attribute("data-src-mp3")print(cnt, word, word_url, pos, ox3000, ox5000)print(uk_pron_url)print(us_pron_url)cnt += 1word_list.append(word)word_url_list.append(word_url)pos_list.append(pos)ox3000_list.append(ox3000)ox5000_list.append(ox5000)uk_pron_url_list.append(uk_pron_url)us_pron_url_list.append(us_pron_url)print(len(word_list))
print(len(word_url_list))
print(len(pos_list))
print(len(ox3000_list))
print(len(ox5000_list))
print(len(uk_pron_url_list))
print(len(us_pron_url_list))word_data = []
for i in range(len(word_list)):print(i, [word_list[i], word_url_list[i], pos_list[i], ox3000_list[i], ox5000_list[i], uk_pron_url_list[i], us_pron_url_list[i]])word_data.append([word_list[i], word_url_list[i], pos_list[i], ox3000_list[i], ox5000_list[i], uk_pron_url_list[i], us_pron_url_list[i]])
# word_datacolumns = ['word', 'word_url', 'pos', 'ox3000', 'ox5000', 'uk_pron_url', 'us_pron_url']
word_table = pd.DataFrame(word_data, columns=columns)
word_tableword_table.to_csv("Oxford_3000_and_5000.csv", index=False)

二、运行结果


爬虫:获取OLD的Oxford 3000 and 5000相关推荐

  1. 编写python爬虫 获取中华英才网全网工资数据

    做数据分析 数据挖掘,第一步是获取数据,在这里,我们要分析现今全国各地各个职业的工资情况. 我们选择较为权威的'中华英才网',编写python爬虫获取该网站上的各个招聘信息说给出的工资,再取其行业工资 ...

  2. Python爬虫获取文章的标题及你的博客的阅读量,评论量。所有数据写入本地记事本。最后输出你的总阅读量!

    Python爬虫获取文章的标题及你的博客的阅读量,评论量.所有数据写入本地记事本.最后输出你的总阅读量!还可以进行筛选输出!比如阅读量大于1000,之类的! 完整代码在最后.依据阅读数量进行降序输出! ...

  3. python下载图片并保存_Python爬虫获取图片并下载保存至本地的实例

    1.抓取煎蛋网上的图片. 2.代码如下: import urllib.request import os #to open the url def url_open(url): req=urllib. ...

  4. python获取id标签对应数据_Python--Scrapy爬虫获取简书作者ID的全部文章列表数据

    最近Python大火,为了跟上时代,试着自学了下.Scrapy是一个高级的Python爬虫框架,它不仅包含了爬虫的特性,还可以方便的将爬虫数据保存到csv.json等文件中. 今天我们就试着用Scra ...

  5. python Chrome + selenium自动化测试与python爬虫获取网页数据

    一.使用Python+selenium+Chrome 报错: selenium.common.exceptions.SessionNotCreatedException: Message: sessi ...

  6. 域名带后缀_[Python 爬虫]获取顶级域名及对应的 WHOIS Server 及 whoisservers.txt 下载...

    使用 Python 爬虫获取顶级域名及对应的 WHOIS Server 并保存可用于 WhoisCL.exe 的文件 whois-servers.txt. 环境: Windows 10 Python ...

  7. python爬虫获取url_Python爬虫如何获取页面内所有URL链接?本文详解

    如何获取一个页面内所有URL链接?在Python中可以使用urllib对网页进行爬取,然后利用Beautiful Soup对爬取的页面进行解析,提取出所有的URL. 什么是Beautiful Soup ...

  8. python爬虫获取下一页url_Python爬虫获取页面所有URL链接过程详解

    如何获取一个页面内所有URL链接?在python中可以使用urllib对网页进行爬取,然后利用Beautiful Soup对爬取的页面进行解析,提取出所有的URL. 什么是Beautiful Soup ...

  9. python爬虫之js链接跳转抓取_Python爬虫获取页面所有URL链接过程详解

    如何获取一个页面内所有URL链接?在Python中可以使用urllib对网页进行爬取,然后利用Beautiful Soup对爬取的页面进行解析,提取出所有的URL. 什么是Beautiful Soup ...

  10. python selenium爬虫代码示例_python3通过selenium爬虫获取到dj商品的实例代码

    先给大家介绍下python3 selenium使用 其实这个就相当于模拟人的点击事件来连续的访问浏览器.如果你玩过王者荣耀的话在2016年一月份的版本里面就有一个bug. 安卓手机下载一个按键精灵就可 ...

最新文章

  1. 【转载】常用DOS命令(包括创建删除文件夹/文件)
  2. python实现进度条的3种方式
  3. C++细节系列(零):零散记录
  4. fastjson的常用用法以及自定义排序
  5. jdbc与java数据库编程_JDBC与JAVA数据库编程
  6. vs2008+sp1
  7. 电子商务平台搭建方案
  8. 1.CLUSTERDOWN Hash slot not served
  9. 复盘:企业微信中国发展简史
  10. JavaScript屏蔽Backspace键
  11. 苹果地图副总裁_挖角苹果高级计算机视觉专家 Mapillary地图更新添一员大将
  12. Hadoop性能测试工具
  13. 必备外文文献网站,有外文文献翻译功能
  14. 侯捷C++视频笔记——C++面向对象高级编程(上)
  15. 详解区块链项目如何做主体搭建?
  16. 在游戏上第3部分完美的信息游戏
  17. Labview视觉一键尺寸测量仪,多产品
  18. SpringMVC学习笔记(2)——B站动力节点
  19. 薄荷油为什么可以使人感觉凉爽
  20. 8月23日RSG素描:从套路到心理能量

热门文章

  1. ar 华为路由器 端口映射_华为AR1220-S路由器WEB界面鸡肋使用命令映射多端口方法...
  2. pyspark学习——统计《少年派的奇幻漂流》(lifeofpi)词频
  3. Spring Boot (Vue3+ElementPlus+Axios+MyBatisPlus +Spring Boot 前后端分离)
  4. 你了解Android中的Activity吗?
  5. 人工智能权威网站推荐
  6. 【高等数学】方差的集合意义
  7. python语言中整数1010的二进制、八进制_C语言中的二进制数、八进制数和十六进制数...
  8. 神仙道丹药材料及掉落地点大全
  9. 使用linux时电脑突然蓝屏,Win7系统电脑突然蓝屏提示的解决方法
  10. python猜拳游戏教学_python实现猜拳游戏