Oxford Learner’s Dictionaries
Oxford 3000 and 5000

一、代码

# 导入模块
from selenium import webdriver
from bs4 import BeautifulSoup
import requests
import urllib
import time
import numpy as np
import pandas as pd# 网页地址
url = "https://www.oxfordlearnersdictionaries.com/wordlists/oxford3000-5000"# 打开浏览器
driver = webdriver.Chrome(r"C:\Users\53224\_jupyter\chromedriver.exe")# 打开网页
driver.get(url)  # 点击Filters > List > Oxford 5000word_li_list = driver.find_elements_by_css_selector("ul.top-g > li")
len(word_li_list)special_word_dic = {'nursing': {'uk_pron_url': "https://www.oxfordlearnersdictionaries.com/media/english/uk_pron/n/nur/nursi/nursing__gb_1.mp3",'us_pron_url': "https://www.oxfordlearnersdictionaries.com/media/english/us_pron/n/nur/nursi/nursing__us_1.mp3",},
}
special_word_dic.keys()word_list = []
word_url_list = []
pos_list = []
ox3000_list = []
ox5000_list = []
uk_pron_url_list = []
us_pron_url_list = []# word_li_list = word_li_list[3550:]cnt = 1
for word_li in word_li_list:word = word_li.get_attribute('data-hw')word_url = word_li.find_element_by_css_selector("a").get_attribute("href")pos = word_li.find_element_by_css_selector("span.pos").textox3000 = word_li.get_attribute('data-ox3000')ox5000 = word_li.get_attribute('data-ox5000')media_div_list = word_li.find_elements_by_css_selector("div > div")uk_pron_url = Noneus_pron_url = Noneif len(media_div_list) == 0:uk_pron_url = special_word_dic[word]['uk_pron_url']us_pron_url = special_word_dic[word]['us_pron_url']else:uk_pron_url = "https://www.oxfordlearnersdictionaries.com" + media_div_list[0].get_attribute("data-src-mp3")us_pron_url = "https://www.oxfordlearnersdictionaries.com" + media_div_list[1].get_attribute("data-src-mp3")print(cnt, word, word_url, pos, ox3000, ox5000)print(uk_pron_url)print(us_pron_url)cnt += 1word_list.append(word)word_url_list.append(word_url)pos_list.append(pos)ox3000_list.append(ox3000)ox5000_list.append(ox5000)uk_pron_url_list.append(uk_pron_url)us_pron_url_list.append(us_pron_url)print(len(word_list))
print(len(word_url_list))
print(len(pos_list))
print(len(ox3000_list))
print(len(ox5000_list))
print(len(uk_pron_url_list))
print(len(us_pron_url_list))word_data = []
for i in range(len(word_list)):print(i, [word_list[i], word_url_list[i], pos_list[i], ox3000_list[i], ox5000_list[i], uk_pron_url_list[i], us_pron_url_list[i]])word_data.append([word_list[i], word_url_list[i], pos_list[i], ox3000_list[i], ox5000_list[i], uk_pron_url_list[i], us_pron_url_list[i]])
# word_datacolumns = ['word', 'word_url', 'pos', 'ox3000', 'ox5000', 'uk_pron_url', 'us_pron_url']
word_table = pd.DataFrame(word_data, columns=columns)
word_tableword_table.to_csv("Oxford_3000_and_5000.csv", index=False)

二、运行结果

爬虫：获取OLD的Oxford 3000 and 5000相关推荐

编写python爬虫获取中华英才网全网工资数据
做数据分析数据挖掘,第一步是获取数据,在这里,我们要分析现今全国各地各个职业的工资情况. 我们选择较为权威的'中华英才网',编写python爬虫获取该网站上的各个招聘信息说给出的工资,再取其行业工资 ...
Python爬虫获取文章的标题及你的博客的阅读量，评论量。所有数据写入本地记事本。最后输出你的总阅读量！
Python爬虫获取文章的标题及你的博客的阅读量,评论量.所有数据写入本地记事本.最后输出你的总阅读量!还可以进行筛选输出!比如阅读量大于1000,之类的! 完整代码在最后.依据阅读数量进行降序输出! ...
python下载图片并保存_Python爬虫获取图片并下载保存至本地的实例
1.抓取煎蛋网上的图片. 2.代码如下: import urllib.request import os #to open the url def url_open(url): req=urllib. ...
python获取id标签对应数据_Python--Scrapy爬虫获取简书作者ID的全部文章列表数据
最近Python大火,为了跟上时代,试着自学了下.Scrapy是一个高级的Python爬虫框架,它不仅包含了爬虫的特性,还可以方便的将爬虫数据保存到csv.json等文件中. 今天我们就试着用Scra ...
python Chrome + selenium自动化测试与python爬虫获取网页数据
一.使用Python+selenium+Chrome 报错: selenium.common.exceptions.SessionNotCreatedException: Message: sessi ...
域名带后缀_[Python 爬虫]获取顶级域名及对应的 WHOIS Server 及 whoisservers.txt 下载...
使用 Python 爬虫获取顶级域名及对应的 WHOIS Server 并保存可用于 WhoisCL.exe 的文件 whois-servers.txt. 环境: Windows 10 Python ...
python爬虫获取url_Python爬虫如何获取页面内所有URL链接？本文详解
如何获取一个页面内所有URL链接?在Python中可以使用urllib对网页进行爬取,然后利用Beautiful Soup对爬取的页面进行解析,提取出所有的URL. 什么是Beautiful Soup ...
python爬虫获取下一页url_Python爬虫获取页面所有URL链接过程详解
如何获取一个页面内所有URL链接?在python中可以使用urllib对网页进行爬取,然后利用Beautiful Soup对爬取的页面进行解析,提取出所有的URL. 什么是Beautiful Soup ...
python爬虫之js链接跳转抓取_Python爬虫获取页面所有URL链接过程详解
如何获取一个页面内所有URL链接?在Python中可以使用urllib对网页进行爬取,然后利用Beautiful Soup对爬取的页面进行解析,提取出所有的URL. 什么是Beautiful Soup ...
python selenium爬虫代码示例_python3通过selenium爬虫获取到dj商品的实例代码
先给大家介绍下python3 selenium使用其实这个就相当于模拟人的点击事件来连续的访问浏览器.如果你玩过王者荣耀的话在2016年一月份的版本里面就有一个bug. 安卓手机下载一个按键精灵就可 ...

爬虫：获取OLD的Oxford 3000 and 5000

一、代码

二、运行结果

爬虫：获取OLD的Oxford 3000 and 5000相关推荐

最新文章

热门文章