爬取沪江网考研词汇并按要求存为txt

存储数据的要求：每遍历一个单词，保存单词汉语翻译到txt文档，并以单词命名，保存到一个文件夹里，便于GUI设计使用。
点击此查看要爬取的网页

思路：大循环找herf进行url拼接，小循环进入数据网页提取信息

mport re
import requests
from bs4 import BeautifulSoup
from requests.exceptions import RequestExceptionheaders = {'User-Agent': '''Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'''
}def get_html(url):try:response = requests.get(url, headers=headers)if response.status_code == 200:return response.textelse:return Noneexcept RequestException:return Nonedef get_entranceUrls(html):part_urls = re.findall('<li class="clearfix">.*?<a href="(.*?)" target="_blank">', html, re.S)return part_urls# for part_url in part_urls:#     print(part_url)测试成功def get_info(html,file_name):# selector = etree.HTML(html)Xpath不好处理！！！# content = selector.xpath(#     '//div[@class="sp-lexicon-word-comment clearfix"]/span/text()')# for i in content:#     print(i.strip())try:soup = BeautifulSoup(html, 'lxml')# select的属性中间带有空格的解决方法content = soup.select('div.sp-lexicon-word-comment.clearfix')for real in content:# print(real.get_text().strip())#测试成功，不用strip()结果好看一点try:with open('D:/寒假项目/{0}.txt'.format(file_name),'a+',encoding='UTF-8') as fp:fp.write(real.get_text().strip())except:passexcept:passif __name__ == '__main__':urls = ['https://www.hujiang.com/ciku/zuixinkaoyanyingyucihui_{0}/'.format(i) for i in range(1, 276)]#最后一页为275for url in urls:html = get_html(url)part_list = get_entranceUrls(html)for part_name in part_list:href = 'https://www.hujiang.com' + part_nameHtml = get_html(href)word = part_name.split('/')[2]# print(word)测试成功get_info(Html,word)

爬取沪江网考研词汇并按要求存为txt相关推荐

Scrapy之Crawlspider实例：爬取沪江网校所有课程信息
点击此处查看要爬取的网页如图,利用Crawlspider将所有的课程信息爬取下来,并存入MongoDB数据库整体思路清晰,简单,不过有一个要注意的点,在插入到数据库的时候 items.py imp ...
Beautiful爬取海词网词汇意思和短语
Beautiful爬取海词网词汇意思和短语直接上代码 # -*- encoding:utf-8 -*- import urllib.request # 导入urllib库的request模块 fro ...
Python面试之沪江网“数据爬虫算法实习”
这篇博客是后来补的,面试是在今天上午,现在又经历了一场面试,感觉从头凉到脚,.....总体来说,上午的面试比下午的刚进行完的这场面试要好得多,至少我知道的都已经表达清楚了.上午的面试进行了大约30分钟 ...
沪江计算机考研老师,[回报沪江]从六级370到考研74,我的08研英之路[原创].doc
[回报沪江]从六级370到考研74,我的08研英之路[原创] 08年的考研终于结束了,政治78 英语74 数一110 专业课(计算机)137 总分399.回忆这一年的考研之路,觉得最幸运的就是认识了沪 ...
python爬取中国天气网中国全部城市的天气链接
近期自己尝试用python写一个qqbot实现天气查询功能,现已基本实现已经基本完成爬取中国天气网的所有城市的天气情况链接下附中国天气网所有城市的名称及对应链接 {'朝阳': 'http://ww ...
python爬取本地天气信息_用Python写一个爬取中国天气网的终端版天气预报爬虫
导语前几篇文章介绍了爬取静态网站的主要方法.今天写一个小项目实践一下.本项目可以在终端窗口查询全国3400多个区县的当日天气信息和近七天天气信息. 实现效果 [Python爬虫]写一个爬取中国天气网 ...
Python的scrapy之爬取顶点小说网的所有小说
闲来无事用Python的scrapy框架练练手,爬取顶点小说网的所有小说的详细信息. 看一下网页的构造: tr标签里面的 td 使我们所要爬取的信息下面是我们要爬取的二级页面小说的简介信息: 下面 ...
Scrapy实战篇（一）之爬取链家网成交房源数据（上）
今天,我们就以链家网南京地区为例,来学习爬取链家网的成交房源数据. 这里推荐使用火狐浏览器,并且安装firebug和firepath两款插件,你会发现,这两款插件会给我们后续的数据提取带来很大的方便. ...
python爬虫去哪儿网_大型爬虫案例：爬取去哪儿网
世界那么大,我想去看看.相信每到暑假期间,就会有很多人都想去旅游.但是去哪里玩,没有攻略这又是个问题.这次作者给大家带来的是爬取去哪网自由行数据.先来讲解一下大概思路,我们去一个城市旅行必定有一个出发 ...

爬取沪江网考研词汇并按要求存为txt

爬取沪江网考研词汇并按要求存为txt相关推荐

最新文章

热门文章