爬取沪江网考研词汇并按要求存为txt
存储数据的要求:每遍历一个单词,保存单词汉语翻译到txt文档,并以单词命名,保存到一个文件夹里,便于GUI设计使用。
点击此查看要爬取的网页
思路:大循环找herf进行url拼接,小循环进入数据网页提取信息
mport re
import requests
from bs4 import BeautifulSoup
from requests.exceptions import RequestExceptionheaders = {'User-Agent': '''Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'''
}def get_html(url):try:response = requests.get(url, headers=headers)if response.status_code == 200:return response.textelse:return Noneexcept RequestException:return Nonedef get_entranceUrls(html):part_urls = re.findall('<li class="clearfix">.*?<a href="(.*?)" target="_blank">', html, re.S)return part_urls# for part_url in part_urls:# print(part_url)测试成功def get_info(html,file_name):# selector = etree.HTML(html)Xpath不好处理!!!# content = selector.xpath(# '//div[@class="sp-lexicon-word-comment clearfix"]/span/text()')# for i in content:# print(i.strip())try:soup = BeautifulSoup(html, 'lxml')# select的属性中间带有空格的解决方法content = soup.select('div.sp-lexicon-word-comment.clearfix')for real in content:# print(real.get_text().strip())#测试成功,不用strip()结果好看一点try:with open('D:/寒假项目/{0}.txt'.format(file_name),'a+',encoding='UTF-8') as fp:fp.write(real.get_text().strip())except:passexcept:passif __name__ == '__main__':urls = ['https://www.hujiang.com/ciku/zuixinkaoyanyingyucihui_{0}/'.format(i) for i in range(1, 276)]#最后一页为275for url in urls:html = get_html(url)part_list = get_entranceUrls(html)for part_name in part_list:href = 'https://www.hujiang.com' + part_nameHtml = get_html(href)word = part_name.split('/')[2]# print(word)测试成功get_info(Html,word)
爬取沪江网考研词汇并按要求存为txt相关推荐
- Scrapy之Crawlspider实例:爬取沪江网校所有课程信息
点击此处查看要爬取的网页 如图,利用Crawlspider将所有的课程信息爬取下来,并存入MongoDB数据库 整体思路清晰,简单,不过有一个要注意的点,在插入到数据库的时候 items.py imp ...
- Beautiful爬取海词网词汇意思和短语
Beautiful爬取海词网词汇意思和短语 直接上代码 # -*- encoding:utf-8 -*- import urllib.request # 导入urllib库的request模块 fro ...
- Python面试之沪江网“数据爬虫算法实习”
这篇博客是后来补的,面试是在今天上午,现在又经历了一场面试,感觉从头凉到脚,.....总体来说,上午的面试比下午的刚进行完的这场面试要好得多,至少我知道的都已经表达清楚了.上午的面试进行了大约30分钟 ...
- 沪江计算机考研老师,[回报沪江]从六级370到考研74,我的08研英之路[原创].doc
[回报沪江]从六级370到考研74,我的08研英之路[原创] 08年的考研终于结束了,政治78 英语74 数一110 专业课(计算机)137 总分399.回忆这一年的考研之路,觉得最幸运的就是认识了沪 ...
- python爬取中国天气网中国全部城市的天气链接
近期自己尝试用python写一个qqbot实现天气查询功能,现已基本实现 已经基本完成爬取中国天气网的所有城市的天气情况链接 下附中国天气网所有城市的名称及对应链接 {'朝阳': 'http://ww ...
- python爬取本地天气信息_用Python写一个爬取中国天气网的终端版天气预报爬虫
导语 前几篇文章介绍了爬取静态网站的主要方法.今天写一个小项目实践一下.本项目可以在终端窗口查询全国3400多个区县的当日天气信息和近七天天气信息. 实现效果 [Python爬虫]写一个爬取中国天气网 ...
- Python的scrapy之爬取顶点小说网的所有小说
闲来无事用Python的scrapy框架练练手,爬取顶点小说网的所有小说的详细信息. 看一下网页的构造: tr标签里面的 td 使我们所要爬取的信息 下面是我们要爬取的二级页面 小说的简介信息: 下面 ...
- Scrapy实战篇(一)之爬取链家网成交房源数据(上)
今天,我们就以链家网南京地区为例,来学习爬取链家网的成交房源数据. 这里推荐使用火狐浏览器,并且安装firebug和firepath两款插件,你会发现,这两款插件会给我们后续的数据提取带来很大的方便. ...
- python爬虫去哪儿网_大型爬虫案例:爬取去哪儿网
世界那么大,我想去看看.相信每到暑假期间,就会有很多人都想去旅游.但是去哪里玩,没有攻略这又是个问题.这次作者给大家带来的是爬取去哪网自由行数据.先来讲解一下大概思路,我们去一个城市旅行必定有一个出发 ...
最新文章
- 3 calender python_python3笔记二十一:时间操作datetime和calendar
- 创建一个Android模拟器
- 一个专业处理字符串的IDEA插件
- python爬虫-爬取壁纸酷主页内容
- 用python做数据分析pdf_利用python进行数据分析pdf
- [react] componentWillUpdate可以直接修改state的值吗
- windows下gvim8打开文件中文乱码处理
- 95-138-010-源码-Function-KeyedProcessFunction
- Django视图层:视图函数、视图类
- # 异运算_一年级数学:3000道20内纯进、退位口算题,每天100道日新又月异
- Vue-Plugin开发插件
- 图像形状特征(一)--FD
- python编程教学软件-B站最受欢迎的Python教程,免费教学视频可以下载了
- 庄子梦游记之办公室有“云”
- JavaScript之E-mail 地址格式验证
- Enzo高灵敏度检测——Arg8-Vasopressin ELISA kit
- 人脸识别摄像头开发板和模组选型
- dlib检测人脸landmarks
- Spring源码解析【完整版】--【bilibili地址:https://www.bilibili.com/video/BV1oW41167AV】
- MySQL 数据库单表查询——高级查询