存储数据的要求:每遍历一个单词,保存单词汉语翻译到txt文档,并以单词命名,保存到一个文件夹里,便于GUI设计使用。
点击此查看要爬取的网页

思路:大循环找herf进行url拼接,小循环进入数据网页提取信息

mport re
import requests
from bs4 import BeautifulSoup
from requests.exceptions import RequestExceptionheaders = {'User-Agent': '''Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'''
}def get_html(url):try:response = requests.get(url, headers=headers)if response.status_code == 200:return response.textelse:return Noneexcept RequestException:return Nonedef get_entranceUrls(html):part_urls = re.findall('<li class="clearfix">.*?<a href="(.*?)" target="_blank">', html, re.S)return part_urls# for part_url in part_urls:#     print(part_url)测试成功def get_info(html,file_name):# selector = etree.HTML(html)Xpath不好处理!!!# content = selector.xpath(#     '//div[@class="sp-lexicon-word-comment clearfix"]/span/text()')# for i in content:#     print(i.strip())try:soup = BeautifulSoup(html, 'lxml')# select的属性中间带有空格的解决方法content = soup.select('div.sp-lexicon-word-comment.clearfix')for real in content:# print(real.get_text().strip())#测试成功,不用strip()结果好看一点try:with open('D:/寒假项目/{0}.txt'.format(file_name),'a+',encoding='UTF-8') as fp:fp.write(real.get_text().strip())except:passexcept:passif __name__ == '__main__':urls = ['https://www.hujiang.com/ciku/zuixinkaoyanyingyucihui_{0}/'.format(i) for i in range(1, 276)]#最后一页为275for url in urls:html = get_html(url)part_list = get_entranceUrls(html)for part_name in part_list:href = 'https://www.hujiang.com' + part_nameHtml = get_html(href)word = part_name.split('/')[2]# print(word)测试成功get_info(Html,word)

爬取沪江网考研词汇并按要求存为txt相关推荐

  1. Scrapy之Crawlspider实例:爬取沪江网校所有课程信息

    点击此处查看要爬取的网页 如图,利用Crawlspider将所有的课程信息爬取下来,并存入MongoDB数据库 整体思路清晰,简单,不过有一个要注意的点,在插入到数据库的时候 items.py imp ...

  2. Beautiful爬取海词网词汇意思和短语

    Beautiful爬取海词网词汇意思和短语 直接上代码 # -*- encoding:utf-8 -*- import urllib.request # 导入urllib库的request模块 fro ...

  3. Python面试之沪江网“数据爬虫算法实习”

    这篇博客是后来补的,面试是在今天上午,现在又经历了一场面试,感觉从头凉到脚,.....总体来说,上午的面试比下午的刚进行完的这场面试要好得多,至少我知道的都已经表达清楚了.上午的面试进行了大约30分钟 ...

  4. 沪江计算机考研老师,[回报沪江]从六级370到考研74,我的08研英之路[原创].doc

    [回报沪江]从六级370到考研74,我的08研英之路[原创] 08年的考研终于结束了,政治78 英语74 数一110 专业课(计算机)137 总分399.回忆这一年的考研之路,觉得最幸运的就是认识了沪 ...

  5. python爬取中国天气网中国全部城市的天气链接

    近期自己尝试用python写一个qqbot实现天气查询功能,现已基本实现 已经基本完成爬取中国天气网的所有城市的天气情况链接 下附中国天气网所有城市的名称及对应链接 {'朝阳': 'http://ww ...

  6. python爬取本地天气信息_用Python写一个爬取中国天气网的终端版天气预报爬虫

    导语 前几篇文章介绍了爬取静态网站的主要方法.今天写一个小项目实践一下.本项目可以在终端窗口查询全国3400多个区县的当日天气信息和近七天天气信息. 实现效果 [Python爬虫]写一个爬取中国天气网 ...

  7. Python的scrapy之爬取顶点小说网的所有小说

    闲来无事用Python的scrapy框架练练手,爬取顶点小说网的所有小说的详细信息. 看一下网页的构造: tr标签里面的 td 使我们所要爬取的信息 下面是我们要爬取的二级页面 小说的简介信息: 下面 ...

  8. Scrapy实战篇(一)之爬取链家网成交房源数据(上)

    今天,我们就以链家网南京地区为例,来学习爬取链家网的成交房源数据. 这里推荐使用火狐浏览器,并且安装firebug和firepath两款插件,你会发现,这两款插件会给我们后续的数据提取带来很大的方便. ...

  9. python爬虫去哪儿网_大型爬虫案例:爬取去哪儿网

    世界那么大,我想去看看.相信每到暑假期间,就会有很多人都想去旅游.但是去哪里玩,没有攻略这又是个问题.这次作者给大家带来的是爬取去哪网自由行数据.先来讲解一下大概思路,我们去一个城市旅行必定有一个出发 ...

最新文章

  1. 3 calender python_python3笔记二十一:时间操作datetime和calendar
  2. 创建一个Android模拟器
  3. 一个专业处理字符串的IDEA插件
  4. python爬虫-爬取壁纸酷主页内容
  5. 用python做数据分析pdf_利用python进行数据分析pdf
  6. [react] componentWillUpdate可以直接修改state的值吗
  7. windows下gvim8打开文件中文乱码处理
  8. 95-138-010-源码-Function-KeyedProcessFunction
  9. Django视图层:视图函数、视图类
  10. # 异运算_一年级数学:3000道20内纯进、退位口算题,每天100道日新又月异
  11. Vue-Plugin开发插件
  12. 图像形状特征(一)--FD
  13. python编程教学软件-B站最受欢迎的Python教程,免费教学视频可以下载了
  14. 庄子梦游记之办公室有“云”
  15. JavaScript之E-mail 地址格式验证
  16. Enzo高灵敏度检测——Arg8-Vasopressin ELISA kit
  17. 人脸识别摄像头开发板和模组选型
  18. dlib检测人脸landmarks
  19. Spring源码解析【完整版】--【bilibili地址:https://www.bilibili.com/video/BV1oW41167AV】
  20. MySQL 数据库单表查询——高级查询

热门文章

  1. Unix/Linux下的Curses库开发指南——第一章 Curses库开发简介
  2. python windows curses库安装教程
  3. Android的Activity之生命周期
  4. php socket 介绍
  5. Feng Shui POJ - 3384
  6. 匈牙利命名法(Hungarian)
  7. 选中DataGridView行,将数据返填到TextBox控件
  8. (二)进程管理之进程状态及组织方式
  9. 转战pytorch(3)——跟上脚步(以Albert为例)
  10. AngularJs实现增加订单、批量发货