pyhton 网络爬取软考题库保存text
#-*-coding:utf-8-*-#参考文档#https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html#find-allimport requestsimport refrom bs4 import BeautifulSouphtml = requests.get('https://m.cnitpm.com/exam/ExamST1_1031655.htm/')soup = BeautifulSoup(html.text,'lxml')ulTag=soup.find_all('ul','tit')#计数器每次调用加1def create_counter():def increase(): #定义一个还有自然数算法的生成器,企图使用next来完成不断调用的递增 n = 0 while True: n = n+1 yield n it = increase() #一定要将生成器转给一个(生成器)对象,才可以完成,笔者第一次做,这里一直出问题, def counter(): #再定义一内函数 return next(it) #调用生成器的值,每次调用均自增 return countercounter_ = create_counter() #用变量来指向(闭包函数返回的函数)#保存文件def save(filename, contents):#print(counter_()) fh = open(filename, 'a+', encoding='utf-8')#print(str(counter_())+contents.strip()+'\n') fh.write(str(counter_())+'、'+contents.strip()+'\n') fh.close() ###################################网络爬取页面分析for item in ulTag: a_temp=item.find_all('a')#print(a_temp) for aitem in a_temp:#print (aitem.get('href')) html2 = requests.get(aitem.get('href'))#解决乱码问题 html2.encoding = 'utf-8' soup2 = BeautifulSoup(html2.text, 'lxml') divTag = soup2.find_all('div', 'tm-box')for divitem in divTag:#print(divitem.get_text()) #保存到文档 save('G:/aa/qa.txt',divitem.get_text())#print(divTag.replace('[<div class="tm-box">', ''))
转载于:https://www.cnblogs.com/xiaweifeng/p/10364398.html
pyhton 网络爬取软考题库保存text相关推荐
- python爬取学校题库_pyhton 网络爬取软考题库保持txt
#-*-coding:utf-8-*- #参考文档 #https://www.crummy.com/software/beautifulsoup/bs4/doc/index.zh.html#find- ...
- jsoup爬取驾考题库
为了课程设计准备数据,爬取驾考的题库,包括题目.选项.答案.解析.图片 模型:Question @Entity public class Question {private int id;priva ...
- python爬虫requests实战_Python爬虫之requests库网络爬取简单实战
实例1:直接爬取网页 实例2 : 构造headers,突破访问限制,模拟浏览器爬取网页 实例3 : 分析请求参数,构造请求参数爬取所需网页 实例4: 爬取图片 实例5: 分析请求参数,构造请求参数爬取 ...
- python每隔一段时间保存网页内容_利用Python轻松爬取网页题库答案!教孩子不怕尴尬了!...
大家有没有遇到这种令人尴尬的情况:"好不容易在网上找到需要的资源数据,可是不容易下载下来!"如果是通过一页一页的粘贴复制来下载,真的让人难以忍受,特别是像我这种急性子,真得会让人窒 ...
- 使用bs4爬取软科大排名并保存在数据库
1.使用bs4爬取软科大排名,首先我们要使用到三个库文件,requests库.bs4和pymysql: 2.获取网页 #获取网页 def getHTMLText(url):#获取URL信息,输出内容t ...
- Python爬虫练习:爬取软科世界大学学术排名
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于云边镇 ,作者花花 前言 软科世界大学学术排名(ShanghaiRa ...
- Python爬虫练习笔记——爬取一本小说并保存为txt文件
最近竟然开始磕起了黄晓明和尹正的CP!!! 但是万恶的爱某艺不好好更新剧集,居然搞起了超前点映- WTF???有什么是我这个贫穷而又尊贵的VIP用户不能看的吗??? 于是我决定开始看小说了!找个网站把 ...
- 爬虫实战|从笔趣阁爬取书籍并简单保存
最近在看崔庆才那本经典的爬虫开发书籍,之前虽然看过一点视频,但是与书籍相比还是书籍更加成体系,让我对知识有一个宏观的把控.目前已经看了前四章,了解了一些基础知识和如何解析数据的方法,但是对于数据的保存 ...
- python爬取学校题库_利用Python轻松爬取网页题库答案!教孩子不怕尴尬了!
大家有没有遇到这种令人尴尬的情况:"好不容易在网上找到需要的资源数据,可是不容易下载下来!"如果是通过一页一页的粘贴复制来下载,真的让人难以忍受,特别是像我这种急性子,真得会让人窒 ...
最新文章
- 《Haskell并行与并发编程》——第2章,第2.1节惰性求值和弱首范式
- 记一次suse linux崩溃
- 分布式和集群的概念和区别
- flash 异常修复:QQ 的 flash 图标显示异常?QQ 秀、表情加载异常?一招解决
- jsp中获取list长度
- 转载JNI(Windows)
- Android Studio使用jni、so库
- Bugfree 搭建
- 【EF】Entity Framework Core 2.0 特性介绍和使用指南
- zabbix安装详解
- [SQL]数据分析SQL笔试题
- 主机宝iis版_主机宝iis版下载|
- 华为mate7 刷机出现android,华为Mate7怎么刷机 华为Mate7刷机教程【步骤详解】
- 2021-2027全球与中国锁模激光器市场现状及未来发展趋势
- RHEL8破解root密码
- postgreSql连接报不支持10验证类型
- altf4不管用.是因为未使用内置管理员账户.
- 2022-11 | Redis命令SET SETEX SETNX语法及描述
- Bingo说说:如何选对赚钱项目?3招教你不再迷茫
- 统一JAVA软件开发规范