pyhton 网络爬取软考题库保存text

#-*-coding:utf-8-*-#参考文档#https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html#find-allimport requestsimport refrom bs4 import BeautifulSouphtml = requests.get('https://m.cnitpm.com/exam/ExamST1_1031655.htm/')soup = BeautifulSoup(html.text,'lxml')ulTag=soup.find_all('ul','tit')#计数器每次调用加1def create_counter():def increase(): #定义一个还有自然数算法的生成器,企图使用next来完成不断调用的递增 n = 0 while True: n = n+1 yield n it = increase() #一定要将生成器转给一个(生成器)对象,才可以完成,笔者第一次做,这里一直出问题, def counter(): #再定义一内函数 return next(it) #调用生成器的值,每次调用均自增 return countercounter_ = create_counter() #用变量来指向(闭包函数返回的函数)#保存文件def save(filename, contents):#print(counter_()) fh = open(filename, 'a+', encoding='utf-8')#print(str(counter_())+contents.strip()+'\n') fh.write(str(counter_())+'、'+contents.strip()+'\n') fh.close()

###################################网络爬取页面分析for item in ulTag: a_temp=item.find_all('a')#print(a_temp) for aitem in a_temp:#print (aitem.get('href')) html2 = requests.get(aitem.get('href'))#解决乱码问题 html2.encoding = 'utf-8' soup2 = BeautifulSoup(html2.text, 'lxml') divTag = soup2.find_all('div', 'tm-box')for divitem in divTag:#print(divitem.get_text()) #保存到文档 save('G:/aa/qa.txt',divitem.get_text())#print(divTag.replace('[<div class="tm-box">', ''))

转载于:https://www.cnblogs.com/xiaweifeng/p/10364398.html

pyhton 网络爬取软考题库保存text相关推荐

python爬取学校题库_pyhton 网络爬取软考题库保持txt
#-*-coding:utf-8-*- #参考文档 #https://www.crummy.com/software/beautifulsoup/bs4/doc/index.zh.html#find- ...
jsoup爬取驾考题库
为了课程设计准备数据,爬取驾考的题库,包括题目.选项.答案.解析.图片模型:Question @Entity public class Question {private int id;priva ...
python爬虫requests实战_Python爬虫之requests库网络爬取简单实战
实例1:直接爬取网页实例2 : 构造headers,突破访问限制,模拟浏览器爬取网页实例3 : 分析请求参数,构造请求参数爬取所需网页实例4: 爬取图片实例5: 分析请求参数,构造请求参数爬取 ...
python每隔一段时间保存网页内容_利用Python轻松爬取网页题库答案！教孩子不怕尴尬了！...
大家有没有遇到这种令人尴尬的情况:"好不容易在网上找到需要的资源数据,可是不容易下载下来!"如果是通过一页一页的粘贴复制来下载,真的让人难以忍受,特别是像我这种急性子,真得会让人窒 ...
使用bs4爬取软科大排名并保存在数据库
1.使用bs4爬取软科大排名,首先我们要使用到三个库文件,requests库.bs4和pymysql: 2.获取网页 #获取网页 def getHTMLText(url):#获取URL信息,输出内容t ...
Python爬虫练习：爬取软科世界大学学术排名
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理以下文章来源于云边镇 ,作者花花前言软科世界大学学术排名(ShanghaiRa ...
Python爬虫练习笔记——爬取一本小说并保存为txt文件
最近竟然开始磕起了黄晓明和尹正的CP!!! 但是万恶的爱某艺不好好更新剧集,居然搞起了超前点映- WTF???有什么是我这个贫穷而又尊贵的VIP用户不能看的吗??? 于是我决定开始看小说了!找个网站把 ...
爬虫实战|从笔趣阁爬取书籍并简单保存
最近在看崔庆才那本经典的爬虫开发书籍,之前虽然看过一点视频,但是与书籍相比还是书籍更加成体系,让我对知识有一个宏观的把控.目前已经看了前四章,了解了一些基础知识和如何解析数据的方法,但是对于数据的保存 ...
python爬取学校题库_利用Python轻松爬取网页题库答案！教孩子不怕尴尬了！
大家有没有遇到这种令人尴尬的情况:"好不容易在网上找到需要的资源数据,可是不容易下载下来!"如果是通过一页一页的粘贴复制来下载,真的让人难以忍受,特别是像我这种急性子,真得会让人窒 ...

pyhton 网络爬取软考题库保存text

pyhton 网络爬取软考题库保存text相关推荐

最新文章

热门文章