#-*-coding:utf-8-*-#参考文档#https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html#find-allimport requestsimport refrom bs4 import BeautifulSouphtml = requests.get('https://m.cnitpm.com/exam/ExamST1_1031655.htm/')soup = BeautifulSoup(html.text,'lxml')ulTag=soup.find_all('ul','tit')#计数器每次调用加1def create_counter():def increase(): #定义一个还有自然数算法的生成器,企图使用next来完成不断调用的递增 n = 0 while True: n = n+1 yield n it = increase() #一定要将生成器转给一个(生成器)对象,才可以完成,笔者第一次做,这里一直出问题, def counter(): #再定义一内函数 return next(it) #调用生成器的值,每次调用均自增 return countercounter_ = create_counter() #用变量来指向(闭包函数返回的函数)#保存文件def save(filename, contents):#print(counter_()) fh = open(filename, 'a+', encoding='utf-8')#print(str(counter_())+contents.strip()+'\n') fh.write(str(counter_())+'、'+contents.strip()+'\n') fh.close()

###################################网络爬取页面分析for item in ulTag: a_temp=item.find_all('a')#print(a_temp) for aitem in a_temp:#print (aitem.get('href')) html2 = requests.get(aitem.get('href'))#解决乱码问题 html2.encoding = 'utf-8' soup2 = BeautifulSoup(html2.text, 'lxml') divTag = soup2.find_all('div', 'tm-box')for divitem in divTag:#print(divitem.get_text()) #保存到文档 save('G:/aa/qa.txt',divitem.get_text())#print(divTag.replace('[<div class="tm-box">', ''))

转载于:https://www.cnblogs.com/xiaweifeng/p/10364398.html

pyhton 网络爬取软考题库保存text相关推荐

  1. python爬取学校题库_pyhton 网络爬取软考题库保持txt

    #-*-coding:utf-8-*- #参考文档 #https://www.crummy.com/software/beautifulsoup/bs4/doc/index.zh.html#find- ...

  2. jsoup爬取驾考题库

    为了课程设计准备数据,爬取驾考的题库,包括题目.选项.答案.解析.图片 模型:Question  @Entity public class Question {private int id;priva ...

  3. python爬虫requests实战_Python爬虫之requests库网络爬取简单实战

    实例1:直接爬取网页 实例2 : 构造headers,突破访问限制,模拟浏览器爬取网页 实例3 : 分析请求参数,构造请求参数爬取所需网页 实例4: 爬取图片 实例5: 分析请求参数,构造请求参数爬取 ...

  4. python每隔一段时间保存网页内容_利用Python轻松爬取网页题库答案!教孩子不怕尴尬了!...

    大家有没有遇到这种令人尴尬的情况:"好不容易在网上找到需要的资源数据,可是不容易下载下来!"如果是通过一页一页的粘贴复制来下载,真的让人难以忍受,特别是像我这种急性子,真得会让人窒 ...

  5. 使用bs4爬取软科大排名并保存在数据库

    1.使用bs4爬取软科大排名,首先我们要使用到三个库文件,requests库.bs4和pymysql: 2.获取网页 #获取网页 def getHTMLText(url):#获取URL信息,输出内容t ...

  6. Python爬虫练习:爬取软科世界大学学术排名

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于云边镇 ,作者花花 前言 软科世界大学学术排名(ShanghaiRa ...

  7. Python爬虫练习笔记——爬取一本小说并保存为txt文件

    最近竟然开始磕起了黄晓明和尹正的CP!!! 但是万恶的爱某艺不好好更新剧集,居然搞起了超前点映- WTF???有什么是我这个贫穷而又尊贵的VIP用户不能看的吗??? 于是我决定开始看小说了!找个网站把 ...

  8. 爬虫实战|从笔趣阁爬取书籍并简单保存

    最近在看崔庆才那本经典的爬虫开发书籍,之前虽然看过一点视频,但是与书籍相比还是书籍更加成体系,让我对知识有一个宏观的把控.目前已经看了前四章,了解了一些基础知识和如何解析数据的方法,但是对于数据的保存 ...

  9. python爬取学校题库_利用Python轻松爬取网页题库答案!教孩子不怕尴尬了!

    大家有没有遇到这种令人尴尬的情况:"好不容易在网上找到需要的资源数据,可是不容易下载下来!"如果是通过一页一页的粘贴复制来下载,真的让人难以忍受,特别是像我这种急性子,真得会让人窒 ...

最新文章

  1. 《Haskell并行与并发编程》——第2章,第2.1节惰性求值和弱首范式
  2. 记一次suse linux崩溃
  3. 分布式和集群的概念和区别
  4. flash 异常修复:QQ 的 flash 图标显示异常?QQ 秀、表情加载异常?一招解决
  5. jsp中获取list长度
  6. 转载JNI(Windows)
  7. Android Studio使用jni、so库
  8. Bugfree 搭建
  9. 【EF】Entity Framework Core 2.0 特性介绍和使用指南
  10. zabbix安装详解
  11. [SQL]数据分析SQL笔试题
  12. 主机宝iis版_主机宝iis版下载|
  13. 华为mate7 刷机出现android,华为Mate7怎么刷机 华为Mate7刷机教程【步骤详解】
  14. 2021-2027全球与中国锁模激光器市场现状及未来发展趋势
  15. RHEL8破解root密码
  16. postgreSql连接报不支持10验证类型
  17. altf4不管用.是因为未使用内置管理员账户.
  18. 2022-11 | Redis命令SET SETEX SETNX语法及描述
  19. Bingo说说:如何选对赚钱项目?3招教你不再迷茫
  20. 统一JAVA软件开发规范

热门文章

  1. RGB565部分常用颜色对照表
  2. MIT Mini Cheetah--仿真流程
  3. 快速查询多个圆通快递未签收单号的走件信息
  4. 邓俊辉 数据结构 优先级队列
  5. 河南二级分销系统开发|二级分销是如何分佣的?
  6. 于博士信号完整性揭秘知识点总结
  7. 西门子bop20显示电流_SIEMENS/西门子BOP20基本操作员面板使用方法说明
  8. 逆向知识之CS辅助/外挂专题.2.实现CS1.6无限夜视仪.无限闪光烟雾高爆弹.
  9. 建筑平面布置与防火防烟分区(一)
  10. C++数组能开多大?