1.访问菜鸟教程(https://www.runoob.com),爬取其Python3实例模块的题目内容,要求输出格式如下图所示。

import requests
from lxml import etree
import time# 获取题目链接
url = 'https://www.runoob.com/python3/python3-examples.html'
web_data = requests.get(url)
dom = etree.HTML(web_data.text, etree.HTMLParser(encoding='utf-8'))  # 网页解析
exerciseList= dom.xpath('//div[@id="content"]/ul/li/a/text()')       # 练习题名称
urlList= dom.xpath('//div[@id="content"]/ul/li/a/@href')             # 练习题超链接
urlList = ['/python3/'+i  if '/python3/' not in i else i for i in urlList ]
urlList = ['https://www.runoob.com' + i if 'www.runoob.com/' not in i else 'https:'+i for i in urlList]   exerciseString = '\n'.join(exerciseList)      # 将练习题名称拼接成一个字符串
with open('exercisePython.txt', 'w') as f:f.write(exerciseString)
#爬取题目数据及整理写出
resultList = []
for url in urlList:web_data = requests.get(url)dom = etree.HTML(web_data.text, etree.HTMLParser(encoding='utf-8'))  # 网页源码解析# 获取题目及答案title = dom.xpath('string(//div[@id="content"]/h1)')       # 练习题名称content = dom.xpath('string(//div[@id="content"]/p[2])')   # 练习题描述内容code = dom.xpath('string(//div[@id="content"]//div[@class="example"]//div[@class="hl-main"])')  # 练习题答案result = dom.xpath('string(//div[@id="content"]/p[3])')    # 结果描述output = dom.xpath('string(//div[@id="content"]/pre)')     # 目标输出res = title + '\n' + content+ '\n'   # 将内容进行拼接resultList.append(res)time.sleep(1)print(url, '\n', res)
mid = resultList.copy()
for i in range(len(mid)):mid[i] = str(i+1)+'、'+ mid[i]  # 加入题目序号
with open('Python编程基础上机题库1.txt', 'w', encoding='utf-8') as f:f.write('\n'.join(mid))         # 将数据写出

技能兴鲁试题--爬取菜鸟教程相关推荐

  1. python 爬取菜鸟教程python100题,百度贴吧图片反爬虫下载,批量下载

    每天一点点,记录学习 python 爬取菜鸟教程python100题 近期爬虫项目,看完请点赞哦: 1:python 爬取菜鸟教程python100题,百度贴吧图片反爬虫下载,批量下载 2:pytho ...

  2. python网页爬虫菜鸟教程_Python 爬取菜鸟教程(www.runoob.com)内容。并保在本地(html格式/pdf格式)...

    最近在开始学Python 也想着做个爬虫玩玩 之前学习(php,jquery...)的时候,经常去菜鸟教程看.索性就将其教程爬下来(打印出来)翻阅起来更有感觉. 好了废话不多说先讲讲我的思路: 首先先 ...

  3. 技能兴鲁试题--数据分析挖掘

    三.电力数据分析与挖掘.数据data_etr.csv为用户用电量数据,数据中有编号为1-200的200位电力用户,DATA_DATE表示时间,如2015/1/1表示2015年1月1日,KWH为用电量. ...

  4. 技能兴鲁试题--可视化

    四.股票数据可视化,完成以下问题: 1.文件读取及数据查看: 2.提取股票代号600000在2017年1月3日至2017年1月20日的收盘价格数据,并绘制股票价格走势图进行分析; 3.提取股票代号60 ...

  5. 山东省技能兴鲁职业技能竞赛-人工智能工程技术人员

    目录 山东省技能兴鲁职业技能竞赛-人工智能工程技术人员 http://www.mostsd.com/page/news/informNoticeDetail.html?id=014aef9bda8e4 ...

  6. 临沂大学张继群-智慧农业项目招募,第一届中国新型智慧城市创新应用大赛- 智诚奖,山东省总工会创业创新大赛,技能兴鲁职业技能大赛三等奖,全国创青春挑战杯大赛三等奖,中国创翼-担保集团杯暨临沂市创业创新大

    目录 一.自我介绍 二.新学期目标 三.未来的发展规划(可以具体写写) 一.自我介绍 硕士在读,曾在北京百思佳购科技有限公司担任Android事业六部项目经理.主要从事网络安全.云计算与大数据等新一代 ...

  7. 山东省技能兴鲁大数据赛项

    一.大数据平台组件搭建. 要求在Hadoop集群上搭建1.6.3版本的Spark分布式集群.(提示如下,注意每一步骤的代码与结果需截图在报告中体现) 1.Spark安装包处理,解压到/usr/loca ...

  8. 从网页中读取数据 python_数据分析硬核技能:用 Python 爬取网页

    我作为数据科学家的第一个任务,就是做网页爬取.那时候,我对使用代码从网站上获取数据这项技术完全一无所知,它偏偏又是最有逻辑性并且最容易获得的数据来源.在几次尝试之后,网页爬取对我来说就几乎是种本能行为 ...

  9. python beautiful soup 标签完全相同_Python爬取Python教程并制作成pdf

    欢迎点击右上角关注小编,除了分享技术文章之外还有很多福利,私信学习资料可以领取包括不限于Python实战演练.PDF电子文档.面试集锦.学习资料等. 想要把教程变成PDF有三步: 1.先生成空html ...

最新文章

  1. 机器学习的教训:5家公司分享的错误经验
  2. 有关rsync的一些语句
  3. 定时器里面的作用域问题
  4. protoc.exe java_protobuf java 使用 window
  5. 【数字逻辑设计】Logisim构建四位行波进位加法器
  6. HTML5新特性基础学习笔记下
  7. node-webkit学习(4)Native UI API 之window
  8. (43)FPGA面试题JTAG接口信号及功能
  9. 网络工程师Day7--本地AAA配置
  10. eclips 创建 maven项目
  11. POJ 1125 Stockbroker Grapevine
  12. hive三种建表语句
  13. 如何用计算机算cos角度,如何将cosα值换算成角度
  14. 互联网公司招聘--人人网--产品岗-2015年笔试题
  15. Blue Coat让企业在降低风险的同时利用网络应用程序
  16. CS,四,组网及因特网
  17. 静态方法能被重写么?
  18. MySQL之——崩溃-修复损坏的innodb:innodb_force_recovery
  19. 攻防世界Web:leaking
  20. android xmlpullparser 编译出错,将Android支持库更新为23.2.0导致错误:XmlPullParserException...

热门文章

  1. 奔腾微型计算机的字长,目前流行的Pentium(奔腾)微机的字长是
  2. TCP、UDP网络编程面试题
  3. 5年内禁用支付宝和微信支付!多地公安出手:这些人摊上大事了
  4. 男人在神永恒国度里的沉思录
  5. html盒子模型图片居中,html学习笔记(img+body+盒子模型+块级元素居中+margi塌陷+float+文字围绕、打点)...
  6. 在XShell中修改ip为静态ip
  7. 《Python程序设计与算法基础教程(第二版)》江红 余青松,第十章课后习题答案
  8. 井号法(#)创建二叉树(利用前序遍历来建树)C++实现
  9. 产业研发用房是什么意思_和谷山汇城是什么项目哦?和谷山汇城的产业研发用房值得买吗?...
  10. Could not transfer artifact (https://repo.maven.apache.org/maven2): Received fatal alert: protocol_v