使用到的库:

  1. BeautifulSoup 网页解析,查找网页内容
  2. openpyxl excel 文件的读写
  3. xlwt 此库只能用来创建写入新的excel 表
import requests
from bs4 import BeautifulSoup
from openpyxl import load_workbook
import xlwtheaders = {"User-Agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 13_2_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version /13.0.3 Mobile/15E148 Safari/604.1","Connection": "keep-alive"
}# 第一步:从网站的目录页,获取每篇文章的标题和链接(总共3页)
data= []
for i in range (1,4):url_set ='https://cn.ecbos.com/insights_' + str(i) +'.html'html = requests.get(url_set,headers)soup = BeautifulSoup(html.content,"lxml")data += soup.findAll('a',class_ = 'New-list-session-header')  # 第二步:创建一个新的excel,工作表,并设置前三列的表头
work_book = xlwt.Workbook(encoding='utf-8')
sheet = work_book.add_sheet('环保法规专家观点')
sheet.write(0,0,'文章标题')
sheet.write(0,1,'地址链接')
sheet.write(0,1,'文章内容')# 第三步:把第一步获取到的data 信息循环写入到sheet 表中
row_num = 1
for item in data:title = item.getText()url = item.get('href')sheet.write(row_num,0,title)sheet.write(row_num,1,url)row_num += 1 # 第四步:将工作表,excel文件,保存到本地路径
file_name = r'D:\阿里云天池\爬虫\环保法规爬虫\data.xlsx'
work_book.save(file_name)


第二阶段:根据搜集到的地址链接,爬取对应的文章内容

import requests
from bs4 import BeautifulSoup
from openpyxl import load_workbook# 第一步:读取本地的EXCEL文件
file_name =  r'D:\阿里云天池\爬虫\环保法规爬虫\data.xlsx'
workbook = load_workbook(file_name)
sheet_1 = workbook.get_sheet_by_name('环保法规专家观点')headers = {"User-Agent": "Mozilla/5.0 (iPad; CPU OS 11_0 like Mac OS X) AppleWebKit/604.1.34 (KHTML, like Gecko) Version/11.0 Mobile/15A5341f Safari/604.1",'Connection':'close'
}# 第二步:定义函数(爬取text,写入到sheet表的第三列)
def get_text():html = requests.get(url,headers)soup = BeautifulSoup(html.content,'html.parser')data=soup.findAll('p')text ='' for item in data:text +=item.getText()sheet_1.cell(i,3,text)# 第三步:主要框架
row_num = sheet_1.max_row
for i in range(2,row_num+1):label = sheet_1.cell(i,2).value       #循环读取sheet表第二列的值url = 'https://cn.ecbos.com' + label  #构造URL 地址get_text()    #调用爬虫函数
workbook.save(file_name)

python 爬虫+写入excel 小案例相关推荐

  1. python抓取html写进excel,python爬虫写入excel

    python爬虫数据怎么排列好后存储到本地excel 爬虫我也是接触了1个月,从python小白到现在破译各种反爬虫机制,我给你说说我的方向: 学习使用解析网页的函数,例如: import urlli ...

  2. python爬虫__简单小案例

    手把手教你,Python爬取招聘信息.一学就会,一写就废. 零基础的同学也能上手的,简单详细的python爬虫教学,也是经验的分享. 话不多说我们直接进入主题. 本次用到的python爬虫第三方库. ...

  3. 【爬虫】利用Python爬虫爬取小麦苗itpub博客的所有文章的连接地址并写入Excel中(2)...

    [爬虫]利用Python爬虫爬取小麦苗itpub博客的所有文章的连接地址并写入Excel中(2) 第一篇( http://blog.itpub.net/26736162/viewspace-22865 ...

  4. 通过opencv标记图片以及写入Excel小方法

    通过opencv标记图片以及写入Excel小方法 通过opencv根据坐标绘制图片框,然后保存图片 将结果读入并且写入Excel中进行保存 Python strip() 方法用于移除字符串头尾指定的字 ...

  5. Python爬虫之Js逆向案例(2)-某乎搜索

    Python爬虫之Js逆向案例(2)-知乎搜索 声明:某乎加密逆向分析仅用于研究和学习 大家好,今天继续分享关于某乎关键词搜索接口为案例的Js逆向实战.如果你是一名新手,而且还没有来得及看上一篇< ...

  6. python 写入excel数字格式,怎么在Python中写入Excel的格式

    怎么在Python中写入Excel的格式 发布时间:2021-03-12 17:02:25 来源:亿速云 阅读:77 作者:Leah 这期内容当中小编将会给大家带来有关怎么在Python中写入Exce ...

  7. python爬虫破解字体加密案例

    python爬虫破解字体加密案例 本次案例以爬取起小点小说为例 案例目的: 通过爬取起小点小说月票榜的名称和月票数,介绍如何破解字体加密的反爬,将加密的数据转化成明文数据. 程序功能: 输入要爬取的页 ...

  8. python爬虫入门 - 代码、案例集合

    python爬虫入门 - 代码.案例集合 资源案例 · 统计 · 如下: 10个Python爬虫入门实例 以上就是关于"python爬虫入门 - 代码.案例集合"的全部内容.

  9. python摇骰子游戏小案例

    python摇骰子游戏小案例 小案例: import random#充值函数 def topup():global moneyn = input('充值金额(100元等于30个金币充值金额不低于100 ...

  10. python爬虫实战——猫眼电影案例

    python爬虫实战--猫眼电影案例 ·背景   笔者上一篇文章<基于猫眼票房数据的可视化分析>中爬取了猫眼实时票房数据,用于展示近三年电影票房概况.由于数据中缺少导演/演员/编剧阵容等信 ...

最新文章

  1. Windows 消息循环(1) - 概览
  2. 获国家杰青的北大教授,被985本科生嫌弃本科学校太差!被网友怒怼!
  3. Android 图像合成技术Xformodes图片剪裁
  4. 算子find_shpe_model参数详解
  5. 148. Leetcode 455. 分发饼干 (贪心算法-基础题目)
  6. Emacs高亮设置:Hi-Lock mode笔记
  7. linux周期记录内存信息,linux top显示信息详解
  8. python 美化输出_python基础_格式化输出(%用法和format用法)
  9. Linux配置IP常用命令
  10. EXPORT_SYMBOL使用
  11. disperse函数 C语言,武汉工业学院电气1006班C语言测试题.doc
  12. Android 系统(47)Android.mk的用法和基础
  13. 前端python与php_WEB前端、PHP、python这三个学习哪一个比较好?
  14. mysql 双主 脑裂_MySQL 高可用性keepalived+mysql双主
  15. 如何便捷的获取AD(Altium Designer)封装、以及如何从PCB工程中导出封装库、封装库安装
  16. java递归算法的实例最细讲解
  17. 睿智的目标检测37——TF2搭建SSD目标检测平台(tensorflow2)
  18. 数据结构之什么是数组?
  19. 安卓点击跳转到微信公众号
  20. 计算机应用技术题,计算机应用技术复习题.doc

热门文章

  1. 让电视走向高端化,创维能否继续领跑显示行业?
  2. 声学模型训练-嵌入式训练
  3. 水波纹特效怎么制作?这波水波纹特效拉动满满复古感
  4. html学习——介绍
  5. spring-cloud-starter-bus-kafka利用kafka消息总线实现动态刷新配置
  6. 数模技术转换应用于计算机控制,数模转换器的作用
  7. android动态style,Android控件动态设置style的问题
  8. 帧率FPS,屏幕刷新频率赫兹Hz
  9. SmartGit同步更新本地仓库与远程仓库(origin)以及提交请求到forked过来的源仓库(upstream)
  10. mysql 执行delete引发死锁问题