爬取网站为:豆瓣链接

from bs4 import BeautifulSoup
import requests
from openpyxl import Workbook
excel_name = "书籍.xlsx"
wb = Workbook()
ws1 = wb.active     #获取这个工作簿
ws1.title='书籍'def get_html(url):header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:47.0) Gecko/20100101 Firefox/47.0'}html = requests.get(url, headers=header).contentreturn htmldef get_con(html):soup = BeautifulSoup(html,'html.parser')book_list = soup.find('div', attrs={'class': 'article'})   # html 229 到  1742行page = soup.find('div', attrs={'class': 'paginator'})# 运行结果<a href="https://book.douban.com/top250?start=25">后页&gt;</a>next_page = page.find('span', attrs={'class': 'next'}).find('a')name = []for i in book_list.find_all('table'):  #tabel里还是主要美内容book_name = i.find('div', attrs={'class': 'pl2'})m = list(book_name.find('a').stripped_strings)#stripped_strings 获取标签下的所有非标签字符串,并剔除空白字符,返回生成器,提取出了书名name.append(m[0])print(m[0])if next_page:#next_page.get('href')#<a href="https://book.douban.com/top250?start=25">后页&gt;</a>#获得到https://book.douban.com/top250?start=25return name, next_page.get('href')else:return name, Nonedef main():url = 'https://book.douban.com/top250'name_list=[]while url:html = get_html(url)name, url = get_con(html)name_list = name_list + namefor i in name_list:                             #将列表中的元素拆分location = 'A%s'%(name_list.index(i)+1)ws1[location]=iwb.save(filename=excel_name)if __name__ == '__main__':main()

运行结束会在桌面生成书籍.xlsx
如下:

豆瓣top250图书爬取相关推荐

  1. qt爬取网页信息_豆瓣TOP250数据爬取

    一.问题描述 用python爬取网页数据是现在流行的一种快速获取数据的方法,简单快捷.最近小编通过教程学习完成了豆瓣TOP250数据的爬取.下面就简单介绍一下如何用python程序实现豆瓣网页信息的爬 ...

  2. 爬虫——豆瓣top250电影爬取实验

    1.获取头部 我们首先需要去到目标网址豆瓣top250上,点开'检查'选项,获取头部信息,具体见下图: 我们赋值user-agent和host的信息,这是一个爬虫隐身的最好方法. 于是有以下代码: h ...

  3. Python爬虫入门 | 4 爬取豆瓣TOP250图书信息

      先来看看页面长啥样的:https://book.douban.com/top250   我们将要爬取哪些信息:书名.链接.评分.一句话评价--   1. 爬取单个信息 我们先来尝试爬取书名,利用之 ...

  4. 豆瓣电影Top250信息爬取并保存到excel文件中

    豆瓣电影Top250下载并保存到excel文件中 效果图 前言 确定目标网页url 爬取过程 导入相关库 页面内容的获取 页面解析 数据提取 主函数的编写 函数调用 数据存储 完整代码 结语 效果图 ...

  5. 用python,flask,echarts实现豆瓣读书top250的爬取及可视化大屏

    好的,我来为你讲解如何使用 Python.Flask 和 Echarts 实现豆瓣读书 Top250 的爬取和可视化大屏. 首先,你需要在你的电脑上安装 Python 和 Flask,并使用 pip ...

  6. python爬虫 豆瓣影评的爬取cookies实现自动登录账号

    python爬虫 豆瓣影评的爬取cookies实现自动登录账号 频繁的登录网页会让豆瓣锁定你的账号-- 网页请求 使用cookies来实现的自动登录账号,这里的cookies因为涉及到账号我屏蔽了,具 ...

  7. JAVA爬虫(一):豆瓣电影排行榜爬取

    JAVA爬虫(一):豆瓣电影排行榜爬取 前言 流程图 步骤 一.爬取豆瓣电影榜单网页源代码 二.网页源码解析 三.爬取单个电影网页源码 四.源代码解析及关键信息获取 前言 最近和大创队友一起给大创做的 ...

  8. 豆瓣电影影评爬取---最受欢迎的影评[xpath语法]

    豆瓣电影影评爬取---最受欢迎的影评[xpath语法] 1.基础环境配置: requests-->版本:2.12.4 lxml-->版本:3.7.2 2.爬取网址:https://movi ...

  9. python爬虫实现豆瓣数据的爬取

    本文利用urllib在python3.7的环境下实现豆瓣页面的爬取! 用到的包有urllib与re两个模块,具体实现如下! import urllib.request import re import ...

最新文章

  1. Acwing--单调栈
  2. 让瓶颈暴露--监测你的SQL SERVER
  3. mysql-自动备份数据库服务
  4. directshow怎样打开摄像头不预览只抓帧_不比不知道,一比还真有差距!四款高性价比家庭智能摄像头对比...
  5. css盒子模型、文档流、相对与绝对定位、浮动与清除模型
  6. opencv python 图像测试上采样(升采样)(cv2.pyrUp()) 下采样(cv2.pyrDown()) 池化 滑动窗口(BorderTypes)
  7. TMG学习(十一),保护企业内网上网安全
  8. 解决鼠标滚动的时候多次执行函数
  9. mysql install and config
  10. Django的url别名功能的使用
  11. Eclipse配置使用SVN插件
  12. 2020.8.2- 参加华数之星数学比赛 银奖(二等奖)
  13. 获取局域网电脑的硬件配置
  14. ROS学习之error解决记录
  15. 网易博客中的心情随笔
  16. 微信小程序 教学质量问卷调查 小程序实现
  17. pkpm板按弹性计算还是塑性_请教:筏板是按弹性算法?还是塑性算法?那个好些?...
  18. 单向链表和双向链表的优缺点及使用场景
  19. 【Codecs系列】颜色空间转换CSconvert:NV21转BGR24和BGR24转NV21
  20. 要闻君说:必应(Bing)搜索引擎已在国内被屏蔽;Verizon媒体业务宣布裁员7%;小米率先发布折叠屏手机...

热门文章

  1. 数据库sql语句面试题
  2. 【从零开始】手写数字识别降维可视化学习笔记
  3. 一般硬盘读取速度和写入速度是多少
  4. Python 画玫瑰花
  5. Python+Fiddler5带你爬取6000+高清王者荣耀cosplay图
  6. 微信小程序--分享并设置分享链接的有效时间
  7. 浅聊前端程序员,后端程序员,全栈程序员的工作
  8. 提高项目10-编制三角函数表
  9. NYOJ-110-剑客决斗
  10. android apk 永久root,Android 实现永久性开启adb 的root权限