豆瓣top250图书爬取

爬取网站为：豆瓣链接

from bs4 import BeautifulSoup
import requests
from openpyxl import Workbook
excel_name = "书籍.xlsx"
wb = Workbook()
ws1 = wb.active     #获取这个工作簿
ws1.title='书籍'def get_html(url):header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:47.0) Gecko/20100101 Firefox/47.0'}html = requests.get(url, headers=header).contentreturn htmldef get_con(html):soup = BeautifulSoup(html,'html.parser')book_list = soup.find('div', attrs={'class': 'article'})   # html 229 到  1742行page = soup.find('div', attrs={'class': 'paginator'})# 运行结果<a href="https://book.douban.com/top250?start=25">后页&gt;</a>next_page = page.find('span', attrs={'class': 'next'}).find('a')name = []for i in book_list.find_all('table'):  #tabel里还是主要美内容book_name = i.find('div', attrs={'class': 'pl2'})m = list(book_name.find('a').stripped_strings)#stripped_strings 获取标签下的所有非标签字符串，并剔除空白字符，返回生成器,提取出了书名name.append(m[0])print(m[0])if next_page:#next_page.get('href')#<a href="https://book.douban.com/top250?start=25">后页&gt;</a>#获得到https://book.douban.com/top250?start=25return name, next_page.get('href')else:return name, Nonedef main():url = 'https://book.douban.com/top250'name_list=[]while url:html = get_html(url)name, url = get_con(html)name_list = name_list + namefor i in name_list:                             #将列表中的元素拆分location = 'A%s'%(name_list.index(i)+1)ws1[location]=iwb.save(filename=excel_name)if __name__ == '__main__':main()

运行结束会在桌面生成书籍.xlsx
如下：

豆瓣top250图书爬取相关推荐

qt爬取网页信息_豆瓣TOP250数据爬取
一.问题描述用python爬取网页数据是现在流行的一种快速获取数据的方法,简单快捷.最近小编通过教程学习完成了豆瓣TOP250数据的爬取.下面就简单介绍一下如何用python程序实现豆瓣网页信息的爬 ...
爬虫——豆瓣top250电影爬取实验
1.获取头部我们首先需要去到目标网址豆瓣top250上,点开'检查'选项,获取头部信息,具体见下图: 我们赋值user-agent和host的信息,这是一个爬虫隐身的最好方法. 于是有以下代码: h ...
Python爬虫入门 | 4 爬取豆瓣TOP250图书信息
先来看看页面长啥样的:https://book.douban.com/top250 我们将要爬取哪些信息:书名.链接.评分.一句话评价-- 1. 爬取单个信息我们先来尝试爬取书名,利用之 ...
豆瓣电影Top250信息爬取并保存到excel文件中
豆瓣电影Top250下载并保存到excel文件中效果图前言确定目标网页url 爬取过程导入相关库页面内容的获取页面解析数据提取主函数的编写函数调用数据存储完整代码结语效果图 ...
用python，flask，echarts实现豆瓣读书top250的爬取及可视化大屏
好的,我来为你讲解如何使用 Python.Flask 和 Echarts 实现豆瓣读书 Top250 的爬取和可视化大屏. 首先,你需要在你的电脑上安装 Python 和 Flask,并使用 pip ...
python爬虫豆瓣影评的爬取cookies实现自动登录账号
python爬虫豆瓣影评的爬取cookies实现自动登录账号频繁的登录网页会让豆瓣锁定你的账号-- 网页请求使用cookies来实现的自动登录账号,这里的cookies因为涉及到账号我屏蔽了,具 ...
JAVA爬虫（一）：豆瓣电影排行榜爬取
JAVA爬虫(一):豆瓣电影排行榜爬取前言流程图步骤一.爬取豆瓣电影榜单网页源代码二.网页源码解析三.爬取单个电影网页源码四.源代码解析及关键信息获取前言最近和大创队友一起给大创做的 ...
豆瓣电影影评爬取---最受欢迎的影评[xpath语法]
豆瓣电影影评爬取---最受欢迎的影评[xpath语法] 1.基础环境配置: requests-->版本:2.12.4 lxml-->版本:3.7.2 2.爬取网址:https://movi ...
python爬虫实现豆瓣数据的爬取
本文利用urllib在python3.7的环境下实现豆瓣页面的爬取! 用到的包有urllib与re两个模块,具体实现如下! import urllib.request import re import ...

豆瓣top250图书爬取

豆瓣top250图书爬取相关推荐

最新文章

热门文章