声明:
1、 学生刚开始学习爬虫,代码会有很多不严谨,也较为粗糙,单纯用于广大网友参考,希望能起到一定的帮助
2、 如果要转载,请标记出来源
3、本文纯粹用于技术练习,请勿用作非法途径
做题途中所遇问题:
1.同class名的div标签想要单独取用第二个。但是一直没法,最后使用find_all标签一起取用成列表格式,再进行选取
2.for循环嵌套有点不熟悉折腾好久才弄清楚循环,基础不扎实。
代码行:

import requests
from bs4 import BeautifulSoup
import xlwt
response=requests.get("http://bang.dangdang.com/books/fivestars/1-1")
response.encoding=response.apparent_encoding
#由于要先爬取数据再保存成文件,运用函数来分布功能,方便管理
bs = BeautifulSoup(response.text,"html.parser")
book_content=bs.find('ul',class_="bang_list clearfix bang_list_mode").find_all('li')
list=[]
for book in book_content:#图书名name=book.find('div',class_="name").find('a').text#评分score=book.find('div',class_="biaosheng").text#作者author=book.find('div',class_="publisher_info").find('a').attrs['title']#出版日期time=book.find_all('div',class_="publisher_info")time=time[1].find('span').text#出版社address=book.find_all('div', class_="publisher_info")address=address[1].find('a').text#价格price=book.find_next('div', class_="price").find('p').find('span',class_='price_n').textbooks = (name,author, score, time, address, price)list.append(books)#       print(list)print("图书名:%s、作者:%s、评分:%s、出版日期:%s出版社:%s 价格:%s"%(name,author,score,time,address,price))
#1新建一个工作簿
workbook=xlwt.Workbook()
#2新建一个工作表
sheet1=workbook.add_sheet('当当网',cell_overwrite_ok=True)
col=("图书名","作者","评分","出版日期","出版社","价格")
for i in range(0,6):sheet1.write(0,i,col[i])
#行数
#循环嵌套,先进行外循环,进入内循环,内循环循环结束,再回到外循环,进入内循环
for i in range(0,len(list)):
#先将一本书的信息从储存所有书中的表中分离出来list2=list[i]#列数for j in range(0,6):
#然后再将这本书的信息分别割出来sheet1.write(i+1,j,list2[j])
workbook.save('newExcel.xls')

输出结果:



【练习】爬取当当网中的好评榜图书信息,显示并保存为excel文件相关推荐

  1. python爬虫案例-爬取当当网数据

    输入关键字,爬取当当网中商品的基本数据,代码如下: 1 # Author:K 2 import requests 3 from lxml import etree 4 from fake_userag ...

  2. 爬虫百战(一):爬取当当网Top500本五星好评书籍

    爬取当当网Top500本五星好评书籍 ==实战前提:== 准备工作 撸代码 成果展示 实战前提: 掌握requests库的使用 熟悉re库,正则表达式的简单使用 可参考我的另外两篇博客进行学习 准备工 ...

  3. python爬虫06 | 你的第一个爬虫,爬取当当网 Top 500 本五星好评书籍

    来啦,老弟 我们已经知道怎么使用 Requests 进行各种请求骚操作 也知道了对服务器返回的数据如何使用 正则表达式 来过滤我们想要的内容 ... 那么接下来 我们就使用 requests 和 re ...

  4. python爬虫什么书好_python爬虫入门06 | 爬取当当网 Top 500 本五星好评书籍

    来啦,老弟 image 我们已经知道怎么使用 Requests 进行各种请求骚操作 也知道了对服务器返回的数据如何使用 正则表达式 来过滤我们想要的内容 - 那么接下来 我们就使用 requests ...

  5. Python爬虫 离线爬取当当网畅销书Top500的图书信息

    本实例还有另外的在线爬虫实现,有兴趣可点击在线爬取当当网畅销书Top500的图书信息 爬虫说明 1.使用requests和Lxml库爬取,(用BS4也很简单,这里是为了练习Xpath的语法) 2.爬虫 ...

  6. Python爬虫 在线爬取当当网畅销书Top500的图书信息

    本实例还有另外的离线爬虫实现,有兴趣可点击离线爬取当当网畅销书Top500的图书信息 爬虫说明 1.使用requests和Lxml库爬取,(用BS4也很简单,这里是为了练习Xpath的语法) 2.爬虫 ...

  7. 在当当买了python怎么下载源代码-爬虫实战:爬取当当网所有 Python 书籍

    来源:公众号-极客猴 出处: 本文主要讲解如何利用urllib.re.BeautifulSoup 这几个库去实战,爬取当当网所有 Python 书籍. 1 确定爬取目标 任何网站皆可爬取,就看你要不要 ...

  8. Scarpy爬取当当网书籍

    目录 1:Scarpy (1)  Scrapy是什么: (2)安装scrapy: 2.scrapy项目的创建以及运行 1.创建scrapy项目: 2.项目组成: 3.创建爬虫文件 4.爬虫文件的基本组 ...

  9. python爬取当当网商品评论

    python爬取当当网商品评论 本案例获取某鞋评论作为例 案例目的: 通过爬取当当网商品评价,介绍通过结合jsonpath和正则表达式获取目标数据的方法. 代码功能: 输入爬取的页数,自动下载保存每页 ...

最新文章

  1. php在没用xdebug等调试工具的情况下如何让调试内容优雅地展现出来?--php数组格式化...
  2. 2015年科技巨头的十个开源产品,不只是.NET、Swift
  3. 马踏棋盘python_马踏棋盘python实现
  4. 学校为什么要单位接收函_签了三方,想毁约怎么办?这几点你必须要知道!
  5. 微信小程序手动获取自己位置wx.chooseLocation
  6. 楚留香服务器维护时间,《一梦江湖》手游官方网站_《楚留香》现已全面升级重制-3月9日维护更新公告...
  7. SageMath使用指南——笔记
  8. Neural Networks and Deep Learing笔记:一个简单的识别手写数字的神经网络
  9. linux fedora 24 使用 ibus 智能拼音 输入 补全 英文
  10. 关于QImageReader多次调用read失败的问题
  11. 都这样了!我还是没法关闭微信朋友圈广告
  12. MFC edit control动态设置密码
  13. python列表按照长度排序_Python程序根据元素的长度对列表进行排序?
  14. 排序(堆排序,快速排序,归并排序)
  15. 【pcre 依赖】linux安装pcre 依赖
  16. Hybrid App开发实战
  17. NumPy入门讲座(3):操作数组
  18. 新媒体运营教程:AARRR模型之留存有关方法论
  19. 魅族mx5android,可能是最好用安卓手机 魅族mx5小技巧分享
  20. servlet生命周期:

热门文章

  1. VITON: An Image-based Virtual Try-on Network虚拟试衣网络论文翻译
  2. 发现安全隐患的“火眼金睛”
  3. 自定义PMD检测的类型集合(详解)
  4. VS2019 包管理器 NuGet
  5. 泉州深化企业简易注销登记改革 让企业注销“少跑腿”
  6. git仓库 初始化命令
  7. Linux THP分析
  8. 联众服务器超时中断,http连接中客户端中断了请求,服务端会中断执行吗?超时时间设置?...
  9. 浅谈电气设备的绝缘在线监测与状态维修探究
  10. 使用 Vue3 实现锚点组件