这篇文章写了很久了,一直没有发布;

爬虫学的差不多了,觉得这篇文章对新手实践还是有些作用的。毕竟这也是我刚学爬虫的时候练习的,爬取了比较好爬的网站,也比较经典;多余的解释不说了,代码里每一行都有注释,解释的很清楚;

后续有时间的话还会发布一些爬虫文章的;

=============================================

直接上代码:

import requests

from bs4 import BeautifulSoup

from lxml import etree

#抓取豆瓣小说的 书名、评分;

page = 0 #定义页数初始值;

lists_book = [] #定义书名列表;

lists_grade = [] #定义评分的列表;

for u in range(0,20): #循环20次,每一次循环爬取一页,即:抓取20页;

basic_url = 'https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=' + str(page) + '&type=T'

page += 20 #每循环一次 +20,适应链接变化;

headers = {

'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'

}

#发送请求

response = requests.get(basic_url, headers=headers, timeout=10) #requests请求;

response.encoding = 'utf-8' #设置编码

htm = response.text #返回text文本;

#解析请求

selector = etree.HTML(htm) #利用 etree.HTML 初始化

book_name = selector.xpath('//*[@id="subject_list"]/ul/li/div[2]/h2/a/text()') #获取书名

grade = selector.xpath('//*[@id="subject_list"]/ul/li/div[2]/div[2]/span[2]/text()') #获取评分;

#将书名存入到lists_book列表;

for i in book_name:

lists_book.append(i.strip()) #去除字符串空格,存入列表;

while '' in lists_book: #如果列表中有空元素,则删除空元素;

lists_book.remove('')

#将评分存入到lists_grade列表;

for i in grade:

lists_grade.append(i.strip()) #去除字符串空格,存入列表;

while '' in lists_grade: #如果列表中有空元素,则删除空元素;

lists_grade.remove('')

print(lists_book) #输出爬取的书名列表;

print(len(lists_book)) #输出列表的长度,即:爬取了多少本书

print(lists_grade) #输出评分的列表;

print(len(lists_grade)) #输出评分列表的长度;为了和书的数目核对,防止偏差;

print("评分最高: "+ str(max(lists_grade)) + "\n" + "书名: " + lists_book[lists_grade.index(max(lists_grade))])

运行后结果输出到了屏幕上,并没有存入数据库,后续需要也可以继续添加代码将爬取结果存入数据库;

python爬虫怎么爬小说_小白的python爬虫,40代码教你爬取豆瓣小说相关推荐

  1. python爬取豆瓣代码_小白的python爬虫,40代码教你爬取豆瓣小说

    这篇文章写了很久了,一直没有发布: 爬虫学的差不多了,觉得这篇文章对新手实践还是有些作用的.毕竟这也是我刚学爬虫的时候练习的,爬取了比较好爬的网站,也比较经典:多余的解释不说了,代码里每一行都有注释, ...

  2. python 相对路径报错_小白学 Python(18):基础文件操作

    人生苦短,我选Python 前文传送门 小白学 Python(1):开篇 小白学 Python(2):基础数据类型(上) 小白学 Python(3):基础数据类型(下) 小白学 Python(4):变 ...

  3. 小白学python之前要学会什么_小白学 Python(1):开篇

    摘要: thon开发环境搭建完成.HelloWorld环境搭建完成一定要写一个HelloWorld,这不仅仅是程序员的信仰,同时也是对一门开发语言的尊重怀着崇敬的心情双击Pycharm图标,这时会弹出 ...

  4. python画k线图_小白学Python(14)——pyecharts 绘制K线图 Kline/Candlestick

    Kline-基本示例 from pyecharts import options as opts from pyecharts.charts import Kline data = [ [2320.2 ...

  5. python编程的常用工具_小白学Python(2)——常用Python编程工具,Python IDE

    下载好Python,但是如何开始编程呢? 有几种方法, 1.第一个就是command lind 即为命令行的方式,也就是我们常说的cmd. 输入 win+ cmd 在命令行中再输入 python,即可 ...

  6. python 使用socks 爬虫_小白学 Python 爬虫(17):Requests 基础使用

    人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...

  7. post python爬虫_小白学 Python 爬虫(17):Requests 基础使用

    人生苦短,我用 Python 如果我的文章对您有帮助,请关注支持下作者的公众号:极客挖掘机,您的关注,是对小编坚持原创的最大鼓励:) 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Py ...

  8. python 爬虫框架_小白学 Python 爬虫(28):自动化测试框架 Selenium (下)

    人生苦短,我用 Python 如果我的文章对您有帮助,请关注支持下作者的公众号:极客挖掘机,您的关注,是对小编坚持原创的最大鼓励:) 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Py ...

  9. logback-spring.xml 文件路径 相对路径_小白学 Python(18):基础文件操作

    人生苦短,我选Python 前文传送门 小白学 Python(1):开篇 小白学 Python(2):基础数据类型(上) 小白学 Python(3):基础数据类型(下) 小白学 Python(4):变 ...

最新文章

  1. EMC首席数据治理官:“受托人”是数据湖问责的关键
  2. Python基础知识(第五天)
  3. 【CyberSecurityLearning 52】Web架构安全分析(web工作机制、HTTP协议)
  4. k8s sealos应用安装及应用包制作教程
  5. 打包文档_苏教版小学数学16年级全十二册教案Word文档打包下载
  6. java父类shape_java父类为抽象类,子类构造方法传参
  7. P2921 [USACO08DEC]在农场万圣节Trick or Treat on the Farm
  8. JAVA学习笔记——JAVA基础语法之精华
  9. 信息学奥赛一本通(1240:查找最接近的元素)
  10. 35行的山寨版jQuery
  11. SDN:势不可挡的网络演进大潮
  12. win10简洁之道(有效去广告)
  13. @cosme宣布“@cosme THE BEST COSMETICS AWARDS 2020 ”@cosme上半年美妆新品大赏榜单中获奖新产品
  14. uni-app设置原生标题栏渐变色
  15. mac和windows共享键盘鼠标方案
  16. 专访微软梁念坚:任职两年给自己打70分
  17. 【产品运营从0到1】资深产品运营推荐的互联网产品运营人员必看书籍
  18. 【动态规划】2只鸡蛋与100层塔问题(有详细说明和思路代码)
  19. Python3实现向指定邮箱发送邮件(支持附件文件、图片等)
  20. App隐私合规协议(第三方SDK)说明

热门文章

  1. ubuntu14.04 AR5B22 无线网卡连不上 AP 问题解决
  2. pycharm如何全局搜索
  3. python攻击某个wifi设备使断网_Python实现WiFi断线自动重连的方法详解
  4. centos安装xfce
  5. 【shell】shell脚本实战-awk基本介绍
  6. 一、坦克大战单机版策划
  7. 音频信号发生器_ToneGenerator for Mac(音频发生器)
  8. 音符起始点检测(音频节奏检测)(2)
  9. WS2812灯珠(四)---实现全彩呼吸灯效果
  10. Linux vim与vi 的使用详细