使用Python爬虫技术爬取起点小说网作者及书名,并且以xlsx形式保存


前言

随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。


一、了解所需要的工具

Xpath Helper是Python爬虫Chrome网页解析工具,该工具可以帮助用户解决在获取 XPath 路径时无法正常定位等问题

二、使用步骤

1.引入库,导入链接

代码如下(示例):

import requests
from lxml import etree
import openpyxlurl = 'https://www.qidian.com/rank/recom?style=1'
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.101 Safari/537.36'}
num1 = requests.get(url, headers = headers)
# print(num1.status_code)
# print(num1.text)text1 = etree.HTML(num1.text)
names = text1.xpath('//div[@class="book-mid-info"]/h4/a/text()')
names1 = text1.xpath('//p[@class="author"]/a[1]/text()')
names2 = text1.xpath('//p[@class="author"]/a[2]/text()')
names3 = text1.xpath('//p[@class="author"]/span/text()')
# print(names)
# print(names1)
# print(names2)
# print(names3)

使用Xpath Helper工具,分析出爬取的内容的位置


## 2.存储数据

代码如下(示例):

# 存储
lxm = [['小说名称', '作者', '分类', '状态']]
for i in range(0, len(names)):lxm.append([names [i], names1 [i], names2[i], names3[i]])for iten in lxm:print(iten)# 创建一个excel文件
work = openpyxl.Workbook()sheet = work.active
# 循环一次向列表添加一次
for iten in lxm:sheet.append(iten)# 保存
work.save('起点文学网推荐票榜信息.xlsx')

该处使用循环向列表添加爬取的内容。


总结

综上所述哈,本章只限于Python期末作业,没有具体的给代码进行分析和讲解,拿着用就行不必感谢

Python爬虫期末作业 | 爬取起点小说网作者和书名,并以Excel形式存储相关推荐

  1. python爬虫简单实例-爬取17K小说网小说

    什么是网络爬虫? 网络爬虫(Web Spider),又被称为网页蜘蛛,是一种按照一定的规则,自动地抓取网站信息的程序或者脚本. 爬虫流程 先由urllib的request打开Url得到网页html文档 ...

  2. 【Python爬虫实战】爬取某小说网排行榜上的图书封面图片

    文章目录 一.Python爬虫必备两大模块 1.1 requests模块用于发送http请求 1.2 bs4(beautifulsoup)模块用于解析html文本 二.Python爬虫项目演示 2.1 ...

  3. 爬虫项目实战二:爬取起点小说网

    爬取起点小说网 目标 项目准备 网站分析 反爬分析 代码实现 效果显示 目标 爬取一本仙侠类的小说下载并保存为txt文件到本地.本例为"大周仙吏". 项目准备 软件:Pycharm ...

  4. 【Python从零到壹】使用XPath解析数据爬取起点小说网数据

    我们已经可以从网上爬取数据了,现在我们来看看如何对数据解析 文章目录 1. xpath 的介绍 优点: 安装lxml库 XML的树形结构: 选取节点的表达式举例: 2. 爬取起点小说网 在浏览器中获取 ...

  5. java小说目录提取_完整Java爬取起点小说网小说目录以及对应链接

    完整Java爬取起点小说网小说目录以及对应链接 完整Java爬取起点小说网小说目录以及对应链接 (第一次使用markdown写,其中的排版很不好,望大家理解) ?? 因为最近有一个比赛的事情,故前期看 ...

  6. Python爬虫 scrapy框架爬取某招聘网存入mongodb解析

    这篇文章主要介绍了Python爬虫 scrapy框架爬取某招聘网存入mongodb解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 创建项目 sc ...

  7. Python的scrapy之爬取顶点小说网的所有小说

    闲来无事用Python的scrapy框架练练手,爬取顶点小说网的所有小说的详细信息. 看一下网页的构造: tr标签里面的 td 使我们所要爬取的信息 下面是我们要爬取的二级页面 小说的简介信息: 下面 ...

  8. scrapy爬取起点小说网

    闲来无事,在学习过程中练习用scrapy爬取起点小说名 工具:python3.6 操作系统:linux 浏览器:谷歌浏览器 创建项目 在黑屏终端创建一个项目:scrapy startproject Q ...

  9. python爬虫爬取起点小说_python3爬虫-使用requests爬取起点小说

    import requests from lxml import etree from urllib import parse import os, time def get_page_html(ur ...

最新文章

  1. 技巧.自己学会取名字,学会欣赏
  2. 百度的云智一体,让视频变得“硬核性感”
  3. 上海python培训比较好的机构-想要入行Python,上海Python培训机构哪个好?
  4. [BZOJ] 3191 [JLOI2013]卡牌游戏
  5. CentOS7 systemctl tomcat常用配置
  6. 避免将项目名称用作映射类型名称
  7. 进入hbase shell速度很慢_HBase——大数据平台之分布式NoSQL数据库教程
  8. Ubuntu 16 安装JDK1.8
  9. C# 编写小巧快速的 Windows 动态桌面软件
  10. 数据结构与算法分析(七)递归
  11. 学计算机物理去戴维斯还是伦斯勒理工学院好,美国大学本科专业排名:应用物理...
  12. cout 声明与定义
  13. contiki学习笔记(四)、contiki系统UDP通信原理(单播、多播、RPL介绍)
  14. 位运算::Bitwise operation
  15. dynamicCondition v3.0.6 插件新增下拉树编辑器
  16. Windows配置环境变量
  17. 高一对口计算机试题及答案,高一计算机考试模拟题?
  18. 2021-07-18大学 复习网课 视频 (倍速详细篇)
  19. 四个福利性在线网站分享,每一个都让你欲罢不能……
  20. 将AIR-CAP2702I-H-K9升级成胖AP

热门文章

  1. CRC查表法运算原理
  2. Android资源编辑器,使用布局编辑器构建界面
  3. Python 常用压缩库(zlib, bz2, gzip)以及压缩格式特点
  4. 【CICC原创】面向全域作战态势感知的战场全息地图
  5. 记录: ATM取款机表的数据库设计思考
  6. 最新国家行政区划代码,来自国家统计局2018年底最新数据
  7. Linux系统之部署Samba服务
  8. 中兴面试-guozhijun20160628
  9. Linux系统中文件系统管理
  10. java.lang.ClassNotFoundException: org.apache.commons.fileupload.disk.DiskFileItemFactory