使用Python爬虫技术爬取起点小说网作者及书名，并且以xlsx形式保存

前言

随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。

一、了解所需要的工具

Xpath Helper是Python爬虫Chrome网页解析工具，该工具可以帮助用户解决在获取 XPath 路径时无法正常定位等问题

二、使用步骤

1.引入库，导入链接

代码如下（示例）：

import requests
from lxml import etree
import openpyxlurl = 'https://www.qidian.com/rank/recom?style=1'
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.101 Safari/537.36'}
num1 = requests.get(url, headers = headers)
# print(num1.status_code)
# print(num1.text)text1 = etree.HTML(num1.text)
names = text1.xpath('//div[@class="book-mid-info"]/h4/a/text()')
names1 = text1.xpath('//p[@class="author"]/a[1]/text()')
names2 = text1.xpath('//p[@class="author"]/a[2]/text()')
names3 = text1.xpath('//p[@class="author"]/span/text()')
# print(names)
# print(names1)
# print(names2)
# print(names3)

使用Xpath Helper工具，分析出爬取的内容的位置

## 2.存储数据

代码如下（示例）：

# 存储
lxm = [['小说名称', '作者', '分类', '状态']]
for i in range(0, len(names)):lxm.append([names [i], names1 [i], names2[i], names3[i]])for iten in lxm:print(iten)# 创建一个excel文件
work = openpyxl.Workbook()sheet = work.active
# 循环一次向列表添加一次
for iten in lxm:sheet.append(iten)# 保存
work.save('起点文学网推荐票榜信息.xlsx')

该处使用循环向列表添加爬取的内容。

总结

综上所述哈，本章只限于Python期末作业，没有具体的给代码进行分析和讲解，拿着用就行不必感谢

Python爬虫期末作业 | 爬取起点小说网作者和书名，并以Excel形式存储相关推荐

python爬虫简单实例-爬取17K小说网小说
什么是网络爬虫? 网络爬虫(Web Spider),又被称为网页蜘蛛,是一种按照一定的规则,自动地抓取网站信息的程序或者脚本. 爬虫流程先由urllib的request打开Url得到网页html文档 ...
【Python爬虫实战】爬取某小说网排行榜上的图书封面图片
文章目录一.Python爬虫必备两大模块 1.1 requests模块用于发送http请求 1.2 bs4(beautifulsoup)模块用于解析html文本二.Python爬虫项目演示 2.1 ...
爬虫项目实战二：爬取起点小说网
爬取起点小说网目标项目准备网站分析反爬分析代码实现效果显示目标爬取一本仙侠类的小说下载并保存为txt文件到本地.本例为"大周仙吏". 项目准备软件:Pycharm ...
【Python从零到壹】使用XPath解析数据爬取起点小说网数据
我们已经可以从网上爬取数据了,现在我们来看看如何对数据解析文章目录 1. xpath 的介绍优点: 安装lxml库 XML的树形结构: 选取节点的表达式举例: 2. 爬取起点小说网在浏览器中获取 ...
java小说目录提取_完整Java爬取起点小说网小说目录以及对应链接
完整Java爬取起点小说网小说目录以及对应链接完整Java爬取起点小说网小说目录以及对应链接 (第一次使用markdown写,其中的排版很不好,望大家理解) ?? 因为最近有一个比赛的事情,故前期看 ...
Python爬虫 scrapy框架爬取某招聘网存入mongodb解析
这篇文章主要介绍了Python爬虫 scrapy框架爬取某招聘网存入mongodb解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下创建项目 sc ...
Python的scrapy之爬取顶点小说网的所有小说
闲来无事用Python的scrapy框架练练手,爬取顶点小说网的所有小说的详细信息. 看一下网页的构造: tr标签里面的 td 使我们所要爬取的信息下面是我们要爬取的二级页面小说的简介信息: 下面 ...
scrapy爬取起点小说网
闲来无事,在学习过程中练习用scrapy爬取起点小说名工具:python3.6 操作系统:linux 浏览器:谷歌浏览器创建项目在黑屏终端创建一个项目:scrapy startproject Q ...
python爬虫爬取起点小说_python3爬虫-使用requests爬取起点小说
import requests from lxml import etree from urllib import parse import os, time def get_page_html(ur ...

Python爬虫期末作业 | 爬取起点小说网作者和书名，并以Excel形式存储

前言

一、了解所需要的工具

二、使用步骤

1.引入库，导入链接

总结

Python爬虫期末作业 | 爬取起点小说网作者和书名，并以Excel形式存储相关推荐

最新文章

热门文章