Python爬虫期末作业 | 爬取起点小说网作者和书名,并以Excel形式存储
使用Python爬虫技术爬取起点小说网作者及书名,并且以xlsx形式保存
前言
随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。
一、了解所需要的工具
Xpath Helper是Python爬虫Chrome网页解析工具,该工具可以帮助用户解决在获取 XPath 路径时无法正常定位等问题
二、使用步骤
1.引入库,导入链接
代码如下(示例):
import requests
from lxml import etree
import openpyxlurl = 'https://www.qidian.com/rank/recom?style=1'
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.101 Safari/537.36'}
num1 = requests.get(url, headers = headers)
# print(num1.status_code)
# print(num1.text)text1 = etree.HTML(num1.text)
names = text1.xpath('//div[@class="book-mid-info"]/h4/a/text()')
names1 = text1.xpath('//p[@class="author"]/a[1]/text()')
names2 = text1.xpath('//p[@class="author"]/a[2]/text()')
names3 = text1.xpath('//p[@class="author"]/span/text()')
# print(names)
# print(names1)
# print(names2)
# print(names3)
使用Xpath Helper工具,分析出爬取的内容的位置
## 2.存储数据
代码如下(示例):
# 存储
lxm = [['小说名称', '作者', '分类', '状态']]
for i in range(0, len(names)):lxm.append([names [i], names1 [i], names2[i], names3[i]])for iten in lxm:print(iten)# 创建一个excel文件
work = openpyxl.Workbook()sheet = work.active
# 循环一次向列表添加一次
for iten in lxm:sheet.append(iten)# 保存
work.save('起点文学网推荐票榜信息.xlsx')
该处使用循环向列表添加爬取的内容。
总结
综上所述哈,本章只限于Python期末作业,没有具体的给代码进行分析和讲解,拿着用就行不必感谢
Python爬虫期末作业 | 爬取起点小说网作者和书名,并以Excel形式存储相关推荐
- python爬虫简单实例-爬取17K小说网小说
什么是网络爬虫? 网络爬虫(Web Spider),又被称为网页蜘蛛,是一种按照一定的规则,自动地抓取网站信息的程序或者脚本. 爬虫流程 先由urllib的request打开Url得到网页html文档 ...
- 【Python爬虫实战】爬取某小说网排行榜上的图书封面图片
文章目录 一.Python爬虫必备两大模块 1.1 requests模块用于发送http请求 1.2 bs4(beautifulsoup)模块用于解析html文本 二.Python爬虫项目演示 2.1 ...
- 爬虫项目实战二:爬取起点小说网
爬取起点小说网 目标 项目准备 网站分析 反爬分析 代码实现 效果显示 目标 爬取一本仙侠类的小说下载并保存为txt文件到本地.本例为"大周仙吏". 项目准备 软件:Pycharm ...
- 【Python从零到壹】使用XPath解析数据爬取起点小说网数据
我们已经可以从网上爬取数据了,现在我们来看看如何对数据解析 文章目录 1. xpath 的介绍 优点: 安装lxml库 XML的树形结构: 选取节点的表达式举例: 2. 爬取起点小说网 在浏览器中获取 ...
- java小说目录提取_完整Java爬取起点小说网小说目录以及对应链接
完整Java爬取起点小说网小说目录以及对应链接 完整Java爬取起点小说网小说目录以及对应链接 (第一次使用markdown写,其中的排版很不好,望大家理解) ?? 因为最近有一个比赛的事情,故前期看 ...
- Python爬虫 scrapy框架爬取某招聘网存入mongodb解析
这篇文章主要介绍了Python爬虫 scrapy框架爬取某招聘网存入mongodb解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 创建项目 sc ...
- Python的scrapy之爬取顶点小说网的所有小说
闲来无事用Python的scrapy框架练练手,爬取顶点小说网的所有小说的详细信息. 看一下网页的构造: tr标签里面的 td 使我们所要爬取的信息 下面是我们要爬取的二级页面 小说的简介信息: 下面 ...
- scrapy爬取起点小说网
闲来无事,在学习过程中练习用scrapy爬取起点小说名 工具:python3.6 操作系统:linux 浏览器:谷歌浏览器 创建项目 在黑屏终端创建一个项目:scrapy startproject Q ...
- python爬虫爬取起点小说_python3爬虫-使用requests爬取起点小说
import requests from lxml import etree from urllib import parse import os, time def get_page_html(ur ...
最新文章
- 技巧.自己学会取名字,学会欣赏
- 百度的云智一体,让视频变得“硬核性感”
- 上海python培训比较好的机构-想要入行Python,上海Python培训机构哪个好?
- [BZOJ] 3191 [JLOI2013]卡牌游戏
- CentOS7 systemctl tomcat常用配置
- 避免将项目名称用作映射类型名称
- 进入hbase shell速度很慢_HBase——大数据平台之分布式NoSQL数据库教程
- Ubuntu 16 安装JDK1.8
- C# 编写小巧快速的 Windows 动态桌面软件
- 数据结构与算法分析(七)递归
- 学计算机物理去戴维斯还是伦斯勒理工学院好,美国大学本科专业排名:应用物理...
- cout 声明与定义
- contiki学习笔记(四)、contiki系统UDP通信原理(单播、多播、RPL介绍)
- 位运算::Bitwise operation
- dynamicCondition v3.0.6 插件新增下拉树编辑器
- Windows配置环境变量
- 高一对口计算机试题及答案,高一计算机考试模拟题?
- 2021-07-18大学 复习网课 视频 (倍速详细篇)
- 四个福利性在线网站分享,每一个都让你欲罢不能……
- 将AIR-CAP2702I-H-K9升级成胖AP
热门文章
- CRC查表法运算原理
- Android资源编辑器,使用布局编辑器构建界面
- Python 常用压缩库(zlib, bz2, gzip)以及压缩格式特点
- 【CICC原创】面向全域作战态势感知的战场全息地图
- 记录: ATM取款机表的数据库设计思考
- 最新国家行政区划代码,来自国家统计局2018年底最新数据
- Linux系统之部署Samba服务
- 中兴面试-guozhijun20160628
- Linux系统中文件系统管理
- java.lang.ClassNotFoundException: org.apache.commons.fileupload.disk.DiskFileItemFactory