爬取起点小说总排行榜
功能:在表格中按排名 显示小说名字 作者 类型 状态 简介和字数
代码:import xlwt
import requests
from lxml import etree
import time
all_info_list = []
def get_info(url):
html = requests.get(url)
selector = etree.HTML(html.text)
infos = selector.xpath('//ul[@class="all-img-list cf"]/li')
for info in infos:
title = info.xpath('div[2]/h4/a/text()')[0]
author = info.xpath('div[2]/p[1]/a[1]/text()')[0]
style_1 = info.xpath('div[2]/p[1]/a[2]/text()')[0]
style_2 = info.xpath('div[2]/p[1]/a[3]/text()')[0]
style = style_1+'·'+style_2
complete = info.xpath('div[2]/p[1]/span/text()')[0]
introduce = info.xpath('div[2]/p[2]/text()')[0].strip()
word = info.xpath('div[2]/p[3]/span/text()')[0].strip('万字')
info_list = [title,author,style,complete,introduce,word]
all_info_list.append(info_list)
time.sleep(1)
if __name__ == '__main__':
urls = ['http://www.qidian.com/all/?page={}'.format(str(i)) for i in range(1,200)]
for url in urls:
get_info(url)
header = ['title','author','style','complete','introduce','word']
book = xlwt.Workbook(encoding='utf-8')
sheet = book.add_sheet('Sheetl')
for h in range(len(header)):
sheet.write(0, h, header[h])
i = 1
for list in all_info_list:
j = 0
for data in list:
sheet.write(i, j, data)
j += 1
i += 1
book.save('xiaoshuo.xls')
问题:- -爬取文件过大 可能网速慢 生成文件速度太慢
转载于:https://www.cnblogs.com/zhentaoFrezt/p/9271690.html
爬取起点小说总排行榜相关推荐
- 爬虫项目实战二:爬取起点小说网
爬取起点小说网 目标 项目准备 网站分析 反爬分析 代码实现 效果显示 目标 爬取一本仙侠类的小说下载并保存为txt文件到本地.本例为"大周仙吏". 项目准备 软件:Pycharm ...
- Python爬取起点小说并保存到本地文件夹和MongoDB数据库中
Python爬取起点小说并保存到本地MongoDB数据库中 工具:Python3.7 + Mongo4.0 + Pycharm """ 爬取起点小说<诡秘之主> ...
- java小说目录提取_完整Java爬取起点小说网小说目录以及对应链接
完整Java爬取起点小说网小说目录以及对应链接 完整Java爬取起点小说网小说目录以及对应链接 (第一次使用markdown写,其中的排版很不好,望大家理解) ?? 因为最近有一个比赛的事情,故前期看 ...
- 【Python从零到壹】使用XPath解析数据爬取起点小说网数据
我们已经可以从网上爬取数据了,现在我们来看看如何对数据解析 文章目录 1. xpath 的介绍 优点: 安装lxml库 XML的树形结构: 选取节点的表达式举例: 2. 爬取起点小说网 在浏览器中获取 ...
- scrapy爬取起点小说网
闲来无事,在学习过程中练习用scrapy爬取起点小说名 工具:python3.6 操作系统:linux 浏览器:谷歌浏览器 创建项目 在黑屏终端创建一个项目:scrapy startproject Q ...
- Python爬虫期末作业 | 爬取起点小说网作者和书名,并以Excel形式存储
使用Python爬虫技术爬取起点小说网作者及书名,并且以xlsx形式保存 前言 随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容. 一. ...
- python爬取vip小说章节_python 爬取起点小说vip章节(失败)
今天心血来潮,想爬取起点vip小说章节,花费了足足0.27大洋后,悟出来一个人生道理,这个应该是爬不下来.但是这0.27大洋也教会了我两个知识点. 1.服务器只会响应客户端的请求,不会主动给客户端发送 ...
- python爬取起点vip小说章节_python 爬取起点小说vip章节(失败)
今天心血来潮,想爬取起点vip小说章节,花费了足足0.27大洋后,悟出来一个人生道理,这个应该是爬不下来.但是这0.27大洋也教会了我两个知识点. 1.服务器只会响应客户端的请求,不会主动给客户端发送 ...
- Python爬取起点小说并写入文档
python爬取起点免费小说 按F12查看网页源代码: 发现每一章小说链接在li中,这时可以提取每一章的链接: def get_html(url):r=requests.get(url)html=Be ...
最新文章
- TensorRT 数据和表格示例
- java中文件名和类名之间的关系
- VCSA中配置时间和时区,实测至6.5适用
- JAVA之ArrayList集合
- Ubuntu SSH Algorithm negotiation failed
- Go语言实战 : API服务器 (2) 运行流程
- QLabel显示图像
- 【HDFS】HDFS与getconf结合使用,获取配置信息
- 编译LTIB遇到的问题解决办法
- CodeBlocks下载、安装与编写C语言
- socket中的recv函数
- 网页视频下载方法二:手机浏览器下载
- cocos2dx交叉编译之Android.mk修改
- [转]伽利略卫星导航系统2019年7月14日起的宕机事件
- Java序列中如果有些字段不想被序列化,怎么办
- 面向削峰填谷的电动汽车多目标优化调度策略 代码主要实现了考虑电动汽车参与削峰填谷的场景下,电动汽车充放电策略的优化,是一个多目标优化
- 如何加密/弄乱C源代码
- ——java中的反射
- 不负春光不负卿,听康大厨讲讲OpenStack重要组件的那些事儿
- bzoj2754 scoi2012 喵星球的点名