功能:在表格中按排名 显示小说名字 作者 类型 状态 简介和字数
代码:import xlwt
import requests
from lxml import etree
import time
all_info_list = []

def get_info(url):
html = requests.get(url)
selector = etree.HTML(html.text)
infos = selector.xpath('//ul[@class="all-img-list cf"]/li')

for info in infos:
title = info.xpath('div[2]/h4/a/text()')[0]
author = info.xpath('div[2]/p[1]/a[1]/text()')[0]
style_1 = info.xpath('div[2]/p[1]/a[2]/text()')[0]
style_2 = info.xpath('div[2]/p[1]/a[3]/text()')[0]
style = style_1+'·'+style_2
complete = info.xpath('div[2]/p[1]/span/text()')[0]
introduce = info.xpath('div[2]/p[2]/text()')[0].strip()
word = info.xpath('div[2]/p[3]/span/text()')[0].strip('万字')
info_list = [title,author,style,complete,introduce,word]
all_info_list.append(info_list)
time.sleep(1)

if __name__ == '__main__':
urls = ['http://www.qidian.com/all/?page={}'.format(str(i)) for i in range(1,200)]
for url in urls:
get_info(url)
header = ['title','author','style','complete','introduce','word']
book = xlwt.Workbook(encoding='utf-8')
sheet = book.add_sheet('Sheetl')
for h in range(len(header)):
sheet.write(0, h, header[h])
i = 1
for list in all_info_list:
j = 0
for data in list:
sheet.write(i, j, data)
j += 1
i += 1
book.save('xiaoshuo.xls')
问题:- -爬取文件过大 可能网速慢 生成文件速度太慢

转载于:https://www.cnblogs.com/zhentaoFrezt/p/9271690.html

爬取起点小说总排行榜相关推荐

  1. 爬虫项目实战二:爬取起点小说网

    爬取起点小说网 目标 项目准备 网站分析 反爬分析 代码实现 效果显示 目标 爬取一本仙侠类的小说下载并保存为txt文件到本地.本例为"大周仙吏". 项目准备 软件:Pycharm ...

  2. Python爬取起点小说并保存到本地文件夹和MongoDB数据库中

    Python爬取起点小说并保存到本地MongoDB数据库中 工具:Python3.7 + Mongo4.0 + Pycharm """ 爬取起点小说<诡秘之主> ...

  3. java小说目录提取_完整Java爬取起点小说网小说目录以及对应链接

    完整Java爬取起点小说网小说目录以及对应链接 完整Java爬取起点小说网小说目录以及对应链接 (第一次使用markdown写,其中的排版很不好,望大家理解) ?? 因为最近有一个比赛的事情,故前期看 ...

  4. 【Python从零到壹】使用XPath解析数据爬取起点小说网数据

    我们已经可以从网上爬取数据了,现在我们来看看如何对数据解析 文章目录 1. xpath 的介绍 优点: 安装lxml库 XML的树形结构: 选取节点的表达式举例: 2. 爬取起点小说网 在浏览器中获取 ...

  5. scrapy爬取起点小说网

    闲来无事,在学习过程中练习用scrapy爬取起点小说名 工具:python3.6 操作系统:linux 浏览器:谷歌浏览器 创建项目 在黑屏终端创建一个项目:scrapy startproject Q ...

  6. Python爬虫期末作业 | 爬取起点小说网作者和书名,并以Excel形式存储

    使用Python爬虫技术爬取起点小说网作者及书名,并且以xlsx形式保存 前言 随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容. 一. ...

  7. python爬取vip小说章节_python 爬取起点小说vip章节(失败)

    今天心血来潮,想爬取起点vip小说章节,花费了足足0.27大洋后,悟出来一个人生道理,这个应该是爬不下来.但是这0.27大洋也教会了我两个知识点. 1.服务器只会响应客户端的请求,不会主动给客户端发送 ...

  8. python爬取起点vip小说章节_python 爬取起点小说vip章节(失败)

    今天心血来潮,想爬取起点vip小说章节,花费了足足0.27大洋后,悟出来一个人生道理,这个应该是爬不下来.但是这0.27大洋也教会了我两个知识点. 1.服务器只会响应客户端的请求,不会主动给客户端发送 ...

  9. Python爬取起点小说并写入文档

    python爬取起点免费小说 按F12查看网页源代码: 发现每一章小说链接在li中,这时可以提取每一章的链接: def get_html(url):r=requests.get(url)html=Be ...

最新文章

  1. TensorRT 数据和表格示例
  2. java中文件名和类名之间的关系
  3. VCSA中配置时间和时区,实测至6.5适用
  4. JAVA之ArrayList集合
  5. Ubuntu SSH Algorithm negotiation failed
  6. Go语言实战 : API服务器 (2) 运行流程
  7. QLabel显示图像
  8. 【HDFS】HDFS与getconf结合使用,获取配置信息
  9. 编译LTIB遇到的问题解决办法
  10. CodeBlocks下载、安装与编写C语言
  11. socket中的recv函数
  12. 网页视频下载方法二:手机浏览器下载
  13. cocos2dx交叉编译之Android.mk修改
  14. [转]伽利略卫星导航系统2019年7月14日起的宕机事件
  15. Java序列中如果有些字段不想被序列化,怎么办
  16. 面向削峰填谷的电动汽车多目标优化调度策略 代码主要实现了考虑电动汽车参与削峰填谷的场景下,电动汽车充放电策略的优化,是一个多目标优化
  17. 如何加密/弄乱C源代码
  18. ——java中的反射
  19. 不负春光不负卿,听康大厨讲讲OpenStack重要组件的那些事儿
  20. bzoj2754 scoi2012 喵星球的点名

热门文章

  1. mysql购买服务_云数据库MySQL购买须知
  2. Sql递归(用with 实现递归查询)
  3. 编辑距离——莱文斯坦距离(Levenshtein distance)
  4. spring的shema文件如何读取
  5. arXiv每日推荐-5.16:语音/音频每日论文速递
  6. AMiner背后的技术细节与挑战
  7. VSTO之PPT幻灯片放映时间记录
  8. 雷达的发展历史及性能指标
  9. select苹果手机样式设置
  10. 找到office16\excel.exe