qidian.py:

import xlwt

import requests

from lxml import etree

import time

all_info_list = []

def get_info(url):

html = requests.get(url)

selector = etree.HTML(html.text)

infos = selector.xpath(‘//ul[@class="all-img-list cf"]/li‘)

for info in infos:

title = info.xpath(‘div[2]/h4/a/text()‘)[0]

author = info.xpath(‘div[2]/p[1]/a[1]/text()‘)[0]

style_1 = info.xpath(‘div[2]/p[1]/a[2]/text()‘)[0]

style_2 = info.xpath(‘div[2]/p[1]/a[3]/text()‘)[0]

style = style_1 + ‘.‘ + style_2

complete = info.xpath(‘div[2]/p[1]/span/text()‘)[0]

introduce = info.xpath(‘div[2]/p[2]/text()‘)[0].strip()

word = info.xpath(‘div[2]/p[3]/span/text()‘)[0].strip(‘万字‘)

info_list = [title, author, style, complete, introduce, word]

all_info_list.append(info_list)

time.sleep(1)

if __name__ == ‘__main__‘:

urls = [‘http://a.qidian.com/?page={}‘.format(str(i)) for i in range(1, 5)]

for url in urls:

get_info(url)

header = [‘title‘, ‘author‘, ‘style‘, ‘complete‘, ‘introduce‘, ‘word‘]

book = xlwt.Workbook(encoding=‘utf-8‘)

sheet = book.add_sheet(‘Sheet1‘)

for h in range(len(header)):

sheet.write(0, h, header[h])

i = 1

for list in all_info_list:

j = 0

for data in list:

sheet.write(i, j, data)

j += 1

i += 1

book.save(‘xiaoshuo.xls‘)

java爬虫抓取起点小说_爬虫实践-爬取起点中文网小说信息相关推荐

  1. python爬取软件数据_利用Python爬取爬取APP上面的数据

    前言 在我们在爬取手机APP上面的数据的时候,都会借助Fidder来爬取.今天就教大家如何爬取手机APP上面的数据. 环境配置 1.Fidder的安装和配置 下载Fidder软件地址:https:// ...

  2. python爬取qq电话_用Python爬取整个学院MM的电话和QQ,爬虫这也太霸道了!

    1. python爬虫可以爬取大规模数据.Python具有丰富和强大的库.它常被昵称为胶水语言,能够把用其他语言制作的各种模块(尤其是C/C++)很轻松地联结在一起.基本上可以负责任地认为,Pytho ...

  3. python爬取qq电话_用Python爬取整个学院MM的电话和QQ,爬虫这也太牛了!

    文章末尾有python全套学习资料领取 1. python爬虫可以爬取大规模数据.Python具有丰富和强大的库.它常被昵称为胶水语言,能够把用其他语言制作的各种模块(尤其是C/C++)很轻松地联结在 ...

  4. python爬取电影评分_用Python爬取猫眼上的top100评分电影

    代码如下: # 注意encoding = 'utf-8'和ensure_ascii = False,不写的话不能输出汉字 import requests from requests.exception ...

  5. python爬取bilibili弹幕_用Python爬取B站视频弹幕

    原标题:用Python爬取B站视频弹幕 via:菜J学Python 众所周知,弹幕,即在网络上观看视频时弹出的评论性字幕.不知道大家看视频的时候会不会点开弹幕,于我而言,弹幕是视频内容的良好补充,是一 ...

  6. python正则表达式爬取网页数据_常用正则表达式爬取网页信息及HTML分析总结

    Python爬取网页信息时,经常使用的正则表达式及方法. 1.获取 标签之间内容2.获取 超链接之间内容3.获取URL最后一个参数命名图片或传递参数4.爬取网页中所有URL链接5.爬取网页标题titl ...

  7. python爬取微博评论_用 python 爬取微博评论并手动分词制作词云

    最近上海好像有举行个什么维吾尔族的秘密时装秀,很好看的样子,不过我还没时间看.但是微博上已经吵翻了天,原因是 好吧,这不是我们关心的,我的心里只有学习 我爱学习 Python 爬虫 本次爬取的是这条微 ...

  8. python爬取qq好友_利用Python爬取QQ好友空间数据

    程序思路 构造请求链接 先获取所有的好友 获取说说 获取留言 获取个人信息 把数据存到数据库 以上就是整个过程中的大思路,然后在逐步把大思路化解成小的具体的问题去解决.本人对于Python学习创建了一 ...

  9. python爬取qq数据_用Python爬取QQ好友空间说说进行分析

    前言: 本文涉及知识点有数据库的读写,python基础,浏览器开发者工具的使用,适用于有编程基础,了解过python的朋友阅读. 环境:PyCharm+Chrome+MongoDB Window10 ...

  10. python爬取今日头条_使用python-aiohttp爬取今日头条

    原博文 2018-01-24 22:01 − http://blog.csdn.net/u011475134/article/details/70198533 原出处 在上一篇文章<使用pyth ...

最新文章

  1. 源码阅读:SDWebImage(十九)——UIImage+ForceDecode/UIImage+GIF/UIImage+MultiFormat
  2. 路由表查找算法概述-哈希/LC-Trie树/256-way-mtrie树
  3. springmvc学习笔记(10)-springmvc注解开发之商品改动功能
  4. sql 外连接的写法。
  5. [SDOI2010]外星千足虫 题解 高斯消元+bitset简介
  6. webpack基础webpack-dev-server配置
  7. Nginx笔记-Nginx中进程结构及使用Linux信号量管理
  8. favicon.ico是什么?
  9. 告诉家里做饭的人,这些食物一起吃才是大补!
  10. 全国大学生电子设计竞赛 控制类赛题分析
  11. win10计算机管理看不见蓝牙,如何解决Win10设备管理器找不到蓝牙?
  12. 拿php做个日历,分享如何用PHP制作日历(附代码)
  13. 开源的项目管理软件——OpenProj
  14. 三款MikroTik家用和小型办公网路由器
  15. 【2019年5月23日】指数估值排名
  16. 拟推荐全省文物系统先进_文物系统突出贡献先进个人事迹材料
  17. 用户流量红利消退的下半场,淘宝如何保持高速增长?
  18. C语言的函数到底是什么
  19. 忘记HP服务器ilo密码?如何在不重启服务器的情况下重置ilo登录密码
  20. 阿里云独享虚拟主机和共享虚拟主机区别对比

热门文章

  1. 51nod1431 快乐排队
  2. ps-色彩模式与图像色彩调整
  3. Agile Office 365 免积分下载
  4. c语言任伟,任 伟
  5. 进入注册表的一些常用命令
  6. 6阶群的非平凡子群_当|G|=8时,群lt;G,*gt;只能有?阶非平凡子群,不能有?阶子群,平凡子群为?...
  7. quectel(调用相关命令)7
  8. 中国各省份省会地图json数据
  9. 计算任意多边形的面积
  10. 求任意多边形面积-有向面积