闲来无事想看个小说,打算下载到电脑上看,找了半天,没找到可以下载的网站,于是就想自己爬取一下小说内容并保存到本地

这是要爬取的网页

观察结构

下一章

然后开始创建scrapy项目:

其中sixmaospider.py:

# -*- coding: utf-8 -*-

import scrapy

from ..items import SixmaoItem

class SixmaospiderSpider(scrapy.Spider):

name = 'sixmaospider'

#allowed_domains = ['http://www.6mao.com']

start_urls = ['http://www.6mao.com/html/40/40184/12601161.html'] #圣墟

def parse(self, response):

novel_biaoti = response.xpath('//div[@id="content"]/h1/text()').extract()

#print(novel_biaoti)

novel_neirong=response.xpath('//div[@id="neirong"]/text()').extract()

print(novel_neirong)

#print(len(novel_neirong))

novelitem = SixmaoItem()

novelitem['novel_biaoti'] = novel_biaoti[0]

print(novelitem['novel_biaoti'])

for i in range(0,len(novel_neirong),2):

#print(novel_neirong[i])

novelitem['novel_neirong'] = novel_neirong[i]

yield novelitem

#下一章

nextPageURL = response.xpath('//div[@class="s_page"]/a/@href').extract() # 取下一页的地址

nexturl='http://www.6mao.com'+nextPageURL[2]

print('下一章',nexturl)

if nexturl:

url = response.urljoin(nexturl)

# 发送下一页请求并调用parse()函数继续解析

yield scrapy.Request(url, self.parse, dont_filter=False)

pass

else:

print("退出")

pass

pipelinesio.py 将内容保存到本地文件

import os

print(os.getcwd())

class SixmaoPipeline(object):

def process_item(self, item, spider):

#print(item['novel'])

with open('./data/圣墟.txt', 'a', encoding='utf-8') as fp:

fp.write(item['novel_neirong'])

fp.flush()

fp.close()

return item

print('写入文件成功')

items.py

import scrapy

class SixmaoItem(scrapy.Item):

# define the fields for your item here like:

# name = scrapy.Field()

novel_biaoti=scrapy.Field()

novel_neirong=scrapy.Field()

pass

startsixmao.py,直接右键这个运行,项目就开始运行了

from scrapy.cmdline import execute

execute(['scrapy', 'crawl', 'sixmaospider'])

settings.py

LOG_LEVEL='INFO' #这是加日志

LOG_FILE='novel.log'

DOWNLOADER_MIDDLEWARES = {

'sixmao.middlewares.SixmaoDownloaderMiddleware': 543,

'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware' : None,

'sixmao.rotate_useragent.RotateUserAgentMiddleware' :400 #这行是使用代理

}

ITEM_PIPELINES = {

#'sixmao.pipelines.SixmaoPipeline': 300,

'sixmao.pipelinesio.SixmaoPipeline': 300,

} #在pipelines输出管道加入这个

SPIDER_MIDDLEWARES = {

'sixmao.middlewares.SixmaoSpiderMiddleware': 543,

} #打开中间件 其余地方应该不需要改变

rotate_useragent.py 给项目加代理,防止被服务器禁止

# 导入random模块

import random

# 导入useragent用户代理模块中的UserAgentMiddleware类

from scrapy.downloadermiddlewares.useragent import UserAgentMiddleware

# RotateUserAgentMiddleware类,继承 UserAgentMiddleware 父类

# 作用:创建动态代理列表,随机选取列表中的用户代理头部信息,伪装请求。

# 绑定爬虫程序的每一次请求,一并发送到访问网址。

# 发爬虫技术:由于很多网站设置反爬虫技术,禁止爬虫程序直接访问网页,

# 因此需要创建动态代理,将爬虫程序模拟伪装成浏览器进行网页访问。

class RotateUserAgentMiddleware(UserAgentMiddleware):

def __init__(self, user_agent=''):

self.user_agent = user_agent

def process_request(self, request, spider):

#这句话用于随机轮换user-agent

ua = random.choice(self.user_agent_list)

if ua:

# 输出自动轮换的user-agent

print(ua)

request.headers.setdefault('User-Agent', ua)

# the default user_agent_list composes chrome,I E,firefox,Mozilla,opera,netscape

# for more user agent strings,you can find it in http://www.useragentstring.com/pages/useragentstring.php

# 编写头部请求代理列表

user_agent_list = [\

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"\

"Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",\

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",\

"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",\

"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",\

"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",\

"Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",\

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",\

"Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",\

"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",\

"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",\

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",\

"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",\

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",\

"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",\

"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",\

"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",\

"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"

]

最终运行结果:

呐呐呐,这就是一个小的scrapy项目了

python爬取内容_Python爬取小说内容相关推荐

  1. 【Python网络编程】爬取百度贴吧、小说内容、豆瓣小说、Ajax爬微博、多线程爬淘宝

    一.爬取百度贴吧 import re titleR ='<a rel="noreferrer" href=".*?" title=".*?&qu ...

  2. python获取天气分析_Python爬取南京市往年天气预报,使用pyecharts进行分析

    上一次分享了使用matplotlib对爬取的豆瓣书籍排行榜进行分析,但是发现python本身自带的这个绘图分析库还是有一些局限,绘图不够美观等,在网上搜索了一波,发现现在有很多的支持python的绘图 ...

  3. python分析b站_Python爬取并分析B站最热排行榜,我发现了这些秘密

    现在大家的生活中,已经越来越离不开B站了,2020年的第一季度,B站月活跃用户达到了1.72亿,日活跃用户也已经突破了5000万个用户.源源不断的流量让B站的up主们也是粉丝数目不断暴涨,百万粉丝的u ...

  4. python爬新闻动态_Python爬取新闻动态评论

    四年前的文章了,现在才看见没通过....当初明明过了的... 1.前些天打开网易新闻,于是点开爬取该新闻的评论. 2.以前爬取的网页都是静态的,都是源代码中直接就有,一眼就可以观察到的,而这次打开却不 ...

  5. python动态爬取实时_python爬取动态数据实战---猫眼专业版-实时票房(二)

    学习python进行简单的数据爬取(基于python 3.x).再进行数据页面解析之后,使用scrapy框架进行爬取数据.没有实现自己预想的效果,着实是自己能力有限,无法灵活使用该框架.就使用自己的办 ...

  6. python微博爬虫分析_python爬取和分析新浪微博(一):scrapy构建新浪微博榜单、博主及微博信息爬虫...

    1. 爬虫项目介绍 爬虫首先基于python scrapy 框架,使用了随机用户代理和IP代理等反爬技巧,将爬取到的微博领域数据,各领域榜单博主信息和博主的微博信息分别存入的mysql数据库对应的表格 ...

  7. python爬取流浪地球_python爬取《流浪地球》获十几万评论点赞,超给力!

    原标题:python爬取<流浪地球>获十几万评论点赞,超给力! 我自己到现在其实还没看这部电影,毕竟这电影这么火,电影院现在都很难买到好的位置.所以我打算不如先看看大家是怎么评价这部电影的 ...

  8. python制作手机壁纸_Python爬取手机壁纸图片

    使用Python爬取图片. 1 说明 本文通过爬虫程序的编写,实现了一个简单易懂的爬虫程序,方便初学者理解,主要程序分为网页获取函数,以及保存下载函数,这就是所有爬虫程序的基本思想.(本文不涉及反爬, ...

  9. python微信爬取教程_python爬取微信文章方法

    本文给大家分享的是使用python通过搜狗入口,爬取微信文章的小程序,非常的简单实用,有需要的小伙伴可以参考下 本人想搞个采集微信文章的网站,无奈实在从微信本生无法找到入口链接,网上翻看了大量的资料, ...

  10. python爬取评论_Python爬取豆瓣《复仇者联盟3》评论并生成乖萌的格鲁特

    ### 1. 需求说明 本项目基于Python爬虫,爬取豆瓣电影上关于复仇者联盟3的所有影评,并保存至本地文件.然后对影评进行分词分析,使用词云生成树人格鲁特的形象照片. ### 2. 代码实现 此部 ...

最新文章

  1. golang 解析php序列化,golang实现php里的serialize()和unserialize()序列和反序列方法详解...
  2. 企业中常用的几种文件传输方法介绍
  3. text-shadow
  4. java在jsp中判断td的值是1还是2_Snap7,Eel与S71200简单组态1
  5. Lenovo F41 使用WinXP不能全屏看Flash格式的电影的解决方法
  6. 牛客网笔记之数组(一)
  7. PWN-PRACTICE-BUUCTF-22
  8. mysql查询每月、每天订单金额
  9. Android性能优化:使用Lint优化代码、去除多余资源
  10. Apache编译注释(二)
  11. c语言void*指针,C语言void指针
  12. 《博弈圣经》创业就是文化实践 创业人应具备博弈占优特征
  13. 仿盛大服务器列表不显示,大刀护卫不见了,传奇GEE引擎服务端大刀没了
  14. Mysql部署 MySQL ERROR 1698 (28000) 错误
  15. modelsim 常用快捷键
  16. go beego在apache服务器上域名配置 --小丑
  17. opencv的基本数据类型CvPoint,CvSize,CvRect和CvScalar
  18. spring security+jwt 登录认证
  19. Retrofit 使用
  20. 数据泄漏检测和溯源技术

热门文章

  1. 内存泄漏(Memory Leak)
  2. HDOJ 5091 Beam Cannon 扫描线
  3. 更多和最小生成树相关的问题
  4. 看代码学知识之(1) 获取当前线程状态
  5. 无法import的原因(ImportError: No module named *****)
  6. 豆瓣评分9.2,GitHub 3.3k的学霸笔记终于出书了!获得李宏毅等大佬好评 -- 文末送书...
  7. 百度 | 2022年科技趋势预测
  8. 【ACL2020】关于正式风格迁移的数据增强方法
  9. 从 0 开始机器学习 - 机器学习系统的设计与误差分析
  10. 【论文】本周论文推荐(11.23-11.29)