该楼层疑似违规已被系统折叠 隐藏此楼查看此楼

#-*- coding: UTF-8 -*-

import scrapy

from hoho.items import HohoItem

import re

from scrapy.selector import Selector

import sys

reload(sys)

sys.setdefaultencoding( "UTF-8" )

class tongSpider(scrapy.Spider):

name = 'guwen'

start_urls=['http://www.shicifuns.com/v2/wenyan/list']

def parse(self,response):

papers = response.xpath('//div[@class="css_content"]/div/div[@class="css_body_left"]/div[@class="every_day"]/ul')

for paper in papers:

for p in paper.xpath('li'):

name = p.xpath('a/div/div[@class="poem_title"]/span/text()').extract()[0]

url = p.xpath('a/@href').extract()[0]

content = p.xpath('a/div/div[@class="poem_content"]/text()').extract()[0].strip("\r\n ")

author = p.xpath('a/div/div[@class="poem_info"]/span[@class="dynasty"]/text()').extract()[0]

pinfen = p.xpath('a/div/div[@class="poem_info"]/span[@class="dynasty"]/text()').extract()[1]

item = HohoItem(name = name,url="http://www.shicifuns.com"+url,content=content,author=author,pinfen=pinfen)

yield item

next = response.xpath("//div[@class='css_content']/div/div[@class='css_body_left']/div[@class='pagination']/ul/li/a[@class='next page focus']/@href").extract()

if next:

yield scrapy.Request(url = "http://www.shicifuns.com" + next[0],callback=self.parse)

python 爬虫爬不出来_爬虫爬不进下一页了,怎么办相关推荐

  1. python爬虫大作业爬多少数据_爬虫大作业

    1.选一个自己感兴趣的主题(所有人不能雷同). 2.用python 编写爬虫程序,从网络上爬取相关主题的数据. 3.对爬了的数据进行文本分析,生成词云. 4.对文本分析结果进行解释说明. 5.写一篇完 ...

  2. python批量下载静态页面_爬虫实战之,爬取壁纸,批量下载

    一.前言 在开始写爬虫之前,我们先了解一下爬虫 首先,我们需要知道爬虫是什么,这里直接引用百度百科的定义 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按 ...

  3. python爬虫爬取豆瓣_爬虫,从爬取豆瓣开始

    1 爬虫概述 当初第一次接触python,听的最多的就是爬虫爬虫,搞得我一脸蒙蔽,因为我从来都没听过这么新颖的词,而且我还天真的以为是不是python长得像一条小虫子,所以才叫爬虫. 直到后来经过不断 ...

  4. python爬取晋江_爬虫爬取晋江文学网总分榜(失败)

    一.目的 : 爬取晋江文学网总分榜 二.python爬取数据 三.爬取 在开始多出现了38号而且顺序内容不准确 代码: import requests from bs4 import Beautifu ...

  5. python爬取晋江_爬虫爬取晋江文学网总分榜

    一.目的 : 爬取晋江文学网总分榜 二.python爬取数据 三.爬取 在开始多出现了38号而且顺序内容不准确 代码: import requests from bs4 import Beautifu ...

  6. python爬虫实时更新数据_爬虫的增量式抓取和数据更新

    一些想法 页面爬的多了,量上去了之后,就会遇到其他的问题,其实不管做什么技术量大了都会有问题.一般情况下,我认为解决"大量"问题的思路有两个:一种是着力于优化系统的能力,让原本只能 ...

  7. 爬虫python和c语言区别_爬虫概述 - Python教程 - C语言网

    网络爬虫(又称为网页蜘蛛,网络机器人,更经常的称为网页追逐者),它按照一定的规则自动地抓取网络信息. 1. 产生背景 随着时代的进步,互联网上拥有大量的信息,但是我们该如何高效的获取这些信息成为了一个 ...

  8. python 爬虫模拟点击_爬虫——模拟点击动态页面

    动态页面的模拟点击: 以斗鱼直播为例:http://www.douyu.com/directory/all 爬取每页的房间名.直播类型.主播名称.在线人数等数据,然后模拟点击下一页,继续爬取 #!/u ...

  9. python网页信息违法吗_爬虫到底违法吗?这位爬虫工程师给出了答案

    大家好,本期将为大家来采访一位爬虫工程师,与他相识是在一个技术号主群中,只有他怼了我的文章,所以也算不打不相识!他便是小周码字号主:Loco. 文章主要分为三部分,第一部分为Loco自述:简单讲述一下 ...

  10. python网页版百度_python,_爬虫 页面不存在_百度搜索,python - phpStudy

    爬虫 页面不存在_百度搜索 1.学写爬虫,遇到一个问题,加了values={"wd":"test","ie":"utf-8&quo ...

最新文章

  1. VC从文件中加载图片
  2. Failed to connect to 127.0.0.1:27017, reason: errno:111 Connection refused(MongoDB启动异常)
  3. python矩阵行秩函数_为什么矩阵行秩等于列秩?
  4. 如何搭建一个内部组件共享平台
  5. Linux查询端口的任务
  6. 等值首尾和-----------2012年12月27日
  7. 理解 Delphi 的类(十) - 深入方法[13] - 在 interface 区声明的方法
  8. Android中用URL模拟一个简单的图片加载器
  9. 获取一个目录下的所有文件
  10. 爷青结?诺基亚贝尔实验室官宣转让Plan 9版权!
  11. socket编程遇到的bug记录
  12. 查看mysql的用户名和密码_怎么查看mysql的用户名和密码
  13. python 百度cpc点击
  14. 手把手教你搭建SpringCloud项目(二)生产者与消费者
  15. android p 预览版壁纸,Android P预览版加入黑暗模式主题 iOS啥时候才能有呢?
  16. 量子信息技术(QIT)
  17. 【计组之EDA】学了EDA,这些元件符号及常用化简公式你都会了叭(超详细图示ai)
  18. 可nbsp;爱nbsp;女nbsp;人
  19. 《操作系统第四版》(刘振鹏 王煜)(一)引论
  20. 支付宝无障碍体验提升之路

热门文章

  1. MySQL 数据库常用存储引擎的特点
  2. unity 实现调用Windows窗口/对话框交互
  3. 飞鹤乳业CIO:移动化让企业品牌和消费者紧密连接
  4. AdaBoost 和 Real Adaboost 总结
  5. ASP.NET-FineUI开发实践-9(四)
  6. 静态NAT技术三部曲
  7. 纠正网上流传的SQL取某一时间的当月第一天和最后一天的时间写法
  8. 浏览器渲染阻塞与优化-详解推迟加载、异步加载。
  9. .net集合类的研究--链表—ListDictionary,LinkedListT
  10. SEO--我们是不是走错了路?