python 爬虫爬不出来_爬虫爬不进下一页了,怎么办
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
#-*- coding: UTF-8 -*-
import scrapy
from hoho.items import HohoItem
import re
from scrapy.selector import Selector
import sys
reload(sys)
sys.setdefaultencoding( "UTF-8" )
class tongSpider(scrapy.Spider):
name = 'guwen'
start_urls=['http://www.shicifuns.com/v2/wenyan/list']
def parse(self,response):
papers = response.xpath('//div[@class="css_content"]/div/div[@class="css_body_left"]/div[@class="every_day"]/ul')
for paper in papers:
for p in paper.xpath('li'):
name = p.xpath('a/div/div[@class="poem_title"]/span/text()').extract()[0]
url = p.xpath('a/@href').extract()[0]
content = p.xpath('a/div/div[@class="poem_content"]/text()').extract()[0].strip("\r\n ")
author = p.xpath('a/div/div[@class="poem_info"]/span[@class="dynasty"]/text()').extract()[0]
pinfen = p.xpath('a/div/div[@class="poem_info"]/span[@class="dynasty"]/text()').extract()[1]
item = HohoItem(name = name,url="http://www.shicifuns.com"+url,content=content,author=author,pinfen=pinfen)
yield item
next = response.xpath("//div[@class='css_content']/div/div[@class='css_body_left']/div[@class='pagination']/ul/li/a[@class='next page focus']/@href").extract()
if next:
yield scrapy.Request(url = "http://www.shicifuns.com" + next[0],callback=self.parse)
python 爬虫爬不出来_爬虫爬不进下一页了,怎么办相关推荐
- python爬虫大作业爬多少数据_爬虫大作业
1.选一个自己感兴趣的主题(所有人不能雷同). 2.用python 编写爬虫程序,从网络上爬取相关主题的数据. 3.对爬了的数据进行文本分析,生成词云. 4.对文本分析结果进行解释说明. 5.写一篇完 ...
- python批量下载静态页面_爬虫实战之,爬取壁纸,批量下载
一.前言 在开始写爬虫之前,我们先了解一下爬虫 首先,我们需要知道爬虫是什么,这里直接引用百度百科的定义 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按 ...
- python爬虫爬取豆瓣_爬虫,从爬取豆瓣开始
1 爬虫概述 当初第一次接触python,听的最多的就是爬虫爬虫,搞得我一脸蒙蔽,因为我从来都没听过这么新颖的词,而且我还天真的以为是不是python长得像一条小虫子,所以才叫爬虫. 直到后来经过不断 ...
- python爬取晋江_爬虫爬取晋江文学网总分榜(失败)
一.目的 : 爬取晋江文学网总分榜 二.python爬取数据 三.爬取 在开始多出现了38号而且顺序内容不准确 代码: import requests from bs4 import Beautifu ...
- python爬取晋江_爬虫爬取晋江文学网总分榜
一.目的 : 爬取晋江文学网总分榜 二.python爬取数据 三.爬取 在开始多出现了38号而且顺序内容不准确 代码: import requests from bs4 import Beautifu ...
- python爬虫实时更新数据_爬虫的增量式抓取和数据更新
一些想法 页面爬的多了,量上去了之后,就会遇到其他的问题,其实不管做什么技术量大了都会有问题.一般情况下,我认为解决"大量"问题的思路有两个:一种是着力于优化系统的能力,让原本只能 ...
- 爬虫python和c语言区别_爬虫概述 - Python教程 - C语言网
网络爬虫(又称为网页蜘蛛,网络机器人,更经常的称为网页追逐者),它按照一定的规则自动地抓取网络信息. 1. 产生背景 随着时代的进步,互联网上拥有大量的信息,但是我们该如何高效的获取这些信息成为了一个 ...
- python 爬虫模拟点击_爬虫——模拟点击动态页面
动态页面的模拟点击: 以斗鱼直播为例:http://www.douyu.com/directory/all 爬取每页的房间名.直播类型.主播名称.在线人数等数据,然后模拟点击下一页,继续爬取 #!/u ...
- python网页信息违法吗_爬虫到底违法吗?这位爬虫工程师给出了答案
大家好,本期将为大家来采访一位爬虫工程师,与他相识是在一个技术号主群中,只有他怼了我的文章,所以也算不打不相识!他便是小周码字号主:Loco. 文章主要分为三部分,第一部分为Loco自述:简单讲述一下 ...
- python网页版百度_python,_爬虫 页面不存在_百度搜索,python - phpStudy
爬虫 页面不存在_百度搜索 1.学写爬虫,遇到一个问题,加了values={"wd":"test","ie":"utf-8&quo ...
最新文章
- VC从文件中加载图片
- Failed to connect to 127.0.0.1:27017, reason: errno:111 Connection refused(MongoDB启动异常)
- python矩阵行秩函数_为什么矩阵行秩等于列秩?
- 如何搭建一个内部组件共享平台
- Linux查询端口的任务
- 等值首尾和-----------2012年12月27日
- 理解 Delphi 的类(十) - 深入方法[13] - 在 interface 区声明的方法
- Android中用URL模拟一个简单的图片加载器
- 获取一个目录下的所有文件
- 爷青结?诺基亚贝尔实验室官宣转让Plan 9版权!
- socket编程遇到的bug记录
- 查看mysql的用户名和密码_怎么查看mysql的用户名和密码
- python 百度cpc点击
- 手把手教你搭建SpringCloud项目(二)生产者与消费者
- android p 预览版壁纸,Android P预览版加入黑暗模式主题 iOS啥时候才能有呢?
- 量子信息技术(QIT)
- 【计组之EDA】学了EDA,这些元件符号及常用化简公式你都会了叭(超详细图示ai)
- 可nbsp;爱nbsp;女nbsp;人
- 《操作系统第四版》(刘振鹏 王煜)(一)引论
- 支付宝无障碍体验提升之路