scrapy从入门到放弃 学习项目2
CrawlSpider微信小程序社区教程贴爬取
from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule from wxapp.items import WxappItemclass WxspiderSpider(CrawlSpider):name = 'wxspider'allowed_domains = ['www.wxapp-union.com']start_urls = ['http://www.wxapp-union.com/portal.php?mod=list&catid=2&page=1']rules = (Rule(LinkExtractor(allow=r'.+mod=list&catid=2&page=\d'), follow=True),Rule(LinkExtractor(allow=r'.+article-.+\.html'), callback='parse_item', follow=False),)def parse_item(self, response):title = response.xpath('//h1[@class="ph"]/text()').get()authors = response.xpath('//p[@class="authors"]')author = authors.xpath('./a/text()').get()date = authors.xpath('./span/text()').get()article = ''.join(response.xpath('//td[@id="article_content"]//text()').getall()).strip()item = WxappItem(title=title, author=author, date=date, article=article)yield item
wxspider.py
from scrapy.exporters import JsonLinesItemExporterclass WxappPipeline(object):def __init__(self):self.fp = open('wxapp.json', 'wb')self.exporter = JsonLinesItemExporter(self.fp, ensure_ascii=False, encoding='utf-8')def process_item(self, item, spider):self.exporter.export_item(item)return itemdef close_spider(self, spider):self.fp.close()
pipelines.py
import scrapyclass WxappItem(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()title = scrapy.Field()author = scrapy.Field()date = scrapy.Field()article = scrapy.Field()
items.py
转载于:https://www.cnblogs.com/lpapython/p/11160477.html
scrapy从入门到放弃 学习项目2相关推荐
- Django入门到放弃 学习笔记 03
跟b站武沛齐老师的视频学习 对学习过程进行一些记录以便复习 同时自我督促 :D冲鸭 视频链接: 15天django入门到放弃-哔哩哔哩. 文章目录 内容回顾 Bootstrap安装 Fontaweso ...
- Scrapy从入门到放弃4--管道pipelines使用
Scrapy管道的使用 学习目标: 掌握 scrapy管道(pipelines.py)的使用 之前我们在scrapy入门使用一节中学习了管道的基本使用,接下来我们深入的学习scrapy管道的使用 1. ...
- Scrapy从入门到精通(4)--项目实战爬取图书网站信息
项目实战 url = http://books.toscrape.com 页面分析 scrapy shell U R L> scrapy shell URL>可以使用户在交互式命令行下操作 ...
- 自学成才,PHP从入门到精通学习路线规划
目录 一.PHP学习教程 二.PHP快速入门 三.PHP开发环境 四.PHP基本语法 五.PHP实例教程 六. PHP学习面向对象 七. PHP框架学习 八.Linux服务器学习 九. 大并发架构学习 ...
- python嵩天第二版第五章_如何避免从入门到放弃——python小组学习复盘
2019年春节python学习行动复盘2019-02-09 为了主攻python,没有参加心理学晨读.对心理学也不敢兴趣,怕耽误学习python的时间. 那么没学习心理学的情况下,python学的怎么 ...
- 跳过php学thinkphp,PHP学习-ThinkPHP《从入门到放弃》(六)
此次学习主要遇到的问题,502问题: 1.在PHPStorm中试图修改PHP解释器的路径(项目下边External Libraries/偏好设置中的-Language & framework- ...
- 【傻瓜攻略】深度学习之从入门到放弃
从研究生进来之后,一直到现在已经进行了一年关于DP的学习,写篇文章总结一下我蹒跚的学习过程.总结来说是一个从入门学习到几乎想要放弃的过程.顺带列举下面几个坑,希望能帮助一下同样在这条路上行走的旅人们. ...
- 专业放心的python入门视频_手把手教你掌握学习Python方法,让你不再从入门到放弃...
随着数据科学概念的普及,Python 这门并不算新的语言火得一塌糊涂.因为写了几篇用 Python 做数据分析的 文章,经常有读者和学生私信问我,想学习 Python,该如何入手?我经常需要根据学习, ...
- gtk学习总结:GTK从入门到放弃,三天包教包会
今天花了一些时间复习之前学习过的gtk,感觉东西光学不用忘得好快啊,在这做个之前学过的内容的备份,希望对大家有用,也希望大家不要从入门到放弃.文中有些代码例子可能来自<GTK从入门到精通> ...
最新文章
- Forefront_TMG_2010-TMG建立Remote ***
- WPF的Clipboard.SetText()有问题
- 处理Xcode8输出无用的Log信息
- 给定key值,在Binary Search Tree中查找最接近该键值的结点集合
- 参数 中_Python中函数的参数传递
- Linux dbm轻量级数据库介绍与使用
- conda失败说没有写权限_爱情中,为什么男生表白失败,女生还说可以继续做朋友,想过没有...
- onActivityResult()后onresume()
- APP违法使用个人信息?不用怕,华为云VSS为你保驾护航
- nginx工作笔记004---配置https_ssl证书_视频服务器接口等
- 05章 体检套餐管理系统
- 【生信技能树2020-10-31】单细胞数据挖掘学习笔记-1.1 下载、探索数据
- 英语拾遗之基本的量词
- 电脑开机显示自动修复失败无法进入系统,解决方法(亲试有效!!!)
- 结构化数据和非结构化数据、半结构化数据的区别
- 论文:Real-Time Referring Expression Comprehension by Single-Stage Grounding Network
- 微服务商城系统(十四)微信支付
- 对Redis中主从复制、哨兵模式和集群进行部署
- edge浏览器怎么设置activex_Microsoft Edge拥抱HTML5和JavaScript,不再支持IE上的ActiveX技术...
- 【Java常用类】Instant:瞬时
热门文章
- 科技公司预备持jiu战:谷歌将允许员工在2021年7月前居家办公
- 7.3.4 异步IO(Asynchronous I/O)
- 2014\Province_C_C++_A\2 切面条
- Java中集合 练习 计算疯狂值
- webpack devserver配置_webpack中webpack-dev-server的contentBase和index属性实测
- code css怎么拿不到div_不会“编程”拿不到初中毕业证?听北京海淀教委怎么说...
- 计算机密码都有什么用,要不是他,你根本不会忘记密码。
- php中的意外type字符串,关于php:解析错误:语法错误,意外’文本’(T_STRING),期待’,’或’;’...
- php 高级特性,PHP对象、模式与实践之高级特性分析
- CALL注入--扫雷辅助(二)