CrawlSpider微信小程序社区教程贴爬取

from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from wxapp.items import WxappItemclass WxspiderSpider(CrawlSpider):name = 'wxspider'allowed_domains = ['www.wxapp-union.com']start_urls = ['http://www.wxapp-union.com/portal.php?mod=list&catid=2&page=1']rules = (Rule(LinkExtractor(allow=r'.+mod=list&catid=2&page=\d'), follow=True),Rule(LinkExtractor(allow=r'.+article-.+\.html'), callback='parse_item', follow=False),)def parse_item(self, response):title = response.xpath('//h1[@class="ph"]/text()').get()authors = response.xpath('//p[@class="authors"]')author = authors.xpath('./a/text()').get()date = authors.xpath('./span/text()').get()article = ''.join(response.xpath('//td[@id="article_content"]//text()').getall()).strip()item = WxappItem(title=title, author=author, date=date, article=article)yield item

wxspider.py

from scrapy.exporters import JsonLinesItemExporterclass WxappPipeline(object):def __init__(self):self.fp = open('wxapp.json', 'wb')self.exporter = JsonLinesItemExporter(self.fp, ensure_ascii=False, encoding='utf-8')def process_item(self, item, spider):self.exporter.export_item(item)return itemdef close_spider(self, spider):self.fp.close()

pipelines.py

import scrapyclass WxappItem(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()title = scrapy.Field()author = scrapy.Field()date = scrapy.Field()article = scrapy.Field()

items.py

转载于:https://www.cnblogs.com/lpapython/p/11160477.html

scrapy从入门到放弃 学习项目2相关推荐

  1. Django入门到放弃 学习笔记 03

    跟b站武沛齐老师的视频学习 对学习过程进行一些记录以便复习 同时自我督促 :D冲鸭 视频链接: 15天django入门到放弃-哔哩哔哩. 文章目录 内容回顾 Bootstrap安装 Fontaweso ...

  2. Scrapy从入门到放弃4--管道pipelines使用

    Scrapy管道的使用 学习目标: 掌握 scrapy管道(pipelines.py)的使用 之前我们在scrapy入门使用一节中学习了管道的基本使用,接下来我们深入的学习scrapy管道的使用 1. ...

  3. Scrapy从入门到精通(4)--项目实战爬取图书网站信息

    项目实战 url = http://books.toscrape.com 页面分析 scrapy shell U R L> scrapy shell URL>可以使用户在交互式命令行下操作 ...

  4. 自学成才,PHP从入门到精通学习路线规划

    目录 一.PHP学习教程 二.PHP快速入门 三.PHP开发环境 四.PHP基本语法 五.PHP实例教程 六. PHP学习面向对象 七. PHP框架学习 八.Linux服务器学习 九. 大并发架构学习 ...

  5. python嵩天第二版第五章_如何避免从入门到放弃——python小组学习复盘

    2019年春节python学习行动复盘2019-02-09 为了主攻python,没有参加心理学晨读.对心理学也不敢兴趣,怕耽误学习python的时间. 那么没学习心理学的情况下,python学的怎么 ...

  6. 跳过php学thinkphp,PHP学习-ThinkPHP《从入门到放弃》(六)

    此次学习主要遇到的问题,502问题: 1.在PHPStorm中试图修改PHP解释器的路径(项目下边External Libraries/偏好设置中的-Language & framework- ...

  7. 【傻瓜攻略】深度学习之从入门到放弃

    从研究生进来之后,一直到现在已经进行了一年关于DP的学习,写篇文章总结一下我蹒跚的学习过程.总结来说是一个从入门学习到几乎想要放弃的过程.顺带列举下面几个坑,希望能帮助一下同样在这条路上行走的旅人们. ...

  8. 专业放心的python入门视频_手把手教你掌握学习Python方法,让你不再从入门到放弃...

    随着数据科学概念的普及,Python 这门并不算新的语言火得一塌糊涂.因为写了几篇用 Python 做数据分析的 文章,经常有读者和学生私信问我,想学习 Python,该如何入手?我经常需要根据学习, ...

  9. gtk学习总结:GTK从入门到放弃,三天包教包会

    今天花了一些时间复习之前学习过的gtk,感觉东西光学不用忘得好快啊,在这做个之前学过的内容的备份,希望对大家有用,也希望大家不要从入门到放弃.文中有些代码例子可能来自<GTK从入门到精通> ...

最新文章

  1. Forefront_TMG_2010-TMG建立Remote ***
  2. WPF的Clipboard.SetText()有问题
  3. 处理Xcode8输出无用的Log信息
  4. 给定key值,在Binary Search Tree中查找最接近该键值的结点集合
  5. 参数 中_Python中函数的参数传递
  6. Linux dbm轻量级数据库介绍与使用
  7. conda失败说没有写权限_爱情中,为什么男生表白失败,女生还说可以继续做朋友,想过没有...
  8. onActivityResult()后onresume()
  9. APP违法使用个人信息?不用怕,华为云VSS为你保驾护航
  10. nginx工作笔记004---配置https_ssl证书_视频服务器接口等
  11. 05章 体检套餐管理系统
  12. 【生信技能树2020-10-31】单细胞数据挖掘学习笔记-1.1 下载、探索数据
  13. 英语拾遗之基本的量词
  14. 电脑开机显示自动修复失败无法进入系统,解决方法(亲试有效!!!)
  15. 结构化数据和非结构化数据、半结构化数据的区别
  16. 论文:Real-Time Referring Expression Comprehension by Single-Stage Grounding Network
  17. 微服务商城系统(十四)微信支付
  18. 对Redis中主从复制、哨兵模式和集群进行部署
  19. edge浏览器怎么设置activex_Microsoft Edge拥抱HTML5和JavaScript,不再支持IE上的ActiveX技术...
  20. 【Java常用类】Instant:瞬时

热门文章

  1. 科技公司预备持jiu战:谷歌将允许员工在2021年7月前居家办公
  2. 7.3.4 异步IO(Asynchronous I/O)
  3. 2014\Province_C_C++_A\2 切面条
  4. Java中集合 练习 计算疯狂值
  5. webpack devserver配置_webpack中webpack-dev-server的contentBase和index属性实测
  6. code css怎么拿不到div_不会“编程”拿不到初中毕业证?听北京海淀教委怎么说...
  7. 计算机密码都有什么用,要不是他,你根本不会忘记密码。
  8. php中的意外type字符串,关于php:解析错误:语法错误,意外’文本’(T_STRING),期待’,’或’;’...
  9. php 高级特性,PHP对象、模式与实践之高级特性分析
  10. CALL注入--扫雷辅助(二)