Scrapy-2:东莞阳光政务平台
系统:win10
python版本:3.8.2
scrapy版本:2.1.0
网址:https://wz.sun0769.com/political/index/supervise(2021-08)
spiders代码:
# -*- coding: utf-8 -*-
import scrapy
from yangguang.items import YangguangItemclass YgSpider(scrapy.Spider):name = 'yg'allowed_domains = ['sun0769.com']start_urls = ['https://wz.sun0769.com/political/index/supervise']def parse(self, response):lists = response.xpath('//ul[@class="title-state-ul"]/li')for each in lists:item = YangguangItem()item['title'] = each.xpath('./span[@class="state3"]/a/text()').extract_first()item['publish_date'] = each.xpath('./span[last()]/text()').extract_first()item['href'] = 'https://wz.sun0769.com/' + each.xpath('./span[@class="state3"]/a/@href').extract_first()yield scrapy.Request(url=item['href'],meta={'item':item},callback= self.parse_detail)next_url = response.xpath('//div[@class="mr-three paging-box"]/a[@class="arrow-page prov_rota"]/@href').extract_first()next_url = 'https://wz.sun0769.com/' + next_urlyield scrapy.Request(next_url,callback=self.parse)def parse_detail(self, response):item = response.meta['item']item['content'] = response.xpath('//div[@class="mr-three"]/div[@class="details-box"]/pre/text()').extract_first()item['content_img'] = response.xpath('//div[@class="mr-three"]/div[@class="clear details-img-list Picture-img"]/img/@src').extract_first()yield item
items.py文件:
import scrapyclass YangguangItem(scrapy.Item):title = scrapy.Field()publish_date = scrapy.Field()content_img = scrapy.Field()content = scrapy.Field()href = scrapy.Field()
pipelines.py文件
class YangguangPipeline:def process_item(self, item, spider):print(item)return item
setting中设置pipelines,
终端中启动:scrapy crawl yg即可
新知识点:学习items.py文件中的类的部署、用scrapy进行翻页、进行详情页的解析、利用scrapy.Requests中的meta参数传递列表页数据。
Scrapy-2:东莞阳光政务平台相关推荐
- BPM软件选型:打通采购主“脉络”,构建阳光高效平台
BPM软件选型:打通采购主"脉络",构建阳光高效平台 现如今企业采购低质低效.采购成本高,是多数企业采购管理不善的"通病".Ultimus流程化采购招投标管理系 ...
- python模拟用户登录爬取阳光采购平台数据
阳光采购平台每月初会把当月的价格挂到平台上,现模拟用户登录平台,将需要的数据保存到csv文件和数据库,并且发送给指定人员. 开发环境搭建: 网上教程一大堆,不赘述了.安装好后需要安装一些必须的库,如下 ...
- 基于“云计算”技术的电子政务平台
电子政务工作模式在不断发生着变化,尤其是现在信息技术的高效应用,政府工作内容以及作业模式在持续更新,有必要基于新型技术来建立全新的工作平台,以求更好的适应各种变化.以云计算技术作为核心,构建功能完善的 ...
- 支撑电子政务平台的CMS内容管理系统
支撑电子政务平台的CMS内容管理系统 随着政府信息化的逐步深入,基层(包括县乡以及政府各部门)的电子政务平台建设开始演绎主角.电子政务平台正从"面"渗透到"点" ...
- 电子政务平台需求开发 建设方案
2010-08-12 作者:张以海 来源:张以海的blog 一.项目概述某某区电子政务平台将是某某区区域性政府的综合电子政务应用平台,平台将为区各级机关用户提供统一的用户认证.应用导航.门户服务,统一 ...
- 某某区电子政务平台需求工程方法建议
2010-08-12 作者:张以海 来源:张以海的blog 一.项目概述 某某区电子政务平台将是某某区区域性政府的综合电子政务应用平台,平台将为区各级机关用户提供统一的用户认证.应用导航.门户服务,统 ...
- SOA构建电子政务平台 可用多种通信手段访问
未来在基于SOA上会建立一个统一的电子政务平台,在这个平台上,可以通过电脑.电话.信息亭.手机等各种通信手段来登陆,获取信息.在第四界中国软件技术大会上,IBM中国软件部政府行业软件架构设计师施振纲这 ...
- 支撑电子政务平台的CMS内容管理系统 1
随着政府信息化的逐步深入,基层(包括县乡以及政府各部门)的电子政务平台建设开始演绎主角.电子政务平台正从"面"***到"点",数据中心平台正从中大型应用转向基层 ...
- 用soa搭建统一的电子政务平台
正如电子商务的出现彻底改变了传统商务的运作模式,电子政务也正在全球范围内推动着政府部门和公共事业机构走向高效.开放与创新.经过二十多年的建设,特别是近五年的跳跃性发展,中国各级政府的电子政务建设已经打 ...
- 飞天政务开放体系:数据为中心的云上政务平台与创新生态
摘要:本文的整理自2017云栖大会-南京峰会上阿里云政府业务架构总监史大治的分享讲义,讲义从政务工作的机遇与挑战谈起,介绍了电子政务与政务云建设的一些变化.并分享了如何理解"政务云" ...
最新文章
- Serverless特点及应用
- 编写的windows程序,崩溃时产生crash dump文件的办法
- Django实战1-权限管理功能实现-10:用户管理
- 【数据结构和算法笔记】二叉树和树/森林的相互转换
- vue-cli3+cordova实现app混合开发
- make_classification参数
- 【verilog教程】第3篇:verilog关键词
- 数学建模——怎样学习数学建模
- c和指针(小白笔记)
- 工作流框架Flowable
- windows server 远程登录后总是出现屏幕键盘,烦死人了
- linux 文件大小单位显示
- 扎克伯格引领的硅谷“裸捐”风
- 磁盘管理器/磁盘管理工具给电脑硬盘分区
- 网站性能优化— WebP 全方位介绍
- PMP考前冲刺2.20 | 2023新征程,一举拿证
- 测试工具和测试自动化
- c语言:数据保存的方法实现简易贪吃蛇
- 壹连科技冲刺深交所:年营收14亿 65%收入来自宁德时代
- 基于Arduino的魔兽世界挂机装置