Scrapy爬取阳光政务平台信息

  • 一、普通Scrapy爬取
  • 二、Scrapy CrawlSpider爬取

需求:实现翻页爬取,用xpath实现翻页获取

一、普通Scrapy爬取

1、创建一个scrapy项目

scrapy startproject sun


2、生成一个爬虫文件

scrapy genspider yg wz.sun0769.com


3、设置settings,添加log日志等级


4、添加一个文件运行爬虫

from scrapy import cmdline
cmdline.execute(['scrapy','crawl','yg'])

5、将要爬取的字段名添加到 items.py 文件中


6、将指定文件作为根目录,导入items类,开始编写



列表页函数来爬取标题和详情页url


在列表页和详情页函数间进行翻页

详情页函数获取详情页数据

二、Scrapy CrawlSpider爬取

1、创建一个scrapy项目

scrapy startproject sun_crawl

2、生成一个 crawlspider 爬虫文件

scrapy genspider -t crawl cyg wz.sun0769.com


3、设置settings,添加log日志等级


4、添加一个文件运行爬虫

from scrapy import cmdline
cmdline.execute(['scrapy','crawl','cyg'])

5、开始爬取

以下是自动生成的代码,向其中补充内容即可


开始添加



Python爬虫16-Scrapy爬取阳光政务平台信息相关推荐

  1. python爬虫scrapy爬取新闻标题及链接_python爬虫框架scrapy爬取梅花网资讯信息

    原标题:python爬虫框架scrapy爬取梅花网资讯信息 一.介绍 本例子用scrapy-splash爬取梅花网(http://www.meihua.info/a/list/today)的资讯信息, ...

  2. [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(四) —— 应对反爬技术(选取 User-Agent、添加 IP代理池以及Cookies池 )

    上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(三) -- 数据的持久化--使用MongoDB存储爬取的数据 最近项目有些忙,很多需求紧急上线,所以一直没能完善< 使用 ...

  3. [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(二) —— 编写一个基本的 Spider 爬取微博用户信息

    上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(一) -- 新建爬虫项目 在上一篇我们新建了一个 sina_scrapy 的项目,这一节我们开始正式编写爬虫的代码. 选择目标 ...

  4. [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(三) —— 数据的持久化——使用MongoDB存储爬取的数据

    上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(二) -- 编写一个基本的 Spider 爬取微博用户信息 在上一篇博客中,我们已经新建了一个爬虫应用,并简单实现了爬取一位微 ...

  5. Python爬虫入门 | 4 爬取豆瓣TOP250图书信息

      先来看看页面长啥样的:https://book.douban.com/top250   我们将要爬取哪些信息:书名.链接.评分.一句话评价--   1. 爬取单个信息 我们先来尝试爬取书名,利用之 ...

  6. python爬虫——用selenium爬取淘宝商品信息

    python爬虫--用selenium爬取淘宝商品信息 1.附上效果图 2.淘宝网址https://www.taobao.com/ 3.先写好头部 browser = webdriver.Chrome ...

  7. python爬虫之Scrapy爬取股票信息的示例

    python爬虫之Scrapy的使用步骤 首先讲讲教程的例子,还是以百度股票为例子进行讲解 Scrapy的使用步骤 建立工程和Spider模版 编写Spider 编写ITEM Pipelines 前请 ...

  8. python爬虫:scrapy爬取传智播客教师信息

    推荐一个Chrome浏览器的xpath解析工具: xPath helper 轻松获取HTML元素的xPath 打开/关闭控制台:Ctrl-Shift键-X 参考:介绍一款chrome爬虫网页解析工具- ...

  9. 用 Python 爬虫框架 Scrapy 爬取心目中的女神

    From :http://www.cnblogs.com/wanghzh/p/5824181.html 本博文将带领你从入门到精通爬虫框架 Scrapy,最终具备爬取任何网页的数据的能力. 本文以校花 ...

  10. python爬虫,Scrapy爬取豆瓣电影《芳华》电影短评,分词生成词云图。

    项目github地址:https://github.com/kocor01/scrapy_cloud Python版本为3.6 自己写的简单架构<python爬虫,爬取豆瓣电影<芳华> ...

最新文章

  1. 基于kryo序列化方案的memcached-session-manager多memcached...
  2. Ceph v12.2 Luminous基于ubuntu16.04集群部署
  3. 【AI初识境】深度学习中常用的损失函数有哪些?
  4. k8s部署etcd数据库集群
  5. ASP.NET MVC下使用SWFUpload完成剪切头像功能
  6. Python之Time模块
  7. C语言入门基础之输入和输出
  8. python怎么写入到文件中_Python学习笔记之将数据写入到文件中
  9. MATLAB生成数组
  10. VMware 怎么解决VMware“该虚拟机似乎正在使用中”问题
  11. 通过读取原始星历文件数据推算GPS卫星位置坐标
  12. Qt编写的开源帖子集合(懒人专用)
  13. c语言报告对老师的致谢,论文对老师的致谢
  14. STM32F429_DWM物联网开发板
  15. 中国糯米粉行业品牌竞争策略与规模现状分析报告2022-2028年
  16. 【完美解决】修复concrt140.dll未找到错误的问题
  17. 啊哈C——学习2.6一起来找茬
  18. Android 开发初步环境搭建
  19. L2级ADAS前装搭载量1月同比增超6成,国产供应商“崭露头角”
  20. 在PPT中插入数据透视表(数据透视图)

热门文章

  1. AHT20温湿度传感器数据采集
  2. 《Labeled Data Generation with Inexact Supervision》 KDD-2021 论文阅读
  3. Mysql基本知识1
  4. 小程序云开发实现上传图片功能
  5. java 计算器 正负号转换_【计算器正负号】一个小程序,有点问题
  6. 专升本英语固定词组搭配500个
  7. Freeswitch+Sip.js实现软电话功能
  8. 一个项目经理成长的心路历程,是谁在孤独的夜里抹眼泪
  9. python监控服务器cpu温度实例_用python访问CPU温度
  10. 解决 Win7 远程桌面 已停止工作的问题