该文章仅供学习,如有错误,欢迎指出

1.开始创建一个项目

mkdir s古诗网

2.进入到文件夹下创建python3的虚拟环境

pipenv install scrapy

3.进入pipenv 下使用scrapy命令创建爬虫项目

pipenv shell
scrapy startproject gushi
cd gushi
scrapy genspider test www.gushiwen.org


完成项目的创建

4.写方法
这里对通用爬虫有两个方法

class TestSpider(scrapy.Spider):name = 'test'                             #启动爬虫的名字allowed_domains = ['www.lagou.com']       #域名,没啥start_urls = ['http://www.lagou.com/']    #开始爬取的地址def parse(self, response):                passdef start_requests(self):                pass
#爬虫运行之后,程序会先去访问start_requests方法,之后访问start_urls,得到response之后将response交给parse方法

5.使用css选择器解析response 并用yield返回

    def parse(self,response):href = response.css('form .pagesright a::attr(href)')[0].extract()next_url = response.urljoin(href)item = gushiItem()all = response.css('.sons')for i in all[0:10]:title = i.css('.cont p a b::text')[0].extract()text = i.css('.contson p::text').extract()if len(text) == 0:text = i.css('.contson::text').extract()chaodai_name = i.css('.source')for j in chaodai_name:chaodai = j.css('a::text')[0].extract()name = j.css('a::text')[1].extract()item['title'] = titleitem['text'] = textitem['chaodai'] = chaodaiitem['name'] = nameyield itemyield Request(next_url,callback=self.parse)

6.设定自己的item

class gushiItem(scrapy.Item):title = scrapy.Field()text  = scrapy.Field()chaodai = scrapy.Field()name =scrapy.Field()

运行程序

scrapy crawl -o test.json   #生成json文件
scrapy crwal -o test.csv     #生成csv文件

接下来会爬去拉勾网的数据

1.简单爬虫————爬取古诗网相关推荐

  1. 在当当买了python怎么下载源代码-python爬虫爬取当当网

    [实例简介]python爬虫爬取当当网 [实例截图] [核心代码] ''' Function: 当当网图书爬虫 Author: Charles 微信公众号: Charles的皮卡丘 ''' impor ...

  2. python爬虫爬取慕课网中的图片

    我们简单地爬取慕课网中免费课程下的第一页的图片,如想爬取多页图片,可以添加for循环自行实现 python版本:3.6.5 爬取网址:http://www.imooc.com/course/list ...

  3. python爬虫爬取当当网的商品信息

    python爬虫爬取当当网的商品信息 一.环境搭建 二.简介 三.当当网网页分析 1.分析网页的url规律 2.解析网页html页面 书籍商品html页面解析 其他商品html页面解析 四.代码实现 ...

  4. python爬虫爬取知网

    python爬虫爬取知网 话不多说,直接上代码! import requests import re import time import xlrd from xlrd import open_wor ...

  5. [python爬虫]爬取天气网全国所有县市的天气数据

    [python爬虫]爬取天气网全国所有县市的天气数据 访问URL 解析数据 保存数据 所要用到的库 import requests from lxml import etree import xlwt ...

  6. python爬虫爬取东方财富网股票走势+一些信息

    一.目标 我们的目标是爬取东方财富网(https://www.eastmoney.com/)的股票信息 我的目标是爬取100张股票信息图片 经过实际测试我的爬取范围为000001-000110,000 ...

  7. Python爬虫爬取东方财富网的股票信息

    简单的Python爬虫应用 目标:爬取东方财富网的股票信息 1.先找到要爬取的网页 2.第二步开始爬取信息 2.1 通过requests获取网页信息 2.2再通过BeautifulSoup解析: 2. ...

  8. Python 爬虫第三步 -- 多线程爬虫爬取当当网书籍信息

    XPath 的安装以及使用 1 . XPath 的介绍 刚学过正则表达式,用的正顺手,现在就把正则表达式替换掉,使用 XPath,有人表示这太坑爹了,早知道刚上来就学习 XPath 多省事 啊.其实我 ...

  9. java用爬虫爬一个页面_使用Java写一个简单爬虫爬取单页面

    使用Java爬虫爬取人民日报公众号页面图片 使用Java框架Jsoup和HttpClient实现,先看代码 爬取目标页面 1.使用Maven构建一个普通Java工程 加入依赖: org.jsoup j ...

最新文章

  1. wrs-tuya-cloud
  2. 【经典概念】一文详解Batch Normalization!!!
  3. Bootstrap系列 -- 28. 下拉菜单状态
  4. SVM(一) 问题的提出
  5. jQuery基础教程之如何注册以及触发自定义事件
  6. python 策略回测_python策略怎么进行全市场回测-金字塔知识 -程序化交易(CXH99.COM)...
  7. jQuery源码分析系列(31) : Ajax deferred实现
  8. 大屏可视化Axure效果图数据管理后台设计PSD样图HTML静态模板(共5771份,27.8G,附件中为网盘链接)
  9. 外网访问腾讯云Debian系统服务器8081端口
  10. iOS-二级评论功能
  11. 动态分级存储特性-SmartTier
  12. 如何使用Xcode的Targets来管理开发和生产版本的构建( 还不懂,复制过来后面再看)
  13. 首个Adobe XD教程丨如何用Adobe Experience Design (XD)快速设计图标
  14. 数据可视化一:Excel数据可视化
  15. 向无所不能逼近的算法 逻辑与算法之一
  16. Python销售管理系统
  17. Attach、Detach和DeleteObject
  18. 安卓4G/5G无线图传终端(单兵执法记录仪、智能安全帽、头盔摄像头)常见问题
  19. 如何制作linux iso镜像
  20. 2020.2.26 数学函数(吃苹果问题)

热门文章

  1. Switch 改变样式
  2. 互联网公司招聘--华为--校园招聘程序员--2015年笔试题
  3. 144. SmallTalk //表达式求值
  4. mysql insert 嵌套_「insert语句」数据库插入insert语句中添加嵌套查询select - seo实验室...
  5. 基于STM32的IAP升级程序
  6. 【云计算】从Serverless说起,谈谈边缘计算的未来;从物理机到Kubernetes的那些坑与心得
  7. 计算机信息管理在第三方物流中的应用
  8. Eclipse 的 JET 技术
  9. 正则表达式 以=开头 以结尾 取得的中间的内容
  10. 23|VS2017 基于MFC 做一个音乐播放器,带音量调节,切换歌曲