1.简单爬虫————爬取古诗网
该文章仅供学习,如有错误,欢迎指出
1.开始创建一个项目
mkdir s古诗网
2.进入到文件夹下创建python3的虚拟环境
pipenv install scrapy
3.进入pipenv 下使用scrapy命令创建爬虫项目
pipenv shell
scrapy startproject gushi
cd gushi
scrapy genspider test www.gushiwen.org
完成项目的创建
4.写方法
这里对通用爬虫有两个方法
class TestSpider(scrapy.Spider):name = 'test' #启动爬虫的名字allowed_domains = ['www.lagou.com'] #域名,没啥start_urls = ['http://www.lagou.com/'] #开始爬取的地址def parse(self, response): passdef start_requests(self): pass
#爬虫运行之后,程序会先去访问start_requests方法,之后访问start_urls,得到response之后将response交给parse方法
5.使用css选择器解析response 并用yield返回
def parse(self,response):href = response.css('form .pagesright a::attr(href)')[0].extract()next_url = response.urljoin(href)item = gushiItem()all = response.css('.sons')for i in all[0:10]:title = i.css('.cont p a b::text')[0].extract()text = i.css('.contson p::text').extract()if len(text) == 0:text = i.css('.contson::text').extract()chaodai_name = i.css('.source')for j in chaodai_name:chaodai = j.css('a::text')[0].extract()name = j.css('a::text')[1].extract()item['title'] = titleitem['text'] = textitem['chaodai'] = chaodaiitem['name'] = nameyield itemyield Request(next_url,callback=self.parse)
6.设定自己的item
class gushiItem(scrapy.Item):title = scrapy.Field()text = scrapy.Field()chaodai = scrapy.Field()name =scrapy.Field()
运行程序
scrapy crawl -o test.json #生成json文件
scrapy crwal -o test.csv #生成csv文件
接下来会爬去拉勾网的数据
1.简单爬虫————爬取古诗网相关推荐
- 在当当买了python怎么下载源代码-python爬虫爬取当当网
[实例简介]python爬虫爬取当当网 [实例截图] [核心代码] ''' Function: 当当网图书爬虫 Author: Charles 微信公众号: Charles的皮卡丘 ''' impor ...
- python爬虫爬取慕课网中的图片
我们简单地爬取慕课网中免费课程下的第一页的图片,如想爬取多页图片,可以添加for循环自行实现 python版本:3.6.5 爬取网址:http://www.imooc.com/course/list ...
- python爬虫爬取当当网的商品信息
python爬虫爬取当当网的商品信息 一.环境搭建 二.简介 三.当当网网页分析 1.分析网页的url规律 2.解析网页html页面 书籍商品html页面解析 其他商品html页面解析 四.代码实现 ...
- python爬虫爬取知网
python爬虫爬取知网 话不多说,直接上代码! import requests import re import time import xlrd from xlrd import open_wor ...
- [python爬虫]爬取天气网全国所有县市的天气数据
[python爬虫]爬取天气网全国所有县市的天气数据 访问URL 解析数据 保存数据 所要用到的库 import requests from lxml import etree import xlwt ...
- python爬虫爬取东方财富网股票走势+一些信息
一.目标 我们的目标是爬取东方财富网(https://www.eastmoney.com/)的股票信息 我的目标是爬取100张股票信息图片 经过实际测试我的爬取范围为000001-000110,000 ...
- Python爬虫爬取东方财富网的股票信息
简单的Python爬虫应用 目标:爬取东方财富网的股票信息 1.先找到要爬取的网页 2.第二步开始爬取信息 2.1 通过requests获取网页信息 2.2再通过BeautifulSoup解析: 2. ...
- Python 爬虫第三步 -- 多线程爬虫爬取当当网书籍信息
XPath 的安装以及使用 1 . XPath 的介绍 刚学过正则表达式,用的正顺手,现在就把正则表达式替换掉,使用 XPath,有人表示这太坑爹了,早知道刚上来就学习 XPath 多省事 啊.其实我 ...
- java用爬虫爬一个页面_使用Java写一个简单爬虫爬取单页面
使用Java爬虫爬取人民日报公众号页面图片 使用Java框架Jsoup和HttpClient实现,先看代码 爬取目标页面 1.使用Maven构建一个普通Java工程 加入依赖: org.jsoup j ...
最新文章
- wrs-tuya-cloud
- 【经典概念】一文详解Batch Normalization!!!
- Bootstrap系列 -- 28. 下拉菜单状态
- SVM(一) 问题的提出
- jQuery基础教程之如何注册以及触发自定义事件
- python 策略回测_python策略怎么进行全市场回测-金字塔知识 -程序化交易(CXH99.COM)...
- jQuery源码分析系列(31) : Ajax deferred实现
- 大屏可视化Axure效果图数据管理后台设计PSD样图HTML静态模板(共5771份,27.8G,附件中为网盘链接)
- 外网访问腾讯云Debian系统服务器8081端口
- iOS-二级评论功能
- 动态分级存储特性-SmartTier
- 如何使用Xcode的Targets来管理开发和生产版本的构建( 还不懂,复制过来后面再看)
- 首个Adobe XD教程丨如何用Adobe Experience Design (XD)快速设计图标
- 数据可视化一:Excel数据可视化
- 向无所不能逼近的算法 逻辑与算法之一
- Python销售管理系统
- Attach、Detach和DeleteObject
- 安卓4G/5G无线图传终端(单兵执法记录仪、智能安全帽、头盔摄像头)常见问题
- 如何制作linux iso镜像
- 2020.2.26 数学函数(吃苹果问题)
热门文章
- Switch 改变样式
- 互联网公司招聘--华为--校园招聘程序员--2015年笔试题
- 144. SmallTalk //表达式求值
- mysql insert 嵌套_「insert语句」数据库插入insert语句中添加嵌套查询select - seo实验室...
- 基于STM32的IAP升级程序
- 【云计算】从Serverless说起,谈谈边缘计算的未来;从物理机到Kubernetes的那些坑与心得
- 计算机信息管理在第三方物流中的应用
- Eclipse 的 JET 技术
- 正则表达式 以=开头 以结尾 取得的中间的内容
- 23|VS2017 基于MFC 做一个音乐播放器,带音量调节,切换歌曲