建包

对于网络爬虫,我们首先要做的便是利用命令行创建文本包,本文命名为cast


scrapy startproject castcd castscrapy genspider ast itcast.cn

具体步骤如下图:

屏幕快照 2019-05-12 下午09.47.06 上午.png

对生成的item文件进行编写:


import scrapyclass CastItem(scrapy.Item):# define the fields for your item here like:name = scrapy.Field()position = scrapy.Field()detail = scrapy.Field()

对ast文件进行修改

# -*- coding: utf-8 -*-
import scrapy
from cast.items import CastItemclass AstSpider(scrapy.Spider):name = 'ast'allowed_domains = ['itcast.cn']start_urls = ['http://www.itcast.cn/channel/teacher.shtml']def parse(self, response):node_list = response.xpath('//div[@class="li_txt"]')for node in node_list:item = CastItem()name = response.xpath('//h3/text()').extract()position = response.xpath('//h4/text()').extract()detail = response.xpath('//p/text()').extract()item['name'] = name[0].encode('utf-8')item['position'] = position[0].encode('utf-8')item['detail'] = detail[0].encode('utf-8')yield item

修改管道文件

import jsonclass CastPipeline(object):def __init__(self):self.f = open("1.json", "w")def process_item(self, item, spider):content = json.dumps(str(dict(item)), ensure_ascii=False) + ',\n'self.f.write(content)return itemdef close_spider(self, spider):self.f.close()

开启通道,结束

利用scrapy爬取itcast的老师信息的超级详细步骤相关推荐

  1. 利用scrapy爬取58同城租房信息

    tc.py 代码 # -*- coding: utf-8 -*- import scrapy from ..items import TcItemclass Tc58Spider(scrapy.Spi ...

  2. 爬虫进阶 之 Scrapy 框架 1(实例: 爬取ITcast 的教师信息)

    Scrapy 什么是Scrapy 简介 Scrapy 架构 使用Scrapy 爬取 ITcast 什么是Scrapy 简介 Scrapy是适用于Python的一个快速.高层次的屏幕抓取和web抓取框架 ...

  3. Python利用Scrapy爬取前程无忧

    ** Python利用Scrapy爬取前程无忧 ** 一.爬虫准备 Python:3.x Scrapy PyCharm 二.爬取目标 爬取前程无忧的职位信息,此案例以Python为关键词爬取相应的职位 ...

  4. 使用scrapy爬取斗鱼直播间信息

    目录 1. 谷歌抓包工具的使用 1.1 打开Chrome开发者工具的方法 1.2 开发者工具的结构 1.3 network模块 2. 使用谷歌抓包工具抓取斗鱼数据 3. 使用scrapy爬取斗鱼直播间 ...

  5. 利用Selenium爬取淘宝商品信息

    文章来源:公众号-智能化IT系统. 一.  Selenium和PhantomJS介绍 Selenium是一个用于Web应用程序测试的工具,Selenium直接运行在浏览器中,就像真正的用户在操作一样. ...

  6. python爬虫scrapy爬取新闻标题及链接_python爬虫框架scrapy爬取梅花网资讯信息

    原标题:python爬虫框架scrapy爬取梅花网资讯信息 一.介绍 本例子用scrapy-splash爬取梅花网(http://www.meihua.info/a/list/today)的资讯信息, ...

  7. Scrapy爬取知乎用户信息以及人际拓扑关系

    Scrapy爬取知乎用户信息以及人际拓扑关系 1.生成项目 scrapy提供一个工具来生成项目,生成的项目中预置了一些文件,用户需要在这些文件中添加自己的代码. 打开命令行,执行:scrapy sta ...

  8. 利用scrapy爬取京东移动端的图片素材和商品信息

    有一个练习项目需要一些带分类信息的商品测试图片,从现有的电商网站爬取是个不错的选择.刚好最近又在练习scrapy的使用,这一篇记录一下用scrapy爬取京东的图片素材并保存商品信息的思路. 文中代码共 ...

  9. Scrapy爬取知乎用户信息

    1 爬取逻辑 先选取一个用户,爬取他的粉丝列表和关注列表.然后对每个粉丝进行分析,找出他们的粉丝列表和关注列表,以此往复,递归下去,就可以爬取大部分的用户信息了.通过一个树形的结构,蔓延到所有的用户. ...

最新文章

  1. 【JOURNAL】恭喜发财
  2. tortoise清理本地分支_本地:延庆运污水环卫抽化粪池
  3. mysql 重置root密码 远程访问_重置mysql的root密码以及设置mysql远程登陆权限
  4. CodeForces - 888C K-Dominant Character 思维
  5. SparkStreaming优化
  6. cad汉仪长仿宋体_工程制图国标字体“长仿宋体”下载
  7. word目录怎么自动生成?写作人必学的小技巧
  8. 学习布局(21)HTML5新标签
  9. 【2018-2019】咖啡般的生活,我们互相羡慕着彼此
  10. 人工智能已经成为新一轮科技革命和产业变革的重要驱动力量
  11. centos cpu排查_Linux/CENTOS 系统 CPU 占用率较高负载较高问题排查思路 - 沃森博客...
  12. 异地恋的自愈系小故事:企鹅先生和北极熊小姐
  13. 19254:狙击战(二分答案)
  14. <Zhuuu_ZZ>Spark Streaming
  15. 金色传说:SAP-ABAP-VK11/VK12/VK13保存时增强
  16. 蓝桥杯单片机国赛客观题_【单片机自学入门必+收藏】蓝桥杯Arduino单片机 | 02 趣玩TM1637四位数码管模块...
  17. EO.WebBrowser使用
  18. 详解1247:河中跳房子(二分经典例题)
  19. 16 - Workbench分析类型与通用求解设置
  20. 基于轮廓发现的几何形状识别

热门文章

  1. 清华计算机研究生和五道口哪个难考6,最难考研的6所大学,考上就是“铁饭碗”,前途不可限量...
  2. 用CSS巧控制段落缩进段落首字下沉
  3. 【STP生成树】(桥ID、根桥、cost、RPC、接口ID、BPDU报文格式、端口选举举例)-20211216.20211217
  4. iOS高仿国美商城、仪表盘、卡片日记、快速拨号、换主题、3D 动画等源码 1
  5. 小米5 miui8 折腾 Linux Deploy 经验
  6. 二叉树前序遍历三种方式(c++ 实现)
  7. java 小票打印_GitHub - SubLuLu/thermal_printer: Java实现网络小票打印机自定义无驱打印...
  8. 自媒体人值得收藏的6个网址
  9. InkScape绘制抖音LOGO的教程
  10. html在表中加入输入框,HTML表单和输入文本框