Scrapy框架爬虫——以京东众筹为例

  • 第一步, 打开命令提示符,创建一个Scrapy框架;
  • 第二步,定位到创建的文件夹;
  • 第三步,在spider文件夹中创建一个.py文件(注:不要关闭命令提示符);
  • 第四步,打开items.py这个文件,将提取信息的名称、属性写入其中;
  • 第五步,打开第三步创建的.py文件;
  • 第六步,根据网页源代码查找提取信息,编写代码(这里需要修改start_urls为访问网页的网址。删除allowed_domains,导入items.py中的Jd1Item类);
  • 第七步,打开pipelines.py,将所提取的内容写入json文件;
  • 第八步, 打开settings.py,修改访问的USER_AGENT,注释掉ROBOTSTXT_OBEY,解除ITEM_PIPELINES注释;
  • 最后,打开命令提示符,运行创建的.py文件(这里是jdzch1.py);

第一步, 打开命令提示符,创建一个Scrapy框架;

第二步,定位到创建的文件夹;

第三步,在spider文件夹中创建一个.py文件(注:不要关闭命令提示符);

第四步,打开items.py这个文件,将提取信息的名称、属性写入其中;

import scrapyclass Jd1Item(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()# 定义所找的变量的名字、属性title = scrapy.Field()perc = scrapy.Field()outc1 = scrapy.Field()money = scrapy.Field()outc2 = scrapy.Field()time = scrapy.Field()outc3 = scrapy.Field()

第五步,打开第三步创建的.py文件;

第六步,根据网页源代码查找提取信息,编写代码(这里需要修改start_urls为访问网页的网址。删除allowed_domains,导入items.py中的Jd1Item类);

提取信息的其他方式见(https://blog.csdn.net/weixin_43196531/article/details/85159471)

import scrapy
# 导入items类, 使items类生效
from jd1.items import Jd1Itemclass Jdzch1Spider(scrapy.Spider):name = 'jdzch1'start_urls = ['http://z.jd.com/bigger/search.html']def parse(self, response):result = response.xpath('//li[@class="info type_now"]')# 循环每个商品,提取所需信息for i in result:# 定义 item 字典item = Jd1Item()# 筛选信息item['title'] = i.xpath('.//h4[@class="link-tit"]/text()').extract_first()item['perc'] = i.xpath('.//li[@class="fore1"]/p[@class="p-percent"]/text()').extract_first()item['outc1'] = i.xpath('.//li[@class="fore1"]/p[@class="p-extra"]/text()').extract_first()item['money'] = i.xpath('.//li[@class="fore2"]/p[@class="p-percent"]/text()').extract_first()item['outc2'] = i.xpath('.//li[@class="fore2"]/p[@class="p-extra"]/text()').extract_first()item['time'] = i.xpath('.//li[@class="fore3"]/p[@class="p-percent"]/text()').extract_first()item['outc3'] = i.xpath('.//li[@class="fore3"]/p[@class="p-extra"]/text()').extract_first()yield item

第七步,打开pipelines.py,将所提取的内容写入json文件;

import jsonclass Jd1Pipeline(object):# 定义初始化函数def __init__(self):# 定义函数名self.filename = open('jdzch.json', 'w',encoding = 'utf-8')# 处理函数def process_item(self, item, spider):# 将json数据转化为字符串text = json.dumps(dict(item), ensure_ascii = False) + '\n'# 对文件进行写入self.filename.write(text)# 定义文件关闭函数def close_spider(self,spider):self.filename.close()

第八步, 打开settings.py,修改访问的USER_AGENT,注释掉ROBOTSTXT_OBEY,解除ITEM_PIPELINES注释;

USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.6788.400 QQBrowser/10.3.2714.400'


最后,打开命令提示符,运行创建的.py文件(这里是jdzch1.py);

文件内容如下:

Scrapy框架爬虫—以京东众筹为例相关推荐

  1. 八爪鱼爬取数据—以京东众筹为例

    八爪鱼爬取数据-以京东众筹为例 第一步,打开八爪鱼,选择自定义采集: 第二步,将网页输入"网址"框内,点击"保存网址": 第三步,在出现的网址内容中选择&quo ...

  2. Crawler之Scrapy:Python实现scrapy框架爬虫两个网址下载网页内容信息

    Crawler之Scrapy:Python实现scrapy框架爬虫两个网址下载网页内容信息 目录 输出结果 实现代码 输出结果 后期更新-- 实现代码 import scrapy class Dmoz ...

  3. Python基础知识回顾及scrapy框架爬虫基础

    1.函数 函数参数:必须 默认 关键 可变 函数种类:外部 内部 匿名 lambda 装饰函数:@语法糖 函数总是要返回的 ,若没有return,None总是被返回   2.面向对象: 对象:已存在, ...

  4. Scrapy框架爬虫案例

    Scrapy框架爬虫案例 1 什么是Scrapy 2 Scrapy架构 3 Scrapy架构图 4 案例 4.1爬取职友集中阿里巴巴招聘岗位 4.2 创建Scrapy项目 4.3 定义Item 4.4 ...

  5. scrapy框架爬取京东商城商品的评论

    一.Scrapy介绍 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. 所谓网络爬虫,就是一个在网上到处或定向抓取 ...

  6. python抓取京东联盟优惠券_备战双十一,scrapy框架爬取京东优惠券信息

    爬取流程分析 京东有点好就是有个领券中心,所有购物券都集中在一个页面,可以通过scrapy等爬虫框架很容易的爬取.其中,一个购物券部分的代码如下: ... ... ... ... 这段代码中 clas ...

  7. Spider Scrapy 框架爬虫

    scrapy 是一款常用的爬虫框架,可以实现分布式爬虫和高性能的爬虫 scrapy 框架的创建实在cmd命令行下进行的: 首先要在命令行下转到你要创建的文件夹下: cd 目标文件夹路径 创建的是一个工 ...

  8. 十 web爬虫讲解2—Scrapy框架爬虫—Scrapy安装—Scrapy指令

    Scrapy框架安装 1.首先,终端执行命令升级pip: python -m pip install --upgrade pip 2.安装,wheel(建议网络安装) pip install whee ...

  9. python scrapy框架爬虫_Python Scrapy爬虫框架

    Scrapy爬虫框架结构: 数据流的3个路径: 一: 1.Engine从Spider处获得爬取请求(Request) 2.Engine将爬取请求转发给Scheduler,用于调度 二: 3.Engin ...

最新文章

  1. 中山大学 计算机院博士录取名学,中山大学2021年博士研究生招生拟录取名单公示,2510人!...
  2. hadoop + spark+ hive 集群搭建(apache版本)
  3. Oracle 验证A表的2个字段组合不在B表2个字段组合里的数据
  4. Java常用软件教程
  5. 优点 spark_spark(一)
  6. C 与 C++ 40 年的爱恨情仇
  7. CSS3笔记之定位篇(一)relative
  8. 关于内存地址和内存空间的理解。
  9. 全网首发:神奇的WORD文字渲染效果,18个字符一组,每个字符渲染效果不同
  10. wps vba宏插件_wps下载_wps下载免费完整版客户端[办公软件]
  11. 用mysql语句备份_MySql常用备份及恢复语句
  12. Python学习报告
  13. 骨传导耳机到底怎么样,五款好用的骨传导耳机推荐
  14. 西班牙监管机构允许特定基金直接投资加密货币
  15. 普元 AppServer 部署应用时报错:Exception while loading the app : CDI deployment failure
  16. Unity3D学习记录——爆炸特效
  17. https服务器搭建
  18. 微信支付:商户订单号重复
  19. 揭秘蓝牙定位技术,实现精准室内导航
  20. VMware Ubuntu20网络设置和DNS设置

热门文章

  1. C#C#textbox设置滚动条
  2. 45招绝密电脑全面小技巧汇总
  3. 中级数据库和系统集成哪个好考?
  4. spyder无法显示绘图
  5. Engine Biosciences宣布获得超额认购的4300万美元A轮融资,以通过机器学习和新一代组合遗传学破译新药开发遗传密码
  6. lisp调用qleader端点_CAD常用命令大全全解.doc
  7. StringUtils.isBlank的pom 使用Maven导入
  8. Word中公式自动编号及交叉引用:简单、详细、可用
  9. Java POI Excel移动行和复制行的处理
  10. 挂脖式运动蓝牙耳机什么牌子的好、运动蓝牙挂脖耳机推荐