scrapy-splash抓取动态数据例子三
一、介绍
本例子用scrapy-splash抓取今日头条网站给定关键字抓取咨询信息。
给定关键字:打通;融合;电视
抓取信息内如下:
1、资讯标题
2、资讯链接
3、资讯时间
4、资讯来源
二、网站信息
三、数据抓取
针对上面的网站信息,来进行抓取
1、首先抓取信息列表
抓取代码:sels = site.xpath('//div[@class="articleCard"]')
2、抓取标题
由于在抓取标题的时候,在列表页不太好抓取,所以就绕了一下直接每条资讯的链接页面来抓取标题
抓取代码:titles = sel.xpath('.//div[@class="doc-title"]/text()')
3、抓取链接
抓取代码:url = 'http://www.toutiao.com' + str(sel.xpath('.//a[@class="link title"]/@href')[0].extract())
4、抓取日期
抓取代码:dates = sel.xpath('.//span[@class="lbtn"]/text()')
5、抓取来源
抓取代码:source=str(sel.xpath('.//a[@class="lbtn source J_source"]/text()')[0].extract())
四、完整代码
1、toutiaoSpider
# -*- coding: utf-8 -*- import scrapy from scrapy import Request from scrapy.spiders import Spider from scrapy_splash import SplashRequest from scrapy_splash import SplashMiddleware from scrapy.http import Request, HtmlResponse from scrapy.selector import Selector from scrapy_splash import SplashRequest from splash_test.items import SplashTestItem import IniFile import sys import os import re import timereload(sys) sys.setdefaultencoding('utf-8')# sys.stdout = open('output.txt', 'w')class toutiaoSpider(Spider):name = 'toutiao'configfile = os.path.join(os.getcwd(), 'splash_test\spiders\setting.conf')cf = IniFile.ConfigFile(configfile)information_keywords = cf.GetValue("section", "information_keywords")information_wordlist = information_keywords.split(';')websearchurl = cf.GetValue("toutiao", "websearchurl")start_urls = []for word in information_wordlist:start_urls.append(websearchurl + word)# request需要封装成SplashRequestdef start_requests(self):for url in self.start_urls:index = url.rfind('=')yield SplashRequest(url, self.parse, args={'wait': '2'},meta={'keyword': url[index + 1:]})def date_isValid(self, strDateText):'''判断日期时间字符串是否合法:如果给定时间大于当前时间是合法,或者说当前时间给定的范围内:param strDateText: 四种格式 '2小时前'; '2天前' ; '昨天' ;'2017.2.12 ':return: True:合法;False:不合法'''currentDate = time.strftime('%Y-%m-%d')if strDateText.find('分钟前') > 0 or strDateText.find('刚刚') > -1:return True, currentDateelif strDateText.find('小时前') > 0:datePattern = re.compile(r'\d{1,2}')ch = int(time.strftime('%H')) # 当前小时数strDate = re.findall(datePattern, strDateText)if len(strDate) == 1:if int(strDate[0]) <= ch: # 只有小于当前小时数,才认为是今天return True, currentDatereturn False, ''def parse(self, response):site = Selector(response)# it_list = []keyword = response.meta['keyword']sels = site.xpath('//div[@class="articleCard"]')for sel in sels:dates = sel.xpath('.//span[@class="lbtn"]/text()')if len(dates) > 0:flag, date = self.date_isValid(dates[0].extract())if flag:url = 'http://www.toutiao.com' + str(sel.xpath('.//a[@class="link title"]/@href')[0].extract())source=str(sel.xpath('.//a[@class="lbtn source J_source"]/text()')[0].extract())yield SplashRequest(url, self.parse_item, args={'wait': '1'},meta={'date': date, 'url': url,'keyword': keyword, 'source': source})def parse_item(self, response):site = Selector(response)it = SplashTestItem()titles = site.xpath('//h1[@class="article-title"]/text()')count = 0if len(titles) > 0:keyword = response.meta['keyword']strtiltle = str(titles[0].extract())if strtiltle.find(keyword) > -1:it['title'] = strtiltleit['url'] = response.meta['url']it['date'] = response.meta['date']it['keyword'] = keywordit['source'] = response.meta['source']return it
2、SplashTestItem
# -*- coding: utf-8 -*-# Define here the models for your scraped items # # See documentation in: # http://doc.scrapy.org/en/latest/topics/items.htmlimport scrapyclass SplashTestItem(scrapy.Item):#标题title = scrapy.Field()#日期date = scrapy.Field()#链接url = scrapy.Field()#关键字keyword = scrapy.Field()#来源网站source = scrapy.Field()
3、SplashTestPipeline
# -*- coding: utf-8 -*-# Define your item pipelines here # # Don't forget to add your pipeline to the ITEM_PIPELINES setting # See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html import codecs import jsonclass SplashTestPipeline(object):def __init__(self):# self.file = open('data.json', 'wb')self.file = codecs.open('spider.txt', 'w', encoding='utf-8')# self.file = codecs.open(# 'spider.json', 'w', encoding='utf-8')def process_item(self, item, spider):line = json.dumps(dict(item), ensure_ascii=False) + "\n"self.file.write(line)return itemdef spider_closed(self, spider):self.file.close()
4、setting.conf
iedriverserver = C:\Program Files\Internet Explorer\IEDriverServer.exe meeting_keywords = 互联网电视;智能电视;数字;影音;家庭娱乐;节目;视听;版权;数据 information_keywords = 电视;数字电视;OTT;节目内容;盒子;智能推荐;个性化;视频;影音;跨屏;融合;打通;多平台 #information_keywords = 电视;OTT invalid_day = 4 nexturllabel = 下一页 timesleep = 3 [toutiao] websearchurl = http://www.toutiao.com/search/?keyword=
scrapy-splash抓取动态数据例子三相关推荐
- scrapy-splash抓取动态数据例子十三
一.介绍 本例子用scrapy-splash通过搜狗搜索引擎,输入给定关键字抓取微信资讯信息. 给定关键字:数字:融合:电视 抓取信息内如下: 1.资讯标题 2.资讯链接 3.资讯时间 4.资讯来源 ...
- scrapy-splash抓取动态数据例子八
一.介绍 本例子用scrapy-splash抓取界面网站给定关键字抓取咨询信息. 给定关键字:个性化:融合:电视 抓取信息内如下: 1.资讯标题 2.资讯链接 3.资讯时间 4.资讯来源 二.网站信息 ...
- scrapy-splash抓取动态数据例子六
一.介绍 本例子用scrapy-splash抓取中广互联网站给定关键字抓取咨询信息. 给定关键字:打通:融合:电视 抓取信息内如下: 1.资讯标题 2.资讯链接 3.资讯时间 4.资讯来源 二.网站信 ...
- Python爬虫抓取动态数据
一个月前实习导师布置任务说通过网络爬虫获取深圳市气象局发布的降雨数据,网页如下: 心想,爬虫不太难的,当年跟zjb爬煎蛋网无(mei)聊(zi)图的时候,多么清高.由于接受任务后的一个月考试加作业一大 ...
- python抓取动态数据 A股上市公司基本信息
1.背景 之前写的抓取A股所有上市公司信息的小程序在上交所网站改版后,需要同步修改 pyton2.7.9 2.分析过程 以抓取宇通客车[600066]信息为例 打开网址http://www.sse.c ...
- php抓取动态数据,php+ajax实现无刷新动态加载数据技术
我们浏览有些网页的时候,当拉动浏览器的滚动条时到页底时,页面会继续自动加载更多内容供用户浏览.这种技术我暂且称它为滚屏加载技术.我们发现很多网站用到这种技术,必应图片搜索.新浪微博.QQ空间等将该技术 ...
- 用Scrapy和Selenium爬取动态数据
文章参考千锋教育大佬的课程: https://www.bilibili.com/video/BV1QY411F7Vt?p=1&vd_source=5f425e0074a7f92921f53ab ...
- 如何实时抓取动态网页数据?
我们所生活的数字世界正在不断地产生大量的数据.利用动态大数据已经成为企业数据分析的关键. 在本文中,我们将回答以下几个问题: 1.为什么采集动态数据很重要? 2.动态数据是如何有效的促进业务增长? 3 ...
- 使用Scrapy,帮你快速抓取网页数据(代码可下载)!
Scrapy 是一套基于基于Twisted的异步处理框架,纯python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网站数据.提取结构性数据以及各种图片,非常方便.Sc ...
最新文章
- SAP RETAIL 使用事务代码MM41创建商品主数据时不能激活检验类型?
- linux usb摄像头 源码,Linux USB摄像头驱动实现源码分析
- 洛谷P4301 [CQOI2013]新Nim游戏
- tensorflow随笔-tf.ReaderBase
- 新款ATM恶意软件Alice 可对抗动态分析 但目前需要物理接触主机
- Android进阶笔记18:Android 获取Button的高度、宽度、坐标值
- 【Electron-Vue】构建桌面应用(42)- 企业微信扫码登录
- iPhone大小的盒子服务器Cubieboard
- 游戏测试基础:适配性测试
- javascript之函数的定义传参
- web前端腾讯外包面试记录
- 解决win7连接不了win10远程桌面
- 什么杀毒软件最好|什么杀毒软件好用
- 陆丰市福山妈祖:四大天王
- 周浩正:写给编辑人的信 编务报告书 一个实例
- Cesium里面的气泡
- 第二十一章 : 文本处理
- TOJ 1320.Billiard
- 北京大学肖臻老师《区块链技术与应用》公开课笔记:以太坊原理(一):以太坊概述、账户、状态树、交易树和收据树
- 开放接口API(开发者的福利)