scrapy 搜索关键字_Scrapy 新浪微博搜索爬虫

微博高级搜索

可能你经常有这样的需要，比如最近有热度的事件兴起，你要抓取几月几号到几月几号这段时间，提及到某个关键词的微博。

这其实是一个非常刚性的需求，这就要采用微博的高级搜索来完成了。

本文采用微博站点

高级搜索接口：

https://weibo.cn/search/mblog?advanced=mblog&f=s

注意这里的时间是以天为单位，如果输入关键词“高考”，试着分别输入20190601至20190602、20190601至20190620，结果返回的都是100页，每页10个，也就是1000条结果。如果想爬取更丰富的数据，肯定是要构造每一个相差一天，一直到截止日期的url集合

import scrapy

from scrapy import Request

from ..items import *

import datetime

import re

class WeiboSpiderSpider(scrapy.Spider):

name = 'weibo_spider'

allowed_domains = ['weibo.cn']

# start_urls = ['http://weibo.cn/']

base_url = "https://weibo.cn"

def start_requests(self):

url_format = "https://weibo.cn/search/mblog?hideSearchFrame=&keyword={}&advancedfilter=1&starttime={}&endtime={}&sort=time"

# 搜索的关键词，可以修改

# keyword = "阴阳师"

keyword = "高考"

# 搜索的起始日期，自行修改微博的创建日期是2009-08-16 也就是说不要采用这个日期更前面的日期了

date_start = datetime.datetime.strptime("2019-05-20", '%Y-%m-%d')

# 搜索的结束日期，自行修改

date_end = datetime.datetime.strptime("2019-06-20", '%Y-%m-%d')

time_spread = datetime.timedelta(days=1)

while date_start < date_end:

next_time = date_start + time_spread

url = url_format.format(keyword, date_start.strftime("%Y%m%d"), next_time.strftime("%Y%m%d"))

date_start = next_time

yield Request(url, callback=self.parse_tweet, dont_filter=True)

例如这样我们爬取 2019-05-20 至 2019-06-20 这一个月关键词“高考”的微博，构造url，从起始日期每天+1天，一天是10*100=1000条结果，一共是这一个月之间的天数*1000条结果。

然后就可以爬取微博数据和发该微博的用户信息。

小白的学习笔记...

emmmm...

后来，抓取了近3个月，关键词为“阴阳师”的微博近80000条，用户50000多个，男女比例1.8：1

根据微博内容生成词云 (词云的Github源码：Ingram7/Mywordcloud)

scrapy 搜索关键字_Scrapy 新浪微博搜索爬虫相关推荐

django搜索关键字全文检索haystack 搜索分词数据库
Django Haystack 简介 django-haystack 是一个专门提供搜索功能的 django 第三方应用,它支持 Solr.Elasticsearch.Whoosh.Xapian 等多 ...
php 搜索关键字,PHP获取搜索关键字有关问题_PHP教程
PHP获取搜索关键字问题网上找了一段代码想实现获取搜索关健字,测试了一个关健字取不了,是不是这代码无效了,还是那里有BUG? //取搜索来源关健字 function get_keyword($url ...
linux下全盘搜索关键字,Linux 全盘搜索关键字
redis系列-主从复制 redis自身提供了主从的机制,通过配置可以实现服务的备份(Master->Slave). 配置项 slaveof mas ... DedeCMS Xss+Csrf G ...
编写文件搜索小程序:1. 输入绝对路径以及搜索关键字,2. 搜索指定路径下（包括子文件夹）中名称包含关键字的所有文件并打印出,3. 将当前操作记录日志
package com.homework;import java.io.File; import java.io.FileOutputStream; import java.io.IOExceptio ...
js搜索关键字，并高亮显示
当我们搜索时,总想要自己输入的字体显示为重点,今天我为大家解决这个问题 <!DOCTYPE html> <html lang="en"><head&g ...
angular+TS实现搜索关键字高亮
前端实现基于后端返回的文档内容关键字搜索高亮需求背景及技术实现针对上传的word文档实现关键字搜索高亮且需要通过向上向下查找按钮实现当前关键字位置高亮颜色不一样后端返回文档的html内容前端 ...
【爬虫初探】新浪微博搜索爬虫实现
全文概述功能:爬取新浪微博的搜索结果,支持高级搜索中对搜索时间的限定网址:http://s.weibo.com/ 实现:采取selenium测试工具,模拟微博登录,结合PhantomJS/Fire ...
【爬虫初探】新浪微博搜索爬虫总览
不知在那个群里面看到的消息:请问如何抓取近几个月来大蒜的价格? Oh!My!God!卖大蒜的农夫现在都需要用到数据抓取.数据分析来制定销售策略销售计划等等,IT行业的程序员们以及我们这种类似IT行业的 ...
提交关键字到必应搜索，将首页相关url写入excel
已有excel表格,表格含有一列待搜索关键字,如下: 查阅得知使用xlwt.xlrd两个python库分别完成xls文件的写入和读出. 首先读出该表格对应那列关键字,编码方式使用utf-8,防止乱码, ...

scrapy 搜索关键字_Scrapy 新浪微博搜索爬虫

scrapy 搜索关键字_Scrapy 新浪微博搜索爬虫相关推荐

最新文章

热门文章