文本分类（0）——scrapy爬新浪滚动新闻

参考了：
https://www.cnblogs.com/hanjian200ok/p/9524767.html
https://blog.csdn.net/lxg0807/article/details/50179355
https://zhuanlan.zhihu.com/p/24769534
谢谢学长给我的去年他们的爬虫代码

这基本上就是一个从入门到差点放弃的故事。。代码在最下面

页面的选择

这门课需要100万的中文语料来做文本分类，所以还要自己爬一些。

刚开始去尝试爬了新浪每类新闻一进去的页面，结果就是差点放弃。还是那些有规律的URL比较友好。最后就选择了新浪滚动新闻这种 https://news.sina.com.cn/roll/#pageid=153&lid=2509&k=&num=50&page=1

Problem 1

xPath没有获取到任何东西，看了下网页的源码，才发现数据是由Ajax获取的
然后发现了API是

就决定直接爬接口了。

Problem 2

由上面可以知道返回的数据是Jsonp格式的(以前写前端只会json的我完全不知道要怎么弄)。百度了一下尝试了js2py，然而失败。我直接复制的API是这样的：https://feed.mix.sina.com.cn/api/roll/get?pageid=372&lid=2431&k=&num=50&page=1&r=0.8575040651719854&callback=jQuery311021197146034303405_1542196117311&_=1542196117312
返回的数据是下面这样的

可能因为他用的jQuery？？（纯猜测）
尝试了一下去掉了callback这个参数，返回的就是纯json了。
Page是页码，lid是新闻的类别，别的就不知道了没试。

附代码

#encoding: utf-8
import scrapy
import re
import sys, os
#sys.setdefaultencoding("utf-8")
from scrapy.selector import Selector
from scrapy.spiders import Spider
from scrapy.http import Request
from third.items import ThirdItem
import json
#import js2py
import time
i=1
base="C:/lyr/Data/tech/"
class techSpider(Spider):name='tech'headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36',}allowed_domains=['tech.sina.com.cn'] start_urls=[]for page in range(1,2000):urls = "https://feed.mix.sina.com.cn/api/roll/get?pageid=153&lid=2515&k=&num=50&page="+str(page)+"&r=0.7643548077821145&callback=&_=1542094996079"start_urls.append(urls)def parse(self,response):items=[]item=ThirdItem()datas=json.loads(response.body)newsList=datas['result']['data']#print('Data:',datas['result']['data'])dataLen=len(datas['result']['data'])for idx in range(dataLen):print("Next:",newsList[idx]["url"])yield Request(url=newsList[idx]["url"], headers=self.headers,callback=self.second_parse)def second_parse(self,response):head = response.xpath(u'//h1[@id="main_title"]/text()').extract()content = ""content_list=response.xpath(u'//div[@id="artibody"]/p/text()').extract()for content_one in content_list:content_one=content_one.replace('\xa0','').replace('\u3000','')content+=content_oneitem=ThirdItem()item['news_body']=contentitem['news_title']=headglobal idir=base + "tech_"+ str(i) + ".txt"print(dir)i = i + 1fp = open(dir , 'w')fp.write(item['news_body'])fp.close()yield item