python爬虫scrapy爬取新闻标题及链接_18Python爬虫---CrawlSpider自动爬取新浪新闻网页标题和链接...

一、爬取新浪新闻思路

1、创建scrapy项目

2、分析新浪新闻网站静态页面代码

3、编写对应的xpath公式

4、写代码

二、项目代码

步骤1、创建scrapy项目

scrapy startproject mycwpjt

步骤2、分析新浪网站静态代码

随便打开一个新浪新闻网，新闻

可以看到地址为

http://news.sina.com.cn/gov/xlxw/2018-03-21/doc-ifyskeue0491622.shtml

点开其他新闻也为.shtml结尾

那么我们可以考虑从新浪首页，针对性爬取后缀为.shtml的网页

步骤3、编写对应的xpath公式

在html的页面head中可以看到标题在title中

新时代去奋斗|新时代|奋斗|改革_新浪新闻

当前页面的链接在meta中

由此可以写出xpath为

标题：/html/head/title/text()

链接: //meta[@property='og:url']/@content

步骤4、编写代码

创建爬虫文件

scrapy genspider -t crawl bangbing sina.com.cn

1、bangbing .py

# -*- coding: utf-8 -*-

import scrapy

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

from mycwpjt.items import MycwpjtItem

class BangbingSpider(CrawlSpider):

name = 'bangbing'

allowed_domains = ['sina.com.cn']

start_urls = ['http://www.sina.com.cn/']

# 只提取链接中有'*.shtml'字符串的链接

rules = (

Rule(LinkExtractor(allow='.*?/n.*?shtml'), callback='parse_item', follow=True),

)

def parse_item(self, response):

i = MycwpjtItem()

i["name"] = response.xpath("/html/head/title/text()").extract()

i["link"] = response.xpath("//meta[@property='og:url']/@content").extract()

return i

在上面代码中rules部分中的LinkExtractor为链接提取器，链接提取器主要负责将response响应中符合条件的链接提取出来，这些条件我们可以自行设置。

rules = (

Rule(LinkExtractor(allow='.*?/n.*?shtml'), callback='parse_item', follow=True),

)

参数名

参数含义

allow

提取符合对应正则表达式的链接

deny

不提取符合对应正则表达式的链接

restrict_xpaths

使用XPath表达式与allow共同作用提取出同时符合对应XPath表达式和对应正则表达式的链接

allow_domains

允许提取的域名，比如我们想肢体去某个域名下的链接时会用到

deny_domains

禁止提取的域名，比如我们需要限制一定不提取某个域名下的链接时会用的

2、items.py

# -*- coding: utf-8 -*-

import scrapy

class MycwpjtItem(scrapy.Item):

name = scrapy.Field()

link = scrapy.Field()

3、pipelines.py

# -*- coding: utf-8 -*-

import codecs

class MycwpjtPipeline(object):

def __init__(self):

self.file = codecs.open("C:/Users/Administrator/Desktop/sinanew.txt", "wb", encoding="utf-8")

def process_item(self, item, spider):

# 拼接字符组成标题:**** 链接:****

line = "标题:%s 链接:%s\n" % (item["name"][0], item["link"])

self.file.write(line)

def close_spider(self):

self.file.close()

4、settings.py

# Configure item pipelines

# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html

# 取消注释

ITEM_PIPELINES = {

'mycwpjt.pipelines.MycwpjtPipeline': 300,

}

4、运行命令

scrapy crawl bangbing --nolog

因为网页实在太多了，只运行了一部分就强制停止了，可以看桌面sinanew.txt文件，结果如下

python爬虫scrapy爬取新闻标题及链接_18Python爬虫---CrawlSpider自动爬取新浪新闻网页标题和链接...相关推荐

新浪新闻评论系统的架构演进和经验总结
评论系统,或者称为跟帖.留言板,是所有门户网站的核心标准服务组件之一.与论坛.博客等其他互联网UGC系统相比,评论系统虽然从产品功能角度衡量相对简单,但因为需要能够在突发热点新闻事件时,在没有任何预警 ...
门户级UGC系统的技术进化路线——新浪新闻评论系统的架构演进和经验总结
评论系统,或者称为跟帖.留言板,是所有门户网站的核心标准服务组件之一.与论坛.博客等其他互联网UGC系统相比,评论系统虽然从产品功能角度衡量相对简单,但因为需要能够在突发热点新闻事件时,在没有任何预警 ...
Fragment+TabHost模仿新浪新闻布局界面
Fragment+TabHost模仿新浪新闻布局界面采用FragmentTabHost的综合布局实现的新浪新闻的效果. 下载地址:http://www.devstore.cn/code/info/3 ...
python爬虫-使用BeautifulSoup爬取新浪新闻标题
** python爬虫-使用BeautifulSoup爬取新浪新闻标题 ** 最近在学习爬虫的技巧,首先学习的是较为简单的BeautifulSoup,应用于新浪新闻上. import requests ...
19Python爬虫--爬取新浪新闻标题并保存到数据库
一.爬取新浪新闻思路 1.创建scrapy项目 2.分析新浪新闻网站静态页面代码 3.编写对应的xpath公式 4.写代码二.项目代码步骤1.创建scrapy项目创建爬虫文件 scrapy st ...
Python爬虫爬取新浪新闻内容
首先感谢丘祐玮老师在网易云课堂的Python网络爬虫实战课程,接下来也都是根据课程内容而写.一来算是自己的学习笔记,二来分享给大家参考之用. 课程视频大概是在16年11月录制的,现在是18年2月.其中 ...
（python爬虫）新浪新闻数据爬取与清洗+新浪新闻数据管理系统+MySQL
新浪新闻数据爬取与清洗+新浪新闻数据管理系统设计要求新浪新闻数据爬取与清洗基本要求:完成新浪新闻排行中文章的数据爬取,包括标题.媒体.时间.内容. 进阶要求:对最近一周出现次数最多的关键字排名并 ...
从入门到入土：Python爬虫学习|实例练手|爬取新浪新闻搜索指定内容|Xpath定位标签爬取|代码注释详解
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
网络爬虫-----python爬取新浪新闻
思路:先爬取首页,然后通过正则筛选出所有文章url,然后通过循环分别爬取这些url到本地 #python新闻爬虫实战 import urllib.request import re url = 'ht ...

python爬虫scrapy爬取新闻标题及链接_18Python爬虫---CrawlSpider自动爬取新浪新闻网页标题和链接...

python爬虫scrapy爬取新闻标题及链接_18Python爬虫---CrawlSpider自动爬取新浪新闻网页标题和链接...相关推荐

最新文章

热门文章