python爬虫scrapy爬取新闻标题及链接_18Python爬虫---CrawlSpider自动爬取新浪新闻网页标题和链接...
一、爬取新浪新闻思路
1、创建scrapy项目
2、分析新浪新闻网站静态页面代码
3、编写对应的xpath公式
4、写代码
二、项目代码
步骤1、创建scrapy项目
scrapy startproject mycwpjt
步骤2、分析新浪网站静态代码
随便打开一个新浪新闻网,新闻
可以看到地址为
http://news.sina.com.cn/gov/xlxw/2018-03-21/doc-ifyskeue0491622.shtml
点开其他新闻也为.shtml结尾
那么我们可以考虑从新浪首页,针对性爬取后缀为.shtml的网页
步骤3、编写对应的xpath公式
在html的页面head中可以看到标题在title中
新时代 去奋斗|新时代|奋斗|改革_新浪新闻
当前页面的链接在meta中
由此可以写出xpath为
标题:/html/head/title/text()
链接: //meta[@property='og:url']/@content
步骤4、编写代码
创建爬虫文件
scrapy genspider -t crawl bangbing sina.com.cn
1、bangbing .py
# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from mycwpjt.items import MycwpjtItem
class BangbingSpider(CrawlSpider):
name = 'bangbing'
allowed_domains = ['sina.com.cn']
start_urls = ['http://www.sina.com.cn/']
# 只提取链接中有'*.shtml'字符串的链接
rules = (
Rule(LinkExtractor(allow='.*?/n.*?shtml'), callback='parse_item', follow=True),
)
def parse_item(self, response):
i = MycwpjtItem()
i["name"] = response.xpath("/html/head/title/text()").extract()
i["link"] = response.xpath("//meta[@property='og:url']/@content").extract()
return i
在上面代码中rules部分中的LinkExtractor为链接提取器,链接提取器主要负责将response响应中符合条件的链接提取出来,这些条件我们可以自行设置。
rules = (
Rule(LinkExtractor(allow='.*?/n.*?shtml'), callback='parse_item', follow=True),
)
参数名
参数含义
allow
提取符合对应正则表达式的链接
deny
不提取符合对应正则表达式的链接
restrict_xpaths
使用XPath表达式与allow共同作用提取出同时符合对应XPath表达式和对应正则表达式的链接
allow_domains
允许提取的域名,比如我们想肢体去某个域名下的链接时会用到
deny_domains
禁止提取的域名,比如我们需要限制一定不提取某个域名下的链接时会用的
2、items.py
# -*- coding: utf-8 -*-
import scrapy
class MycwpjtItem(scrapy.Item):
name = scrapy.Field()
link = scrapy.Field()
3、pipelines.py
# -*- coding: utf-8 -*-
import codecs
class MycwpjtPipeline(object):
def __init__(self):
self.file = codecs.open("C:/Users/Administrator/Desktop/sinanew.txt", "wb", encoding="utf-8")
def process_item(self, item, spider):
# 拼接字符组成 标题:**** 链接:****
line = "标题:%s 链接:%s\n" % (item["name"][0], item["link"])
self.file.write(line)
def close_spider(self):
self.file.close()
4、settings.py
# Configure item pipelines
# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html
# 取消注释
ITEM_PIPELINES = {
'mycwpjt.pipelines.MycwpjtPipeline': 300,
}
4、运行命令
scrapy crawl bangbing --nolog
因为网页实在太多了,只运行了一部分就强制停止了,可以看桌面sinanew.txt文件,结果如下
python爬虫scrapy爬取新闻标题及链接_18Python爬虫---CrawlSpider自动爬取新浪新闻网页标题和链接...相关推荐
- 新浪新闻评论系统的架构演进和经验总结
评论系统,或者称为跟帖.留言板,是所有门户网站的核心标准服务组件之一.与论坛.博客等其他互联网UGC系统相比,评论系统虽然从产品功能角度衡量相对简单,但因为需要能够在突发热点新闻事件时,在没有任何预警 ...
- 门户级UGC系统的技术进化路线——新浪新闻评论系统的架构演进和经验总结
评论系统,或者称为跟帖.留言板,是所有门户网站的核心标准服务组件之一.与论坛.博客等其他互联网UGC系统相比,评论系统虽然从产品功能角度衡量相对简单,但因为需要能够在突发热点新闻事件时,在没有任何预警 ...
- Fragment+TabHost模仿新浪新闻布局界面
Fragment+TabHost模仿新浪新闻布局界面 采用FragmentTabHost的综合布局实现的新浪新闻的效果. 下载地址:http://www.devstore.cn/code/info/3 ...
- python爬虫-使用BeautifulSoup爬取新浪新闻标题
** python爬虫-使用BeautifulSoup爬取新浪新闻标题 ** 最近在学习爬虫的技巧,首先学习的是较为简单的BeautifulSoup,应用于新浪新闻上. import requests ...
- 19Python爬虫--爬取新浪新闻标题并保存到数据库
一.爬取新浪新闻思路 1.创建scrapy项目 2.分析新浪新闻网站静态页面代码 3.编写对应的xpath公式 4.写代码 二.项目代码 步骤1.创建scrapy项目 创建爬虫文件 scrapy st ...
- Python爬虫爬取新浪新闻内容
首先感谢丘祐玮老师在网易云课堂的Python网络爬虫实战课程,接下来也都是根据课程内容而写.一来算是自己的学习笔记,二来分享给大家参考之用. 课程视频大概是在16年11月录制的,现在是18年2月.其中 ...
- (python爬虫)新浪新闻数据爬取与清洗+新浪新闻数据管理系统+MySQL
新浪新闻数据爬取与清洗+新浪新闻数据管理系统 设计要求 新浪新闻数据爬取与清洗 基本要求:完成新浪新闻排行中文章的数据爬取,包括标题.媒体.时间.内容. 进阶要求:对最近一周出现次数最多的关键字排名并 ...
- 从入门到入土:Python爬虫学习|实例练手|爬取新浪新闻搜索指定内容|Xpath定位标签爬取|代码注释详解
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
- 网络爬虫-----python爬取新浪新闻
思路:先爬取首页,然后通过正则筛选出所有文章url,然后通过循环分别爬取这些url到本地 #python新闻爬虫实战 import urllib.request import re url = 'ht ...
最新文章
- vue ts 设置tslint提示_Typescript 在 Vue 中的实践(包含2.x、3.x)
- Install Oracle Instant Client on Linux and Windows
- Django:视图和URL配置
- [视频]怎样提升asp.net mvc 软件的性能 - 微软免费视频Improving ASP.NET MVC Application Performance...
- invoke 按钮点击_h5+ app内点击按钮实现复制功能 实现方法
- .net 引用Com组件的几种方案
- OracleExcel VBA写获取表字段类型及约束语句
- Windows Server 2008 R2之活动目录回收站
- 没有它你的DevOps是玩不转的,你信不?
- Linux根据端口号或者关键字查询进程,重启Tomcat服务脚本优缺点说明
- Pytorch之模型加载/保存
- 配置修改Tomcat端口
- 步进电机转速 与 pwm 关系
- 【内网安全】445端口的入侵与扫描
- Linux 常用命令和快捷键
- Python批量更改txt文本每行数据
- 软件版权申请流程有哪些
- 从成功到夺目: Google Play 2021 年度中国开发者最佳榜单
- 杰理之IIC及其他配置定义
- Vue的H5页面唤起支付宝支付