一、爬取新浪新闻思路

1、创建scrapy项目

2、分析新浪新闻网站静态页面代码

3、编写对应的xpath公式

4、写代码

二、项目代码

步骤1、创建scrapy项目

scrapy startproject mycwpjt

步骤2、分析新浪网站静态代码

随便打开一个新浪新闻网,新闻

可以看到地址为

http://news.sina.com.cn/gov/xlxw/2018-03-21/doc-ifyskeue0491622.shtml

点开其他新闻也为.shtml结尾

那么我们可以考虑从新浪首页,针对性爬取后缀为.shtml的网页

步骤3、编写对应的xpath公式

在html的页面head中可以看到标题在title中

新时代 去奋斗|新时代|奋斗|改革_新浪新闻

当前页面的链接在meta中

由此可以写出xpath为

标题:/html/head/title/text()

链接: //meta[@property='og:url']/@content

步骤4、编写代码

创建爬虫文件

scrapy genspider -t crawl bangbing sina.com.cn

1、bangbing .py

# -*- coding: utf-8 -*-

import scrapy

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

from mycwpjt.items import MycwpjtItem

class BangbingSpider(CrawlSpider):

name = 'bangbing'

allowed_domains = ['sina.com.cn']

start_urls = ['http://www.sina.com.cn/']

# 只提取链接中有'*.shtml'字符串的链接

rules = (

Rule(LinkExtractor(allow='.*?/n.*?shtml'), callback='parse_item', follow=True),

)

def parse_item(self, response):

i = MycwpjtItem()

i["name"] = response.xpath("/html/head/title/text()").extract()

i["link"] = response.xpath("//meta[@property='og:url']/@content").extract()

return i

在上面代码中rules部分中的LinkExtractor为链接提取器,链接提取器主要负责将response响应中符合条件的链接提取出来,这些条件我们可以自行设置。

rules = (

Rule(LinkExtractor(allow='.*?/n.*?shtml'), callback='parse_item', follow=True),

)

参数名

参数含义

allow

提取符合对应正则表达式的链接

deny

不提取符合对应正则表达式的链接

restrict_xpaths

使用XPath表达式与allow共同作用提取出同时符合对应XPath表达式和对应正则表达式的链接

allow_domains

允许提取的域名,比如我们想肢体去某个域名下的链接时会用到

deny_domains

禁止提取的域名,比如我们需要限制一定不提取某个域名下的链接时会用的

2、items.py

# -*- coding: utf-8 -*-

import scrapy

class MycwpjtItem(scrapy.Item):

name = scrapy.Field()

link = scrapy.Field()

3、pipelines.py

# -*- coding: utf-8 -*-

import codecs

class MycwpjtPipeline(object):

def __init__(self):

self.file = codecs.open("C:/Users/Administrator/Desktop/sinanew.txt", "wb", encoding="utf-8")

def process_item(self, item, spider):

# 拼接字符组成 标题:**** 链接:****

line = "标题:%s 链接:%s\n" % (item["name"][0], item["link"])

self.file.write(line)

def close_spider(self):

self.file.close()

4、settings.py

# Configure item pipelines

# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html

# 取消注释

ITEM_PIPELINES = {

'mycwpjt.pipelines.MycwpjtPipeline': 300,

}

4、运行命令

scrapy crawl bangbing --nolog

因为网页实在太多了,只运行了一部分就强制停止了,可以看桌面sinanew.txt文件,结果如下

python爬虫scrapy爬取新闻标题及链接_18Python爬虫---CrawlSpider自动爬取新浪新闻网页标题和链接...相关推荐

  1. 新浪新闻评论系统的架构演进和经验总结

    评论系统,或者称为跟帖.留言板,是所有门户网站的核心标准服务组件之一.与论坛.博客等其他互联网UGC系统相比,评论系统虽然从产品功能角度衡量相对简单,但因为需要能够在突发热点新闻事件时,在没有任何预警 ...

  2. 门户级UGC系统的技术进化路线——新浪新闻评论系统的架构演进和经验总结

    评论系统,或者称为跟帖.留言板,是所有门户网站的核心标准服务组件之一.与论坛.博客等其他互联网UGC系统相比,评论系统虽然从产品功能角度衡量相对简单,但因为需要能够在突发热点新闻事件时,在没有任何预警 ...

  3. Fragment+TabHost模仿新浪新闻布局界面

    Fragment+TabHost模仿新浪新闻布局界面 采用FragmentTabHost的综合布局实现的新浪新闻的效果. 下载地址:http://www.devstore.cn/code/info/3 ...

  4. python爬虫-使用BeautifulSoup爬取新浪新闻标题

    ** python爬虫-使用BeautifulSoup爬取新浪新闻标题 ** 最近在学习爬虫的技巧,首先学习的是较为简单的BeautifulSoup,应用于新浪新闻上. import requests ...

  5. 19Python爬虫--爬取新浪新闻标题并保存到数据库

    一.爬取新浪新闻思路 1.创建scrapy项目 2.分析新浪新闻网站静态页面代码 3.编写对应的xpath公式 4.写代码 二.项目代码 步骤1.创建scrapy项目 创建爬虫文件 scrapy st ...

  6. Python爬虫爬取新浪新闻内容

    首先感谢丘祐玮老师在网易云课堂的Python网络爬虫实战课程,接下来也都是根据课程内容而写.一来算是自己的学习笔记,二来分享给大家参考之用. 课程视频大概是在16年11月录制的,现在是18年2月.其中 ...

  7. (python爬虫)新浪新闻数据爬取与清洗+新浪新闻数据管理系统+MySQL

    新浪新闻数据爬取与清洗+新浪新闻数据管理系统 设计要求 新浪新闻数据爬取与清洗 基本要求:完成新浪新闻排行中文章的数据爬取,包括标题.媒体.时间.内容. 进阶要求:对最近一周出现次数最多的关键字排名并 ...

  8. 从入门到入土:Python爬虫学习|实例练手|爬取新浪新闻搜索指定内容|Xpath定位标签爬取|代码注释详解

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  9. 网络爬虫-----python爬取新浪新闻

    思路:先爬取首页,然后通过正则筛选出所有文章url,然后通过循环分别爬取这些url到本地 #python新闻爬虫实战 import urllib.request import re url = 'ht ...

最新文章

  1. vue ts 设置tslint提示_Typescript 在 Vue 中的实践(包含2.x、3.x)
  2. Install Oracle Instant Client on Linux and Windows
  3. Django:视图和URL配置
  4. [视频]怎样提升asp.net mvc 软件的性能 - 微软免费视频Improving ASP.NET MVC Application Performance...
  5. invoke 按钮点击_h5+ app内点击按钮实现复制功能 实现方法
  6. .net 引用Com组件的几种方案
  7. OracleExcel VBA写获取表字段类型及约束语句
  8. Windows Server 2008 R2之活动目录回收站
  9. 没有它你的DevOps是玩不转的,你信不?
  10. Linux根据端口号或者关键字查询进程,重启Tomcat服务脚本优缺点说明
  11. Pytorch之模型加载/保存
  12. 配置修改Tomcat端口
  13. 步进电机转速 与 pwm 关系
  14. 【内网安全】445端口的入侵与扫描
  15. Linux 常用命令和快捷键
  16. Python批量更改txt文本每行数据
  17. 软件版权申请流程有哪些
  18. 从成功到夺目: Google Play 2021 年度中国开发者最佳榜单
  19. 杰理之IIC及其他配置定义
  20. Vue的H5页面唤起支付宝支付

热门文章

  1. java打印菱形图案_java打印出菱形图案实例详解
  2. 腾讯云域名证书哪里下载_备案域名证书获取方法
  3. 别错过他们砍预算留给你的机会
  4. 计算机等级考试 12月,2020年12月计算机等级考试成绩什么时候公布
  5. 葵花宝典第二招:突破单峰密集
  6. 博主已出版的全部译作汇总
  7. m4a转mp3简单的音频转换方法?
  8. 『每日AI』马化腾丨中国互联网已从C2C进化为KFC!
  9. 4、51单片机——LCD1602 驱动(郭天祥)
  10. webrtc-audio-processing pulseaudio最新版本1.0交叉编译到ARM