使用python网络爬虫爬取新浪新闻

第一次写博客,感觉有点不太习惯!不知道怎么突然就想学学爬虫了,然后就用了一天的时间,跟着教程写了这个爬虫,!不说废话了,我将我从教程上学习的东西整个写下来吧,从头开始:

首先,运行环境为:python3.6
推荐安装anaconda,因为安装套件时会更容易
官网下载地址:https://www.anaconda.com/download/

安装完anaconda后,接下来安装一些套件
requests套件:网络资源(URLs)拮取套件,可以使用REST操作(POST,PUT,GET DELETE)存取网络资源
安装方法 : 使用 pip install requests 命令进行安装
安装步骤:

BeautifulSoup4套件:是一个可以从HTML或XML文件中提取数据的Python库,它可以让你帮助你对提取的文档进行查找等等操作。
安装方法: 使用 pip install BeautifulSoup4 命令进行安装
安装步骤: 同上

然后就是安装编辑器
Jupyter notebook:一个交互式笔记本,支持运行 40 多种编程语言,反正都说它挺好的
安装方法: 使用 pip install jupyter 命令进行安装
安装步骤: 同上

接下来打开编辑器
打开方法: 使用 jupyter notebook 命令打开
打开步骤:

然后你会发现浏览器打开了一个视窗

然后选择编译环境

接下来你会看见

到这里整个准备工作就结束了

接下来就开始实际操作了
步骤一:
获取文章的内容

#调用requests套件
import requests
#使用requests套件里面的get方法获取新浪新闻
res = requests.get('http://news.sina.com.cn/china/')
#将获取的字符串编码设置为utf-8
res.encoding = 'utf-8'
print(res.text)

看看结果吧:

是不是很神奇,我第一次也这么觉得!!!
我们可以看到我们获取的是一个整个html文档,但是我们想要获取的里面部分的内容,因此

步骤二:
获取html里面的部分内容
那么我们要找到自己想要获取内容在html中的位置,这里使用Google浏览器的开发者工具,下面我想找蓝色部分的内容,点击发现这些内容放在一个class为blk12的块里

#添加BeautifulSoup4中的BeautifulSoup函数
from bs4 import BeautifulSoup
#将之前获取的html文档放入BeautifulSoup,并制定剖析器方法为html.parser
soup = BeautifulSoup(res.text,'html.parser')
#查找class为blk12的内容
#注明:为class时在前面加".",为id时在前面加"#"
soup.select('.blk12')

看看结果吧:

我们发现我们想要的内容被放在一个列表(python的一种数据类型)里面,并且都在<a>标签下面,那么接下来我们要做的就是从这里面把文本取出来

from bs4 import BeautifulSoup
soup = BeautifulSoup(res.text,'html.parser')
#查找class为blk12 且 标签为<a>的内容
news = soup.select('.blk12 a')
#因为返回的列表中有很多项,所以用一个for循环输出
for new in news:print(new.text)

结果:

大功告成,哈哈!!!

本来想一次写完的,突然发现要写的详细确实慢的,那就分几次写吧

使用python网络爬虫爬取新浪新闻(一)相关推荐

  1. Python网络爬虫爬取新浪新闻

    笔者最近由于需要研究互联网新闻,于是基于邱老师的网络爬虫实战,写了一个爬取新浪新闻的爬虫,爬取的信息有: 新闻标题 来源url 发布时间 正文 编辑者 与邱老师的爬虫相比有以下几点不同: 没有爬取新闻 ...

  2. 19Python爬虫--爬取新浪新闻标题并保存到数据库

    一.爬取新浪新闻思路 1.创建scrapy项目 2.分析新浪新闻网站静态页面代码 3.编写对应的xpath公式 4.写代码 二.项目代码 步骤1.创建scrapy项目 创建爬虫文件 scrapy st ...

  3. Python爬虫爬取新浪新闻内容

    首先感谢丘祐玮老师在网易云课堂的Python网络爬虫实战课程,接下来也都是根据课程内容而写.一来算是自己的学习笔记,二来分享给大家参考之用. 课程视频大概是在16年11月录制的,现在是18年2月.其中 ...

  4. python3爬虫-爬取新浪新闻首页所有新闻标题

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明. 本文链接: https://blog.csdn.net/xiangwanpeng/articl ...

  5. python爬新闻并保存_利用python的scrapy爬取新浪新闻保存至txt

    1.mac本机terminal:scrapy startproject newsSpider 2.pycharm中打开项目,进行爬虫. 2.1在spider文件夹下,建立Spider.py文件,具体如 ...

  6. 网络爬虫-----python爬取新浪新闻

    思路:先爬取首页,然后通过正则筛选出所有文章url,然后通过循环分别爬取这些url到本地 #python新闻爬虫实战 import urllib.request import re url = 'ht ...

  7. 从入门到入土:Python爬虫学习|实例练手|爬取新浪新闻搜索指定内容|Xpath定位标签爬取|代码注释详解

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  8. python爬虫-使用BeautifulSoup爬取新浪新闻标题

    ** python爬虫-使用BeautifulSoup爬取新浪新闻标题 ** 最近在学习爬虫的技巧,首先学习的是较为简单的BeautifulSoup,应用于新浪新闻上. import requests ...

  9. python爬虫scrapy爬取新闻标题及链接_18Python爬虫---CrawlSpider自动爬取新浪新闻网页标题和链接...

    一.爬取新浪新闻思路 1.创建scrapy项目 2.分析新浪新闻网站静态页面代码 3.编写对应的xpath公式 4.写代码 二.项目代码 步骤1.创建scrapy项目 scrapy startproj ...

最新文章

  1. 直播变局下百度移动生态新“野望”
  2. addonsmaker怎么制作_addonsmaker
  3. NULL、nil、Nil、NSNull的区别
  4. qqp2011java_腾讯开放平台中实现QQ登陆的功能
  5. C++:45---多态
  6. bpsk调制及解调实验_无线通信中的IQ调制,BPSK调制,QPSK调制,16QAM调制的理解...
  7. 在java 中调c_在Java中调用C
  8. Atitit ide的艺术 与新特性搜集大纲 目录 1. Prj mana 2 2. 界面布局自定义 2 2.1. 自定义 perspectives 2 3. 代码编写 2 3.1. 自动提示 2
  9. JavaScript —— Symbol数据类型之不延伸
  10. 启动SQL Server 时自动执行存储过程
  11. 基于人脸识别实现课堂抬头率检测
  12. SqlServer彻底卸载,适用于任何版本,亲测了n次都可用
  13. 全国网络安全等级保护测评机构推荐目录
  14. 精心整理的10套最美Web前端新年特效--提前祝大家新年快乐
  15. html5 图形 标签,HTML5 canvas 标签介绍:定义图形
  16. c 语言加壳项目,C 加壳工具,快速完成加密保护
  17. Ubuntu-阿里云搭建Gitlub
  18. 互动编程习作——表现随机行为及牛顿运动学
  19. 毫米波雷达和视觉传感器融合的检测仿真代码
  20. 小程序发送邮件,小程序云开发使用云函数发送邮件

热门文章

  1. Ubuntu删除文件夹下某个文件之外的其他所有文件
  2. 2007软件英雄大会,小弟我会众英雄
  3. 龙珠直播CTO谭振林:从0到500万用户背后的技术架构变迁
  4. 同样是打车,为什么我要比别人多付几块钱?
  5. 廖雪峰老师Python教程读后笔记
  6. AE2020使用aftercode插件导出MP4格式视频
  7. MAST: A Memory-Augmented Self-Supervised Tracker
  8. 深入理解Activity启动模式之大结局
  9. CAD卸载/完美解决安装失败/如何彻底卸载清除干净cad各种残留注册表和文件的方法...
  10. 12.9 - 每日一题 - 408