使用python网络爬虫爬取新浪新闻

第一次写博客，感觉有点不太习惯！不知道怎么突然就想学学爬虫了，然后就用了一天的时间，跟着教程写了这个爬虫，！不说废话了，我将我从教程上学习的东西整个写下来吧，从头开始：

首先，运行环境为：python3.6
推荐安装anaconda，因为安装套件时会更容易
官网下载地址：https://www.anaconda.com/download/

安装完anaconda后，接下来安装一些套件
requests套件：网络资源(URLs)拮取套件，可以使用REST操作(POST,PUT,GET DELETE)存取网络资源
安装方法：使用 pip install requests 命令进行安装
安装步骤：

BeautifulSoup4套件：是一个可以从HTML或XML文件中提取数据的Python库，它可以让你帮助你对提取的文档进行查找等等操作。
安装方法：使用 pip install BeautifulSoup4 命令进行安装
安装步骤：同上

然后就是安装编辑器
Jupyter notebook：一个交互式笔记本，支持运行 40 多种编程语言，反正都说它挺好的
安装方法：使用 pip install jupyter 命令进行安装
安装步骤：同上

接下来打开编辑器
打开方法：使用 jupyter notebook 命令打开
打开步骤：

然后你会发现浏览器打开了一个视窗

然后选择编译环境

接下来你会看见

到这里整个准备工作就结束了

接下来就开始实际操作了
步骤一：
获取文章的内容

#调用requests套件
import requests
#使用requests套件里面的get方法获取新浪新闻
res = requests.get('http://news.sina.com.cn/china/')
#将获取的字符串编码设置为utf-8
res.encoding = 'utf-8'
print(res.text)

看看结果吧：

是不是很神奇，我第一次也这么觉得！！！
我们可以看到我们获取的是一个整个html文档，但是我们想要获取的里面部分的内容，因此

步骤二：
获取html里面的部分内容
那么我们要找到自己想要获取内容在html中的位置，这里使用Google浏览器的开发者工具，下面我想找蓝色部分的内容，点击发现这些内容放在一个class为blk12的块里

#添加BeautifulSoup4中的BeautifulSoup函数
from bs4 import BeautifulSoup
#将之前获取的html文档放入BeautifulSoup，并制定剖析器方法为html.parser
soup = BeautifulSoup(res.text,'html.parser')
#查找class为blk12的内容
#注明：为class时在前面加".",为id时在前面加"#"
soup.select('.blk12')

看看结果吧：

我们发现我们想要的内容被放在一个列表（python的一种数据类型）里面，并且都在<a>标签下面，那么接下来我们要做的就是从这里面把文本取出来

from bs4 import BeautifulSoup
soup = BeautifulSoup(res.text,'html.parser')
#查找class为blk12 且 标签为<a>的内容
news = soup.select('.blk12 a')
#因为返回的列表中有很多项，所以用一个for循环输出
for new in news:print(new.text)

结果：

大功告成，哈哈！！！

本来想一次写完的，突然发现要写的详细确实慢的，那就分几次写吧

使用python网络爬虫爬取新浪新闻（一）相关推荐

Python网络爬虫爬取新浪新闻
笔者最近由于需要研究互联网新闻,于是基于邱老师的网络爬虫实战,写了一个爬取新浪新闻的爬虫,爬取的信息有: 新闻标题来源url 发布时间正文编辑者与邱老师的爬虫相比有以下几点不同: 没有爬取新闻 ...
19Python爬虫--爬取新浪新闻标题并保存到数据库
一.爬取新浪新闻思路 1.创建scrapy项目 2.分析新浪新闻网站静态页面代码 3.编写对应的xpath公式 4.写代码二.项目代码步骤1.创建scrapy项目创建爬虫文件 scrapy st ...
Python爬虫爬取新浪新闻内容
首先感谢丘祐玮老师在网易云课堂的Python网络爬虫实战课程,接下来也都是根据课程内容而写.一来算是自己的学习笔记,二来分享给大家参考之用. 课程视频大概是在16年11月录制的,现在是18年2月.其中 ...
python3爬虫-爬取新浪新闻首页所有新闻标题
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明. 本文链接: https://blog.csdn.net/xiangwanpeng/articl ...
python爬新闻并保存_利用python的scrapy爬取新浪新闻保存至txt
1.mac本机terminal:scrapy startproject newsSpider 2.pycharm中打开项目,进行爬虫. 2.1在spider文件夹下,建立Spider.py文件,具体如 ...
网络爬虫-----python爬取新浪新闻
思路:先爬取首页,然后通过正则筛选出所有文章url,然后通过循环分别爬取这些url到本地 #python新闻爬虫实战 import urllib.request import re url = 'ht ...
从入门到入土：Python爬虫学习|实例练手|爬取新浪新闻搜索指定内容|Xpath定位标签爬取|代码注释详解
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
python爬虫-使用BeautifulSoup爬取新浪新闻标题
** python爬虫-使用BeautifulSoup爬取新浪新闻标题 ** 最近在学习爬虫的技巧,首先学习的是较为简单的BeautifulSoup,应用于新浪新闻上. import requests ...
python爬虫scrapy爬取新闻标题及链接_18Python爬虫---CrawlSpider自动爬取新浪新闻网页标题和链接...
一.爬取新浪新闻思路 1.创建scrapy项目 2.分析新浪新闻网站静态页面代码 3.编写对应的xpath公式 4.写代码二.项目代码步骤1.创建scrapy项目 scrapy startproj ...

使用python网络爬虫爬取新浪新闻（一）

使用python网络爬虫爬取新浪新闻

使用python网络爬虫爬取新浪新闻（一）相关推荐

最新文章

热门文章