使用python网络爬虫爬取新浪新闻(一)
使用python网络爬虫爬取新浪新闻
第一次写博客,感觉有点不太习惯!不知道怎么突然就想学学爬虫了,然后就用了一天的时间,跟着教程写了这个爬虫,!不说废话了,我将我从教程上学习的东西整个写下来吧,从头开始:
首先,运行环境为:python3.6
推荐安装anaconda,因为安装套件时会更容易
官网下载地址:https://www.anaconda.com/download/
安装完anaconda后,接下来安装一些套件
requests套件:网络资源(URLs)拮取套件,可以使用REST操作(POST,PUT,GET DELETE)存取网络资源
安装方法 : 使用 pip install requests 命令进行安装
安装步骤:
BeautifulSoup4套件:是一个可以从HTML或XML文件中提取数据的Python库,它可以让你帮助你对提取的文档进行查找等等操作。
安装方法: 使用 pip install BeautifulSoup4 命令进行安装
安装步骤: 同上
然后就是安装编辑器
Jupyter notebook:一个交互式笔记本,支持运行 40 多种编程语言,反正都说它挺好的
安装方法: 使用 pip install jupyter 命令进行安装
安装步骤: 同上
接下来打开编辑器
打开方法: 使用 jupyter notebook 命令打开
打开步骤:
然后你会发现浏览器打开了一个视窗
然后选择编译环境
接下来你会看见
到这里整个准备工作就结束了
接下来就开始实际操作了
步骤一:
获取文章的内容
#调用requests套件
import requests
#使用requests套件里面的get方法获取新浪新闻
res = requests.get('http://news.sina.com.cn/china/')
#将获取的字符串编码设置为utf-8
res.encoding = 'utf-8'
print(res.text)
看看结果吧:
是不是很神奇,我第一次也这么觉得!!!
我们可以看到我们获取的是一个整个html文档,但是我们想要获取的里面部分的内容,因此
步骤二:
获取html里面的部分内容
那么我们要找到自己想要获取内容在html中的位置,这里使用Google浏览器的开发者工具,下面我想找蓝色部分的内容,点击发现这些内容放在一个class为blk12的块里
#添加BeautifulSoup4中的BeautifulSoup函数
from bs4 import BeautifulSoup
#将之前获取的html文档放入BeautifulSoup,并制定剖析器方法为html.parser
soup = BeautifulSoup(res.text,'html.parser')
#查找class为blk12的内容
#注明:为class时在前面加".",为id时在前面加"#"
soup.select('.blk12')
看看结果吧:
我们发现我们想要的内容被放在一个列表(python的一种数据类型)里面,并且都在<a>标签下面,那么接下来我们要做的就是从这里面把文本取出来
from bs4 import BeautifulSoup
soup = BeautifulSoup(res.text,'html.parser')
#查找class为blk12 且 标签为<a>的内容
news = soup.select('.blk12 a')
#因为返回的列表中有很多项,所以用一个for循环输出
for new in news:print(new.text)
结果:
大功告成,哈哈!!!
本来想一次写完的,突然发现要写的详细确实慢的,那就分几次写吧
使用python网络爬虫爬取新浪新闻(一)相关推荐
- Python网络爬虫爬取新浪新闻
笔者最近由于需要研究互联网新闻,于是基于邱老师的网络爬虫实战,写了一个爬取新浪新闻的爬虫,爬取的信息有: 新闻标题 来源url 发布时间 正文 编辑者 与邱老师的爬虫相比有以下几点不同: 没有爬取新闻 ...
- 19Python爬虫--爬取新浪新闻标题并保存到数据库
一.爬取新浪新闻思路 1.创建scrapy项目 2.分析新浪新闻网站静态页面代码 3.编写对应的xpath公式 4.写代码 二.项目代码 步骤1.创建scrapy项目 创建爬虫文件 scrapy st ...
- Python爬虫爬取新浪新闻内容
首先感谢丘祐玮老师在网易云课堂的Python网络爬虫实战课程,接下来也都是根据课程内容而写.一来算是自己的学习笔记,二来分享给大家参考之用. 课程视频大概是在16年11月录制的,现在是18年2月.其中 ...
- python3爬虫-爬取新浪新闻首页所有新闻标题
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明. 本文链接: https://blog.csdn.net/xiangwanpeng/articl ...
- python爬新闻并保存_利用python的scrapy爬取新浪新闻保存至txt
1.mac本机terminal:scrapy startproject newsSpider 2.pycharm中打开项目,进行爬虫. 2.1在spider文件夹下,建立Spider.py文件,具体如 ...
- 网络爬虫-----python爬取新浪新闻
思路:先爬取首页,然后通过正则筛选出所有文章url,然后通过循环分别爬取这些url到本地 #python新闻爬虫实战 import urllib.request import re url = 'ht ...
- 从入门到入土:Python爬虫学习|实例练手|爬取新浪新闻搜索指定内容|Xpath定位标签爬取|代码注释详解
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
- python爬虫-使用BeautifulSoup爬取新浪新闻标题
** python爬虫-使用BeautifulSoup爬取新浪新闻标题 ** 最近在学习爬虫的技巧,首先学习的是较为简单的BeautifulSoup,应用于新浪新闻上. import requests ...
- python爬虫scrapy爬取新闻标题及链接_18Python爬虫---CrawlSpider自动爬取新浪新闻网页标题和链接...
一.爬取新浪新闻思路 1.创建scrapy项目 2.分析新浪新闻网站静态页面代码 3.编写对应的xpath公式 4.写代码 二.项目代码 步骤1.创建scrapy项目 scrapy startproj ...
最新文章
- 直播变局下百度移动生态新“野望”
- addonsmaker怎么制作_addonsmaker
- NULL、nil、Nil、NSNull的区别
- qqp2011java_腾讯开放平台中实现QQ登陆的功能
- C++:45---多态
- bpsk调制及解调实验_无线通信中的IQ调制,BPSK调制,QPSK调制,16QAM调制的理解...
- 在java 中调c_在Java中调用C
- Atitit ide的艺术 与新特性搜集大纲 目录 1. Prj mana	2 2. 界面布局自定义	2 2.1. 自定义 perspectives	2 3. 代码编写	2 3.1. 自动提示	2
- JavaScript —— Symbol数据类型之不延伸
- 启动SQL Server 时自动执行存储过程
- 基于人脸识别实现课堂抬头率检测
- SqlServer彻底卸载,适用于任何版本,亲测了n次都可用
- 全国网络安全等级保护测评机构推荐目录
- 精心整理的10套最美Web前端新年特效--提前祝大家新年快乐
- html5 图形 标签,HTML5 canvas 标签介绍:定义图形
- c 语言加壳项目,C 加壳工具,快速完成加密保护
- Ubuntu-阿里云搭建Gitlub
- 互动编程习作——表现随机行为及牛顿运动学
- 毫米波雷达和视觉传感器融合的检测仿真代码
- 小程序发送邮件,小程序云开发使用云函数发送邮件
热门文章
- Ubuntu删除文件夹下某个文件之外的其他所有文件
- 2007软件英雄大会,小弟我会众英雄
- 龙珠直播CTO谭振林:从0到500万用户背后的技术架构变迁
- 同样是打车,为什么我要比别人多付几块钱?
- 廖雪峰老师Python教程读后笔记
- AE2020使用aftercode插件导出MP4格式视频
- MAST: A Memory-Augmented Self-Supervised Tracker
- 深入理解Activity启动模式之大结局
- CAD卸载/完美解决安装失败/如何彻底卸载清除干净cad各种残留注册表和文件的方法...
- 12.9 - 每日一题 - 408