Python爬虫程序实例
在这个爬虫程序中使用到“BeautifulSoup”与“requests”两个包,所以我们之前要安装这两个包,如果不清楚是否安装,可以使“pip list”查看是否已经安装。
做“爬虫程序”时建议用谷歌浏览器对网页元素进行检查,在网页空白处右击鼠标在弹出菜单中,使用“检查”菜单项。
在检查元素窗口中,在“Elements”窗口仔细查看网页元素,特别要观察所要截取的内容前后HTML元素的特征。
在上述代码中:主要抓取
- 中的元素,这里看到它们的class元素的名称都是“news_li_strong”,所以在代码中使用:
div = news_li.find_all(‘li’, class_ = ‘news_li_strong’)
可以得到新闻的标题的li区域内容,再使用对span区域取值,可以取到新闻标题的名称:
spant=lia.find_all(‘span’, class_ = ‘total_txt’)
spant是各标题的集合。以下取得各新闻内容的链接地址:
suburl=""
for a in lia.find_all(‘a’):
suburl=a.get(‘href’)
urlstr=self.server + suburl
再使用如下的代码取得新闻的具体内容:
req = requests.get(url = target)
html = req.text
bf = BeautifulSoup(html)
texts = bf.find_all(‘div’, class_ = ‘context_info_bottle_con’)
texts = texts[0].text.replace(’\xa0’*8,’\n\n’)
return texts
这样取得了所有内容后,再使用写入即可将新闻标题与内容抓取到文件中。
源码下载:Python源码
Python爬虫程序实例相关推荐
- python爬虫程序实例-10个python爬虫入门实例
作者:h3zh1 来源:cnblogs.com/h3zh1/p/12548946.html 今天为大家准备了几个简单的python爬虫入门实例,分享给大家. 涉及主要知识点:web是如何交互的 req ...
- 一个简单的python爬虫程序
#简介 在每次论文被拒再投的过程中,都需要查询最近的与自己论文相关的会议列表.每到这种情况,我一遍采用的是遍历会伴www.myhuiban.com的网站,然后逐个查看会议,关注的有三点,投稿日期,cc ...
- python爬虫入门实例-Python爬虫天气预报实例详解(小白入门)
本文研究的主要是Python爬虫天气预报的相关内容,具体介绍如下. 要求是把你所在城市过去一年的历史数据爬出来. 分析网站 我们可以看到,我们需要的天气数据都是放在图表上的,在切换月份的时候,发现只有 ...
- python爬取换页_一个可识别翻页的简易Python爬虫程序
同学拿出一个需求:从某课程教学网站上爬取所有课程的主页面,以及课程简介栏目内容. 于是在之前做的那个练手级的Python爬虫程序中进行修改,最终实现了该功能.与之前那个爬虫不同,这里每一个大类的课程下 ...
- python3爬虫入门实例_10个python爬虫入门实例(小结)
昨天带伙伴萌学习python爬虫,准备了几个简单的入门实例 涉及主要知识点: web是如何交互的 requests库的get.post函数的应用 response对象的相关函数,属性 python文件 ...
- 从入门到入土:Python爬虫学习|实例练手|爬取猫眼榜单|Xpath定位标签爬取|代码
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
- 从入门到入土:Python爬虫学习|实例练手|爬取百度翻译|Selenium出击|绕过反爬机制|
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
- 从入门到入土:Python爬虫学习|实例练手|爬取新浪新闻搜索指定内容|Xpath定位标签爬取|代码注释详解
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
- 从入门到入土:Python爬虫学习|实例练手|爬取百度产品列表|Xpath定位标签爬取|代码注释详解
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
- python编程入门与案例详解-Python爬虫天气预报实例详解(小白入门)
本文研究的主要是Python爬虫天气预报的相关内容,具体介绍如下. 这次要爬的站点是这个:http://www.weather.com.cn/forecast/ 要求是把你所在城市过去一年的历史数据爬 ...
最新文章
- 深度学习加速器堆栈Deep Learning Accelerator Stack
- 几种Windows进程通信
- logstash tcp multihost output(多目标主机输出,保证TCP输出链路的稳定性)
- asp.net % = #区别
- matplotlib 设置图形大小时 figsize 与 dpi 的关系
- 超实用的 Mybatis 3.5 新特性
- Python Django 配置URL的方式(url传参方式)
- springboot start
- SparkSession.read().csv()无法定位本地文件的问题
- 为什么链接oracle报错,PG连接Oracle报错解决
- 对象新增方法 object.is() object.assign()
- ggplot2 | 如何对连续型变量使用离散型调色板进行配色
- supermap试用许可过期如何重新申请
- CSS 3D透视效果 星空穿越
- 【Algorithm】算法设计与分析(第二版)- 王红梅 - JAVA实现:1.3 设计算法求数组中相差最小的两个元素(称为最接近数)的差
- Vray for UE4 (一)
- canvas简易人机五子棋
- 精益创业实战 - 第8章 针对解决方案做客户访谈
- EBS中二次开发FSG报表2(SQL)
- c语言中地址值是什么意思,单片机C语言中如何区别是地址还是数值啊?
热门文章
- matlab图像字符的分割,matlab字符分割方法
- 搜狗输入法纯净_最新PC端搜狗输入法,无广告弹窗纯净版
- stm32F205程序移植到stm32F405片子,使用FPU时注意事项
- 谷歌人工智能背后的大脑:没有他就没有今天的谷歌AI
- 在r中弄方差分析表_R语言 | 方差分析(上)
- python 课程设计扫雷报告_《扫雷课程设计报告.doc
- 智能控制在计算机领域的应用,智能控制的主要应用领域
- 智能决策支持系统(IDSS)
- Mindspore实现手写字体识别
- 解决方法:未能加载文件或程序集“Microsoft.Office.Interop.Excel。。