在这个爬虫程序中使用到“BeautifulSoup”与“requests”两个包,所以我们之前要安装这两个包,如果不清楚是否安装,可以使“pip list”查看是否已经安装。
做“爬虫程序”时建议用谷歌浏览器对网页元素进行检查,在网页空白处右击鼠标在弹出菜单中,使用“检查”菜单项。

在检查元素窗口中,在“Elements”窗口仔细查看网页元素,特别要观察所要截取的内容前后HTML元素的特征。

在上述代码中:主要抓取

  • 中的元素,这里看到它们的class元素的名称都是“news_li_strong”,所以在代码中使用:
    div = news_li.find_all(‘li’, class_ = ‘news_li_strong’)
    可以得到新闻的标题的li区域内容,再使用对span区域取值,可以取到新闻标题的名称:
    spant=lia.find_all(‘span’, class_ = ‘total_txt’)
    spant是各标题的集合。以下取得各新闻内容的链接地址:
    suburl=""
    for a in lia.find_all(‘a’):
    suburl=a.get(‘href’)
    urlstr=self.server + suburl
    再使用如下的代码取得新闻的具体内容:
    req = requests.get(url = target)
    html = req.text
    bf = BeautifulSoup(html)
    texts = bf.find_all(‘div’, class_ = ‘context_info_bottle_con’)
    texts = texts[0].text.replace(’\xa0’*8,’\n\n’)
    return texts
    这样取得了所有内容后,再使用写入即可将新闻标题与内容抓取到文件中。
    源码下载:Python源码

Python爬虫程序实例相关推荐

  1. python爬虫程序实例-10个python爬虫入门实例

    作者:h3zh1 来源:cnblogs.com/h3zh1/p/12548946.html 今天为大家准备了几个简单的python爬虫入门实例,分享给大家. 涉及主要知识点:web是如何交互的 req ...

  2. 一个简单的python爬虫程序

    #简介 在每次论文被拒再投的过程中,都需要查询最近的与自己论文相关的会议列表.每到这种情况,我一遍采用的是遍历会伴www.myhuiban.com的网站,然后逐个查看会议,关注的有三点,投稿日期,cc ...

  3. python爬虫入门实例-Python爬虫天气预报实例详解(小白入门)

    本文研究的主要是Python爬虫天气预报的相关内容,具体介绍如下. 要求是把你所在城市过去一年的历史数据爬出来. 分析网站 我们可以看到,我们需要的天气数据都是放在图表上的,在切换月份的时候,发现只有 ...

  4. python爬取换页_一个可识别翻页的简易Python爬虫程序

    同学拿出一个需求:从某课程教学网站上爬取所有课程的主页面,以及课程简介栏目内容. 于是在之前做的那个练手级的Python爬虫程序中进行修改,最终实现了该功能.与之前那个爬虫不同,这里每一个大类的课程下 ...

  5. python3爬虫入门实例_10个python爬虫入门实例(小结)

    昨天带伙伴萌学习python爬虫,准备了几个简单的入门实例 涉及主要知识点: web是如何交互的 requests库的get.post函数的应用 response对象的相关函数,属性 python文件 ...

  6. 从入门到入土:Python爬虫学习|实例练手|爬取猫眼榜单|Xpath定位标签爬取|代码

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  7. 从入门到入土:Python爬虫学习|实例练手|爬取百度翻译|Selenium出击|绕过反爬机制|

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  8. 从入门到入土:Python爬虫学习|实例练手|爬取新浪新闻搜索指定内容|Xpath定位标签爬取|代码注释详解

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  9. 从入门到入土:Python爬虫学习|实例练手|爬取百度产品列表|Xpath定位标签爬取|代码注释详解

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  10. python编程入门与案例详解-Python爬虫天气预报实例详解(小白入门)

    本文研究的主要是Python爬虫天气预报的相关内容,具体介绍如下. 这次要爬的站点是这个:http://www.weather.com.cn/forecast/ 要求是把你所在城市过去一年的历史数据爬 ...

最新文章

  1. 深度学习加速器堆栈Deep Learning Accelerator Stack
  2. 几种Windows进程通信
  3. logstash tcp multihost output(多目标主机输出,保证TCP输出链路的稳定性)
  4. asp.net % = #区别
  5. matplotlib 设置图形大小时 figsize 与 dpi 的关系
  6. 超实用的 Mybatis 3.5 新特性
  7. Python Django 配置URL的方式(url传参方式)
  8. springboot start
  9. SparkSession.read().csv()无法定位本地文件的问题
  10. 为什么链接oracle报错,PG连接Oracle报错解决
  11. 对象新增方法 object.is() object.assign()
  12. ggplot2 | 如何对连续型变量使用离散型调色板进行配色
  13. supermap试用许可过期如何重新申请
  14. CSS 3D透视效果 星空穿越
  15. 【Algorithm】算法设计与分析(第二版)- 王红梅 - JAVA实现:1.3 设计算法求数组中相差最小的两个元素(称为最接近数)的差
  16. Vray for UE4 (一)
  17. canvas简易人机五子棋
  18. 精益创业实战 - 第8章 针对解决方案做客户访谈
  19. EBS中二次开发FSG报表2(SQL)
  20. c语言中地址值是什么意思,单片机C语言中如何区别是地址还是数值啊?

热门文章

  1. matlab图像字符的分割,matlab字符分割方法
  2. 搜狗输入法纯净_最新PC端搜狗输入法,无广告弹窗纯净版
  3. stm32F205程序移植到stm32F405片子,使用FPU时注意事项
  4. 谷歌人工智能背后的大脑:没有他就没有今天的谷歌AI
  5. 在r中弄方差分析表_R语言 | 方差分析(上)
  6. python 课程设计扫雷报告_《扫雷课程设计报告.doc
  7. 智能控制在计算机领域的应用,智能控制的主要应用领域
  8. 智能决策支持系统(IDSS)
  9. Mindspore实现手写字体识别
  10. 解决方法:未能加载文件或程序集“Microsoft.Office.Interop.Excel。。