这个实验主要爬取新闻网站首页的新闻内容保存到本地,爬取内容有标题、时间、来源、评论数和正文。

工具:python 3.6 谷歌浏览器

爬取过程:

一、安装库:urllib、requests、BeautifulSoup

1、urllib库:Urllib是python内置的HTTP请求库。用这个库可以用python请求网页获取信息。

主要用到的函数:

data = urllib.request.urlopen(qurl).read()

#qurl为网页的网址,利用这个函数可以获取该网页的内容data

2、requests库:requests是python实现的简单易用的HTTP库,使用起来比urllib简洁很多。这个实验我两个库都用了,作用类似。

data = requests.get(url).text

3、BeautifulSoup库

当我们通过上面两个库获得了网页的数据的时候,我们需要从数据中提取我们想要的,这时BeautifulSoup就派上了用场。BeautifulSoup可以为我们解析文档,抓取我们想要的新闻标题、正文内容等。

4、re 库

正则表达式的库,正则表达式大家都明白的。

二、爬取新闻首页,得到所有要爬取新闻的链接

因为新闻首页首页只有新闻的标题,新闻的具体信息要点进标题链接进入另一个网页查看。所以我们首先要在新闻首页把所有要爬取新闻的链接保存到一个txt文件里。先上代码再解释。

def getQQurl(): #获取腾讯新闻首页的所有新闻链接

url = "http://news.qq.com/"

u

python爬取新闻网站内容findall函数爬取_【Python】【爬虫】爬取网易、腾讯、新浪、搜狐新闻到本地...相关推荐

  1. python爬取新闻网站内容findall函数爬取_Python爬取新闻网标题、日期、点击量

    最近接触Python爬虫,以爬取学校新闻网新闻标题.日期.点击量为例,记录一下工作进度 目前,感觉Python爬虫的过程无非两步: Step1.获取网页url(利用Python库函数import ur ...

  2. python爬取新闻网站内容findall函数_Python正则抓取新闻标题和链接的方法示例

    本文实例讲述了Python正则抓取新闻标题和链接的方法.分享给大家供大家参考,具体如下: #-*-coding:utf-8-*- import re from urllib import urlret ...

  3. Python爬虫——主题爬取搜狐新闻(步骤及代码实现)

    目录 一 .实现思路 二.获取url变化规律 三.爬取新闻名称及其超链接 四.判断与主题的契合度 四.输出结果 五.总代码 一 .实现思路 本次爬取搜狐新闻时政类 获取url--爬取新闻名称及其超链接 ...

  4. python正则表达式re模块之findall函数

    python正则表达式re模块之findall函数 1. re.findall函数介绍 2. findall函数捕获分组 3. re.findall中正则表达式(.*?) 4. re.findall中 ...

  5. Python学习笔记(11) 如何用爬虫完整抓取搜狐新闻文章?

    一.操作步骤 今天教大家抓取搜狐的新闻文章,重点讲解怎么抓取到完整的正文内容,怎么批量抓取到更多新闻,方法是通用的,大家可以应用到其他新闻网站的抓取,总体操作步骤如下: 二.案例+操作步骤 采集规则: ...

  6. python新闻爬虫教程_python简易爬虫教程--(一)批量获取搜狐新闻

    我们先从简单的抓取文本信息开始,来写我们的第一个爬虫程序,获取搜狐新闻的内容. 我们首先来介绍一下我们需要用到的库. 爬虫程序的步骤,一般可以分为三步: 1.获取网页源码(html源码): 2.从代码 ...

  7. 利用朴素贝叶斯分类算法对搜狐新闻进行分类(python)

    数据来源  https://www.sogou.com/labs/resource/cs.php 介绍:来自搜狐新闻2012年6月-7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供UR ...

  8. 【NLP】3000篇搜狐新闻语料数据预处理器的python实现

    3000篇搜狐新闻语料数据预处理器的python实现 白宁超 2017年5月5日17:20:04 摘要: 关于自然语言处理模型训练亦或是数据挖掘.文本处理等等,均离不开数据清洗,数据预处理的工作.这里 ...

  9. python爬虫搜狐新闻_应用案例2:爬取搜狐体育的新闻信息

    爬虫学习使用指南 Auth: 王海飞 Data:2018-06-25 Email:779598160@qq.com github:https://github.com/coco369/knowledg ...

最新文章

  1. debounce实现 js_javascript防抖函数debounce详解
  2. 历经5轮审稿被拒,那个“​没有Science,没有娃”的交大博士,最终申诉成功发顶刊,他说做科研,要尽全力再坚持一下......
  3. build-android-in-OS-X-Yosemite-Xcode-7
  4. 超微服务器使用IPMI安装操作系统小记
  5. EL 表达式 JSTL 标签库
  6. boost::geometry模块使用变换自定义坐标系示例
  7. 在Solaris系统下如何更改网络配置?
  8. 【转】理解字节序 大端字节序和小端字节序
  9. 查看JDK进程信息的几个命令
  10. 《证券基金经营机构信息技术管理办法》要点简读
  11. Windows蓝屏分析
  12. 台式电脑主机前面耳机插孔没声音的解决方法
  13. 进销存excel_EXCEL进销存系统升级版,自动库存更新,利润毛利分析一键操作
  14. pdf文件过大怎么办?3种免费压缩PDF的方法
  15. 涨姿势!2020最好的 10 大国外编程学习网站
  16. VMware vCenter Server 7.0 U2b/6.7 U3n/6.5 U3p 修复高危安全漏洞
  17. android 如何读取u盘中数据恢复,U盘数据恢复
  18. 擦窗机器人毕业设计_家用擦玻璃清洁机器人结构设计毕业设计说明方案.doc
  19. zynq7020的arm A9核降频实录
  20. NSDate计算时间差

热门文章

  1. JS笔记(前端小灰狼)
  2. 电脑上怎么清空我的android手机,格式化也不靠谱?教你如何彻底删除手机上的数据...
  3. Intel NUC冥王峡谷
  4. 基于flask的在线笔记共享管理系统【2】(数据库的设计和建立)
  5. 数据库编程之OLEDB和JDBC
  6. js 对数组字符串排序
  7. oss图片合成模糊问题
  8. 服务器调试深度学习模型
  9. Python readline()和readlines()函数:按行读取文件
  10. 周阳高并发面试题笔记记录