爬取新浪新闻的链接:

https://blog.csdn.net/Iv_zzy/article/details/107535041

爬取中国新闻网的链接

https://blog.csdn.net/Iv_zzy/article/details/107537295

与获取新浪新闻思路不同,新浪新闻的获取是先把所有的链接存入csv文件,再统一对所有的链接解析。本人对网易新闻的获取采用边解析链接、边获取链接的内容(本人尽可能提供不同的方法,若需要,对照修改使用即可)

网易排行榜如下图所示

以娱乐新闻为例,点击娱乐,到了这个界面
网页链接为:

http://news.163.com/special/0001386F/rank_ent.html

1、首先,从网页上获取带有链接的title
此处是返回一个list

def Initpage(url, headers):res = requests.get(url, headers = headers) res.content.decode('gb18030','ignore') #原网页gbksoup = BeautifulSoup(res.text, 'html.parser')#print(soup.prettify())titles = soup.find('div', 'area-half left').find('div', 'tabContents active').find_all('a') #listreturn titles

出来的结果是:

2、对list内的title一个个分解取出链接,获取内容

def parse(titles, headers):count = 0 for title in titles:#get urls from htmlnews_url = (str(title.get('href')))#read each url news_response = requests.get(news_url, headers=headers)news_html = news_response.textnews_soup = BeautifulSoup(news_html, 'html.parser')#analyze html to find news' title and news' contentif news_soup.find('div', 'post_text') is None:  #if html loose, jump out circulationcontinuenews_title = news_soup.find('h1').textcontents = news_soup.find('div', 'post_text').find_all('p')[:-2]news_contents = ""for content in contents:if len(content.text)<=0 or ("video" in content.text) or ("img" in content.text):continueelse:news_contents = news_contents + content.text.strip()count = count + 1try:print(news_title,news_contents)print('第'+ str(count) + '条新闻写入成功')except:print('第'+ str(count) + '条新闻抓取失败,正在尝试下一条')

另外,需要补充的是,本人尝试将新闻内容存储到数据库,如若有需要的,可以参考以下内容

连接数据库

def con_db():try:global dbdb = pymysql.connect('localhost','root','123456','newsDB',charset='utf8')except pymysql.Error as e:print("Error: {}".format(e))cur = db.cursor()print('connection success')return cur

插入数据

def insert_news(news_title,news_contents):category = '娱乐' #更改类别sqli = '''insert into WYnews(category,newsTitle,newsContent)values("%s","%s","%s")'''%(pymysql.escape_string(category),pymysql.escape_string(news_title),pymysql.escape_string(news_contents))cur.execute(sqli)time.sleep(1)

若数据量过大,推荐使用多进程处理,处理方法在我前面的文章里有简单介绍

https://blog.csdn.net/Iv_zzy/article/details/107535041

如有转载,请注明出处,谢谢~

python 爬虫爬取网易新闻 网易排行榜相关推荐

  1. python爬虫爬取网页新闻标题-看完保证你会

    python爬虫爬取网页新闻标题方法 1.首先使用浏览自带的工具--检查,查找网页新闻标题对应的元素位置,这里查到的新闻标题是在 h3 标签中 2.然后使用编辑器编写python代码 2.1方法一: ...

  2. Python爬虫——爬取博物馆新闻 + 情感倾向分析 + 导入数据库

    一.环境 windows10 python3.7 mysql8(本地+阿里云) 二.出现的问题及注意事项 这是一个小组任务,而且对于每个人来说都是全新的知识,但是在前期没有充分沟通学习方式,导致大家各 ...

  3. 用Python爬虫爬取澎湃新闻【动态网页:Ajax 动态请求、异步刷新生成数据】的搜索结果(附代码讲解与整套代码)

    一.准备工作 1.本段代码要用到Python中的selenium模块,需要提前进行加载.主要加载方式是在Python中的命令行中输入 pip install selenium. 注:当直接用 pip ...

  4. Python爬虫爬取纵横中文网月票排行榜前1000的小说

    python爬虫学习 文章目录 前言 一.python爬虫 二.使用步骤 1.引入库 2.解析网页函数 3.获取数据函数 4.储存数据函数 5.主函数 6.创建全局变量 7.完整代码 8.爬虫实现 总 ...

  5. 使用python爬虫爬取百度新闻,告诉你社会热点话题

    1.网络爬虫基础使用 (1)urllib介绍: urllib中包括了四个模块,包括: urllib.request:可以用来发送request和获取request的结果 urllib.error:包含 ...

  6. python爬虫爬取豆瓣电影排行榜并通过pandas保存到Excel文件当中

    我们的需求是利用python爬虫爬取豆瓣电影排行榜数据,并将数据通过pandas保存到Excel文件当中(步骤详细) 我们用到的第三方库如下所示: import requests import pan ...

  7. Python爬虫-爬取wallhaven壁纸

    Python爬虫-爬取wallhaven壁纸 前言 可行性分析 功能介绍 效果展示 基本思路 1.获取每页(1页24张)壁纸的url 2.获取每张壁纸缩略图的url 3.获取壁纸原图下载的url 4. ...

  8. Python爬虫爬取网页数据并存储(一)

    Python爬虫爬取网页数据并存储(一) 环境搭建 爬虫基本原理 urllib库使用 requests库使用 正则表达式 一个示例 环境搭建 1.需要事先安装anaconda(或Python3.7)和 ...

  9. 在当当买了python怎么下载源代码-python爬虫爬取当当网

    [实例简介]python爬虫爬取当当网 [实例截图] [核心代码] ''' Function: 当当网图书爬虫 Author: Charles 微信公众号: Charles的皮卡丘 ''' impor ...

  10. python爬虫代码实例-Python爬虫爬取百度搜索内容代码实例

    这篇文章主要介绍了Python爬虫爬取百度搜索内容代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 搜索引擎用的很频繁,现在利用Python爬 ...

最新文章

  1. wps 模拟分析 规划求解_入行十年,我是如何解决模流分析准确性问题的
  2. 在kde中让gvim自动最大化
  3. python无法打印unicode编码_【整理】Python中实际上已经得到了正确的Unicode或某种编码的字符,但是看起来或打印出来却是乱码...
  4. mysql填写账户远程_如何开启MySQL的远程帐号
  5. wincc历史数据库_WinCC系统的基本功能介绍——自动化工程师必备
  6. 10分钟带你学会微信小程序的反编译
  7. 一个RSS阅读器的源码,不敢独享!
  8. 利用ant脚本 自动构建svn增量/全量 系统程序升级包
  9. vue+express+mongoose项目构建
  10. asp代码转成php代码,轻松将简单的asp代码转换为php代码
  11. OA 办公自动化系统 现状
  12. 高级计量经济学及stata应用 陈强 2021年5月1-5日 社会科学 经济学 管理学 金融 医学等各个领域
  13. 旅游指南之一----各地旅行社
  14. 【转发】浅析淘宝网首页信息架构的变迁
  15. 办公室搞笑记(2) 李姐
  16. DOM自定义属性 getAttribute、setAttribute、removeAttribute
  17. 再见了 SELECT * !大厂的 MySQL 查询优化方案,确实牛逼!
  18. 使用 rsync 服务(二)
  19. Ext.get()和Ext.getCmp()
  20. 南加大计算机专业本科sat要求,南加州大学本科申请需要什么条件

热门文章

  1. linux宝塔搭建网站,宝塔Linux面板搭建网站入门教程五(宝塔Linux面板安装WordPress博客程序)...
  2. 【Dart】dart之mixin探究
  3. 科技革命——智慧农业时代
  4. Python3 读取和写入excel
  5. 音视频压缩:H264码流层次结构和NALU详解
  6. Kubernetes CKA认证运维工程师笔记-Kubernetes调度
  7. poj1151-Atlantis(线段树+扫描线(经典题))
  8. top1 error 和 top5 error
  9. Hadoop2.7配置
  10. 由尚德linux系统编程录,linux系统编程(由尚德)