python 爬虫爬取网易新闻网易排行榜

爬取新浪新闻的链接：

https://blog.csdn.net/Iv_zzy/article/details/107535041

爬取中国新闻网的链接

https://blog.csdn.net/Iv_zzy/article/details/107537295

与获取新浪新闻思路不同，新浪新闻的获取是先把所有的链接存入csv文件，再统一对所有的链接解析。本人对网易新闻的获取采用边解析链接、边获取链接的内容（本人尽可能提供不同的方法，若需要，对照修改使用即可)

网易排行榜如下图所示

以娱乐新闻为例，点击娱乐，到了这个界面
网页链接为：

http://news.163.com/special/0001386F/rank_ent.html

1、首先，从网页上获取带有链接的title
此处是返回一个list

def Initpage(url, headers):res = requests.get(url, headers = headers) res.content.decode('gb18030','ignore') #原网页gbksoup = BeautifulSoup(res.text, 'html.parser')#print(soup.prettify())titles = soup.find('div', 'area-half left').find('div', 'tabContents active').find_all('a') #listreturn titles

出来的结果是：

2、对list内的title一个个分解取出链接，获取内容

def parse(titles, headers):count = 0 for title in titles:#get urls from htmlnews_url = (str(title.get('href')))#read each url news_response = requests.get(news_url, headers=headers)news_html = news_response.textnews_soup = BeautifulSoup(news_html, 'html.parser')#analyze html to find news' title and news' contentif news_soup.find('div', 'post_text') is None:  #if html loose, jump out circulationcontinuenews_title = news_soup.find('h1').textcontents = news_soup.find('div', 'post_text').find_all('p')[:-2]news_contents = ""for content in contents:if len(content.text)<=0 or ("video" in content.text) or ("img" in content.text):continueelse:news_contents = news_contents + content.text.strip()count = count + 1try:print(news_title,news_contents)print('第'+ str(count) + '条新闻写入成功')except:print('第'+ str(count) + '条新闻抓取失败,正在尝试下一条')

另外，需要补充的是，本人尝试将新闻内容存储到数据库，如若有需要的，可以参考以下内容

连接数据库

def con_db():try:global dbdb = pymysql.connect('localhost','root','123456','newsDB',charset='utf8')except pymysql.Error as e:print("Error: {}".format(e))cur = db.cursor()print('connection success')return cur

插入数据

def insert_news(news_title,news_contents):category = '娱乐' #更改类别sqli = '''insert into WYnews(category,newsTitle,newsContent)values("%s","%s","%s")'''%(pymysql.escape_string(category),pymysql.escape_string(news_title),pymysql.escape_string(news_contents))cur.execute(sqli)time.sleep(1)

若数据量过大，推荐使用多进程处理，处理方法在我前面的文章里有简单介绍

https://blog.csdn.net/Iv_zzy/article/details/107535041

如有转载，请注明出处，谢谢~

python 爬虫爬取网易新闻网易排行榜相关推荐

python爬虫爬取网页新闻标题-看完保证你会
python爬虫爬取网页新闻标题方法 1.首先使用浏览自带的工具--检查,查找网页新闻标题对应的元素位置,这里查到的新闻标题是在 h3 标签中 2.然后使用编辑器编写python代码 2.1方法一: ...
Python爬虫——爬取博物馆新闻 + 情感倾向分析 + 导入数据库
一.环境 windows10 python3.7 mysql8(本地+阿里云) 二.出现的问题及注意事项这是一个小组任务,而且对于每个人来说都是全新的知识,但是在前期没有充分沟通学习方式,导致大家各 ...
用Python爬虫爬取澎湃新闻【动态网页:Ajax 动态请求、异步刷新生成数据】的搜索结果（附代码讲解与整套代码）
一.准备工作 1.本段代码要用到Python中的selenium模块,需要提前进行加载.主要加载方式是在Python中的命令行中输入 pip install selenium. 注:当直接用 pip ...
Python爬虫爬取纵横中文网月票排行榜前1000的小说
python爬虫学习文章目录前言一.python爬虫二.使用步骤 1.引入库 2.解析网页函数 3.获取数据函数 4.储存数据函数 5.主函数 6.创建全局变量 7.完整代码 8.爬虫实现总 ...
使用python爬虫爬取百度新闻，告诉你社会热点话题
1.网络爬虫基础使用 (1)urllib介绍: urllib中包括了四个模块,包括: urllib.request:可以用来发送request和获取request的结果 urllib.error:包含 ...
python爬虫爬取豆瓣电影排行榜并通过pandas保存到Excel文件当中
我们的需求是利用python爬虫爬取豆瓣电影排行榜数据,并将数据通过pandas保存到Excel文件当中(步骤详细) 我们用到的第三方库如下所示: import requests import pan ...
Python爬虫-爬取wallhaven壁纸
Python爬虫-爬取wallhaven壁纸前言可行性分析功能介绍效果展示基本思路 1.获取每页(1页24张)壁纸的url 2.获取每张壁纸缩略图的url 3.获取壁纸原图下载的url 4. ...
Python爬虫爬取网页数据并存储（一）
Python爬虫爬取网页数据并存储(一) 环境搭建爬虫基本原理 urllib库使用 requests库使用正则表达式一个示例环境搭建 1.需要事先安装anaconda(或Python3.7)和 ...
在当当买了python怎么下载源代码-python爬虫爬取当当网
[实例简介]python爬虫爬取当当网 [实例截图] [核心代码] ''' Function: 当当网图书爬虫 Author: Charles 微信公众号: Charles的皮卡丘 ''' impor ...
python爬虫代码实例-Python爬虫爬取百度搜索内容代码实例
这篇文章主要介绍了Python爬虫爬取百度搜索内容代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下搜索引擎用的很频繁,现在利用Python爬 ...

python 爬虫爬取网易新闻网易排行榜

python 爬虫爬取网易新闻网易排行榜相关推荐

最新文章

热门文章

python 爬虫爬取网易新闻 网易排行榜

python 爬虫爬取网易新闻 网易排行榜相关推荐

最新文章

热门文章

python 爬虫爬取网易新闻网易排行榜

python 爬虫爬取网易新闻网易排行榜相关推荐