前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

作者: LSGOGroup

PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取

python免费学习资料以及群交流解答点击即可加入


学习了python基本语法后,对爬虫产生了很大的兴趣,废话不多说,今天来爬取网易新闻,实战出真知。

打开网易新闻 可以发现新闻分为这样的几个板块:

这次选择国内板块来爬取文章。

1. 准备

  • 环境:python3
  • 编译器:PyCharm
  • 安装 selenium 针对三大浏览器驱动 driver

下载地址

  • chromedriver:https://code.google.com/p/chromedriver/downloads/list
  • Firefox 的驱动 geckodriver:https://github.com/mozilla/geckodriver/releases/
  • IE 的驱动 IEdrive:http://www.nuget.org/packages/Selenium.WebDriver.IEDriver/

了解网页

网页绚丽多彩,美轮美奂,如同一幅水彩画。爬取数据首先需要知道所需要抓取的数据是怎样的呈现的,就像学作一幅画,开始前你要知道这幅画是用什么画出来的,铅笔还是水彩笔…可能种类是多样的,但是放到网页信息来说这儿只有两种呈现方式:

  • HTML
  • JSON

HTML是用来描述网页的一种语言

JSON是一种轻量级的数据交换格式

爬取网页信息其实就是向网页提出请求,服务器就会将数据反馈给你

2. 获得动态加载源码

导入需要的用的模块和库:

from bs4 import BeautifulSoup
import time
import def_text_save as dts
import def_get_data as dgd
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.action_chains import ActionChains #引入ActionChains鼠标操作类

获取网页信息需要发送请求,requests 能帮我们很好的完成这件事,但是仔细观察发现网易新闻是动态加载,requests 返回的是即时信息,网页部分稍后加载出来的数据没有返回,这种情况 selenium 能够帮助我们得到更多的数据,我们将 selenium 理解为一个自动化测试工具就好,Selenium 测试直接运行在浏览器中,就像真正的用户在操作一样。

我使用的浏览器为Firefox

browser = webdriver.Firefox()#根据浏览器切换
browser.maximize_window()#最大化窗口
browser.get('http://news.163.com/domestic/')

这样我们就能驱动浏览器自动登陆网易新闻页面

我们的目标自然是一次将国内板块爬取下来,观察网页,在网页不断向下刷时,新的新闻才会加载出来,到最下面甚至还有需要点击按钮才能刷新:

这时使用 selenium 就能展现其优势:自动化,模拟鼠标键盘操作:

diver.execute_script("window.scrollBy(0,5000)")
#使网页向下拉,括号内为每次下拉数值

在网页中右键点击加载更多按钮,点击查看元素,可以看到

通过这个 class 就可以定位到按钮,碰到按钮时,click 事件就能帮助我们自动点击按钮完成网页刷新

# 爬取板块动态加载部分源代码info1=[]
info_links=[]    #存储文章内容链接
try:while True :if  browser.page_source.find("load_more_btn") != -1 :browser.find_element_by_class_name("load_more_btn").click()browser.execute_script("window.scrollBy(0,5000)")time.sleep(1)
except:url = browser.page_source#返回加载完全的网页源码browser.close()#关闭浏览器
  1. 获取有用信息

简单来说,BeautifulSoup 是 python 的一个库,最主要的功能是从网页抓取数据,能减轻菜鸟的负担。
通过 BeautifulSoup 解析网页源码,在加上附带的函数,我们能轻松取出想要的信息,例如:获取文章标题,标签以及文本内容超链接

同样在文章标题区域右键点击查看元素:

观察网页结构发现每一个div标签class=“news_title" 下都是文章的标题和超链接。soup.find_all()函数能帮我们找到我们想要的全部信息,这一级结构下的内容就能一次摘取出来。最后通过字典,把标签信息,挨个个取出来。

info_total=[]
def get_data(url):soup=BeautifulSoup(url,"html.parser")titles=soup.find_all('div','news_title')labels=soup.find('div','ns_area second2016_main clearfix').find_all('div','keywords')for title, label in zip(titles,labels ):data = {'文章标题': title.get_text().split(),'文章标签':label.get_text().split() ,'link':title.find("a").get('href')}info_total.append(data)return info_total

4. 获取新闻内容

自此,新闻链接已经被我们取出来存到列表里了,现在需要做的就是利用链接得到新闻主题内容。新闻主题内容页面为静态加载方式,requests 能轻松处理:

def get_content(url):info_text = []info=[]adata=requests.get(url)soup=BeautifulSoup(adata.text,'html.parser')try  :articles = soup.find("div", 'post_header').find('div', 'post_content_main').find('div', 'post_text').find_all('p')except :articles = soup.find("div", 'post_content post_area clearfix').find('div', 'post_body').find('div', 'post_text').find_all('p')for a in articles:a=a.get_text()a= ' '.join(a.split())info_text.append(a)return (info_text)

使用 try except的原因在于,网易新闻文章在某个时间段前后,文本信息所处位置标签不一样,对不同的情况应作出不同的处理。

最后遍历整个列表取出全部文本内容:

for i in  info1 :info_links.append(i.get('link'))
x=0   #控制访问文章目录
info_content={}# 存储文章内容
for i in info_links:try :info_content['文章内容']=dgd.get_content(i)except:continues=str(info1[x]["文章标题"]).replace('[','').replace(']','').replace("'",'').replace(',','').replace('《','').replace('》','').replace('/','').replace(',',' ')s= ''.join(s.split())file = '/home/lsgo18/PycharmProjects/网易新闻'+'/'+sprint(s)dts.text_save(file,info_content['文章内容'],info1[x]['文章标签'])x = x + 1
  1. 存储数据到本地txt文件

python 提供了处理文件的函数open(),第一个参数为文件路径,第二为文件处理模式,“w” 模式为只写(不存在文件则创建,存在则清空内容)

def text_save(filename, data,lable):   #filename为写入CSV文件的路径file = open(filename,'w')file.write(str(lable).replace('[','').replace(']','')+'\n')for i in range(len(data)):s =str(data[i]).replace('[','').replace(']','')#去除[],这两行按数据不同,可以选择s = s.replace("'",'').replace(',','') +'\n'   #去除单引号,逗号,每行末尾追加换行符file.write(s)file.close()print("保存文件成功")

一个简单的爬虫至此就编写成功:


到此为止,爬取网易新闻的方法就介绍完了,希望对大家有用!See You!

如何利用python爬取网易新闻相关推荐

  1. python爬取股票信息_利用Python爬取网易上证所有股票数据(代码

    利用Python爬取网易上证所有股票数据(代码 发布时间:2018-04-14 17:30, 浏览次数:1261 , 标签: Python import urllib.request import r ...

  2. Python爬取网易新闻,就是这么简单!

    此文属于入门级级别的爬虫,老司机们就不用看了. 本次主要是爬取网易新闻,包括新闻标题.作者.来源.发布时间.新闻正文. 首先我们打开163的网站,我们随意选择一个分类,这里我选的分类是国内新闻.然后鼠 ...

  3. 用Python爬取网易新闻

    很多人可能每天都要浏览新闻,但是每一天都需要刷很多的新闻客户端.今天就用Python大法来解决你的烦恼,让你一次看个够... 基本思路 爬取新闻的方法有很多,可以通过解析网页,也可以利用API爬取.今 ...

  4. 利用Python爬取网易上证所有股票数据(代码

    import urllib.request import re##def downback(a,b,c): ## '''' ## a:已经下载的数据块 ## b:数据块的大小 ## c:远程文件的大小 ...

  5. python 怎么爬桌软件数据_如何利用Python爬取并分析红岭创投的数据?

    第一步:爬取数据 通过 selenium + Firefox 的无头模式将需要的数据爬取出来,代码实现不在赘述,详细步骤可查看我的上一篇图文(如何利用Python爬取网易新闻), 由于 seleniu ...

  6. Python+beautifulsoup+requests 爬取网易新闻评论

    前段时间在看处理数据相关的书籍,实践中需要一些网上评论的文本数据集,所以想到爬取网易新闻底下的评论.本来想着Python+beautifulsoup(解析)+requests(抓取),最后存储在txt ...

  7. 19. python爬虫——基于scrapy框架爬取网易新闻内容

    python爬虫--基于scrapy框架爬取网易新闻内容 1.需求 [前期准备] 2.分析及代码实现 (1)获取五大板块详情页url (2)解析每个板块 (3)解析每个模块里的标题中详情页信息 1.需 ...

  8. python爬取热门新闻每日排行_爬取网易新闻排行榜

    #网络爬虫之最基本的爬虫:爬取[网易新闻排行榜](http://news.163.com/rank/) **一些说明:** * 使用urllib2或requests包来爬取页面. * 使用正则表达式分 ...

  9. python爬网易新闻_Python爬虫实战教程:爬取网易新闻

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: Amauri PS:如有需要Python学习资料的小伙伴可以加点击 ...

最新文章

  1. 你了解的技术宅是这样吗?
  2. 网络推广专员浅析网络推广中如何分析网站建设水平孰优孰劣?
  3. 【Android WebSocket】Android 端 WebSocket 基本用法 ( 添加依赖和权限 | 创建 WebSocketClient 客户端类 | 建立连接并发送消息 )
  4. Forefront Client Security服务器配置
  5. 深入理解C++的动态绑定和静态绑定
  6. python工业自动化仿真_ABAQUS 中基于 Python 脚本语言开发实现仿真自动化操作
  7. 重磅官宣:Nacos2.0发布,性能提升10倍
  8. python开发学习记录
  9. inchat库下载 python_Linux 环境下安装 Python3 的操作方法
  10. linux中docker容器与宿主系统之间文件拷贝
  11. 反射进行.newInstance()方法,报错Caused by: java.lang.NoSuchMethodException:XXXX.<init>()
  12. 挑战杯创业计划书_基于云计算的下料优化软件_1. 执行总结
  13. 计算机qq群怎样提交作业,qq群作业怎么弄 qq群作业功能详细介绍
  14. python胶水语言为什么_为什么只有python是胶水语言?
  15. 浏览器劫持事件处置(麻辣香锅)
  16. Luogu P2656 采蘑菇
  17. Mac电脑 绑定阿里云企业邮箱
  18. 今年应届的我面试37次,在16个offer上岸后总结了一些面试心得
  19. Google退出中国了
  20. Chimaera:用区块链游戏思维将《玩家一号》的“绿洲”变为现实;网易有道将推语音助手及智能音箱

热门文章

  1. 深度学习中patch的意思
  2. 单商户商城系统功能拆解30—营销中心—积分签到
  3. SSM学生信息管理系统(学生端+教师端+管理员端)
  4. SEO资源生态系统的原理和思维之我见
  5. 通信原理仿真报告-数字传输系统的最佳接收与误码分析
  6. 如何为博客选择目标受众(+例子)
  7. 【新手入门】什么是量化投资?
  8. ARMA模型时间序列分析全流程(附python代码)
  9. JBookMaker免费下载(能把TXT文档转化为手机即时阅读的小工具)
  10. JAVA JSP学生信息档案管理系统JSP学生管理系统JSP学生档案管理系统JSP学生信息管理系统