python凤凰新闻数据分析（一）python爬虫数据爬取

凤凰网热点新闻

查看网页源代码，发现每个排行的数据在标签<div class="boxTab clearfix">中，共五个div标签

import requests
from bs4 import BeautifulSoup
url = 'http://news.ifeng.com/hotnews/'
req = requests.get(url)
html = req.content.decode('utf-8')#这里用utf-8解析
div_bf = BeautifulSoup(html,'html.parser')#html.parser解析器
new = div_bf.find_all('div',class_='boxTab clearfix')#筛选所有div标

print(new)
[<div class="boxTab clearfix"><a name="news"></a>
<div class="tit"><span class="c_01">资讯排行</span></div>
<ul class="label_01"><li class="current" id="m01">点击量排行</li><li id="m02">评论数排行</li></ul>
<div class="conTab">
<div class="tab_01" id="c01">
<table border="1" bordercolor="#cfcfcf" cellpadding="0" cellspacing="0" style="border-color:#ddd;" width="100%">
<tr>
<td width="9%">序号</td>
<td width="52%">新闻标题</td>
<td width="13%">点击量</td>
<td width="13%">时间</td>
<td width="13%">发表评论</td>
</tr>
<tr>
<td nowrap="">1</td>
<td nowrap=""><h3><a href="http://news.ifeng.com/a/20180604/58565046_0.shtml" target="_blank">7018米！中国科学家又迎来历史性突破</a></h3></td>
<td nowrap="">806045</td>
<td nowrap="">2018-06-04 06:25:31</td>
<td nowrap=""><a href="http://comment.ifeng.com/view.php?docName=7018米！中国科学家又迎来历史性突破&docUrl=http://news.ifeng.com/a/20180604/58565046_0.shtml" target="_blank">发表评论</a></td>
</tr>

以上代码为输出的部分new数据，type(new)为列表，输出的数据中所需要的数据都在<tr>和<td>标签中，进一步用BeautifulSoup解析（解析时需要用str()）并筛选

first = BeautifulSoup(str(new[0]),'html.parser')
first_new = first.find_all('tr')
print(first_new)
[<tr>
<td width="9%">序号</td>
<td width="52%">新闻标题</td>
<td width="13%">点击量</td>
<td width="13%">时间</td>
<td width="13%">发表评论</td>
</tr>, <tr>
<td nowrap="">1</td>
<td nowrap=""><h3><a href="http://news.ifeng.com/a/20180604/58565046_0.shtml" target="_blank">7018米！中国科学家又迎来历史性突破</a></h3></td>
<td nowrap="">806045</td>
<td nowrap="">2018-06-04 06:25:31</td>
<td nowrap=""><a href="http://comment.ifeng.com/view.php?docName=7018米！中国科学家又迎来历史性突破&docUrl=http://news.ifeng.com/a/20180604/58565046_0.shtml" target="_blank">发表评论</a></td>
</tr>, <tr>

>>> print(first_new[0])
<tr>
<td width="9%">序号</td>
<td width="52%">新闻标题</td>
<td width="13%">点击量</td>
<td width="13%">时间</td>
<td width="13%">发表评论</td>
</tr>

同理，获得<td>标签的内容

first_new_td = BeautifulSoup(str(first_new[0]),'html.parser')
first_new_item = first_new_td.find_all('td')
print(first_new_item[1].text,first_new_item[0].text,first_new_item[2].text,first_new_item[3].text)
新闻标题 序号 点击量 时间

完整代码如下：

#coding:utf-8
from bs4 import BeautifulSoup
import requestsdef spider_Information():global newfrom tool.models import Informationfirst = BeautifulSoup(str(new[0]),'html.parser')#new[0]代表只爬取资讯新闻,其中len(new)为5,即五个div标签first_new = first.find_all('tr')for i in range(20):#20代表资讯的20条新闻信息first_new_td = BeautifulSoup(str(first_new[i+1]),'html.parser')first_new_item = first_new_td.find_all('td')print(first_new_item[1].text,first_new_item[0].text,first_new_item[2].text,first_new_item[3].text)if __name__ == "__main__":url = 'http://news.ifeng.com/hotnews/'req = requests.get(url)html = req.content.decode('utf-8')div_bf = BeautifulSoup(html,'html.parser')new = div_bf.find_all('div',class_='boxTab clearfix')spider_Information()print('Information Done!')

python凤凰新闻数据分析（一）python爬虫数据爬取相关推荐

python凤凰新闻数据分析（四）整合
python版本:3.5, bootstrap版本:3.3.7, django版本:2.0 通过win+r键进入cmd输入命令: django-admin.py startproject websit ...
python爬取网页表格数据匹配,python爬虫——数据爬取和具体解析
标签:pattern div mat txt 保存关于 json result with open 关于正则表达式的更多用法,可参考链接:https://blog.c ...
基于python的自媒体和官媒数据爬取、可视化分析及云词图制作
创作不易,如果以下内容对你有帮助,别忘了点一个赞,让更多的小伙伴能看到吧~~ 1. 问题描述为了研究自媒体和官媒的传播新闻<武汉快递小哥汪勇的先进事迹>的及时性和传播力度,对比两种传播途 ...
基于python的自媒体和官媒数据爬取、对比可视化分析及云词图提取关键词
创作不易,如果以下内容对你有帮助,别忘了点一个赞,让更多的小伙伴能看到吧~~ 1. 问题描述为了研究自媒体和官媒的传播新闻<武汉快递小哥汪勇的先进事迹>的及时性和传播力度,对比两种传播途 ...
python爬取凤凰新闻网_python凤凰新闻数据分析（一）python爬虫数据爬取
标签的内容 first_new_td = BeautifulSoup(str(first_new[0]),'html.parser') first_new_item = first_new_td.fi ...
python登录网站后爬取数据_用 Python 登录主流网站，我们的数据爬取少不了它
不论是自然语言处理还是计算机视觉,做机器学习算法总会存在数据不足的情况,而这个时候就需要我们用爬虫获取一些额外数据.这个项目介绍了如何用 Python 登录各大网站,并用简单的爬虫获取一些有用数据,目 ...
python soup歌词_python学习之爬虫(一) ——————爬取网易云歌词
接触python也有一段时间了,一提到python,可能大部分pythoner都会想到爬虫,没错,今天我们的话题就是爬虫!作为一个小学生,关于爬虫其实本人也只是略懂,怀着"Done is b ...
python访问多个网页_Python 爬虫 2 爬取多页网页
本文内容: Requests.get 爬取多个页码的网页例:爬取极客学院课程列表爬虫步骤打开目标网页,先查看网页源代码 get网页源码找到想要的内容,找到规律,用正则表达式匹配,存储结果 Re ...
Python学习MongoDB之酷狗音乐数据爬取与上传
发现URL规律,构建url,使用BeautifulSoup解析 url = 'https://www.kugou.com/yy/rank/home/1-8888.html?from=rank' url ...

python凤凰新闻数据分析（一）python爬虫数据爬取

python凤凰新闻数据分析（一）python爬虫数据爬取相关推荐

最新文章

热门文章