python凤凰新闻数据分析(一)python爬虫数据爬取
凤凰网热点新闻
查看网页源代码,发现每个排行的数据在标签<div class="boxTab clearfix">中,共五个div标签
import requests
from bs4 import BeautifulSoup
url = 'http://news.ifeng.com/hotnews/'
req = requests.get(url)
html = req.content.decode('utf-8')#这里用utf-8解析
div_bf = BeautifulSoup(html,'html.parser')#html.parser解析器
new = div_bf.find_all('div',class_='boxTab clearfix')#筛选所有div标
print(new)
[<div class="boxTab clearfix"><a name="news"></a>
<div class="tit"><span class="c_01">资讯排行</span></div>
<ul class="label_01"><li class="current" id="m01">点击量排行</li><li id="m02">评论数排行</li></ul>
<div class="conTab">
<div class="tab_01" id="c01">
<table border="1" bordercolor="#cfcfcf" cellpadding="0" cellspacing="0" style="border-color:#ddd;" width="100%">
<tr>
<td width="9%">序号</td>
<td width="52%">新闻标题</td>
<td width="13%">点击量</td>
<td width="13%">时间</td>
<td width="13%">发表评论</td>
</tr>
<tr>
<td nowrap="">1</td>
<td nowrap=""><h3><a href="http://news.ifeng.com/a/20180604/58565046_0.shtml" target="_blank">7018米!中国科学家又迎来历史性突破</a></h3></td>
<td nowrap="">806045</td>
<td nowrap="">2018-06-04 06:25:31</td>
<td nowrap=""><a href="http://comment.ifeng.com/view.php?docName=7018米!中国科学家又迎来历史性突破&docUrl=http://news.ifeng.com/a/20180604/58565046_0.shtml" target="_blank">发表评论</a></td>
</tr>
以上代码为输出的部分new数据,type(new)为列表,输出的数据中所需要的数据都在<tr>和<td>标签中,进一步用BeautifulSoup解析(解析时需要用str())并筛选
first = BeautifulSoup(str(new[0]),'html.parser')
first_new = first.find_all('tr')
print(first_new)
[<tr>
<td width="9%">序号</td>
<td width="52%">新闻标题</td>
<td width="13%">点击量</td>
<td width="13%">时间</td>
<td width="13%">发表评论</td>
</tr>, <tr>
<td nowrap="">1</td>
<td nowrap=""><h3><a href="http://news.ifeng.com/a/20180604/58565046_0.shtml" target="_blank">7018米!中国科学家又迎来历史性突破</a></h3></td>
<td nowrap="">806045</td>
<td nowrap="">2018-06-04 06:25:31</td>
<td nowrap=""><a href="http://comment.ifeng.com/view.php?docName=7018米!中国科学家又迎来历史性突破&docUrl=http://news.ifeng.com/a/20180604/58565046_0.shtml" target="_blank">发表评论</a></td>
</tr>, <tr>
>>> print(first_new[0])
<tr>
<td width="9%">序号</td>
<td width="52%">新闻标题</td>
<td width="13%">点击量</td>
<td width="13%">时间</td>
<td width="13%">发表评论</td>
</tr>
同理,获得<td>标签的内容
first_new_td = BeautifulSoup(str(first_new[0]),'html.parser')
first_new_item = first_new_td.find_all('td')
print(first_new_item[1].text,first_new_item[0].text,first_new_item[2].text,first_new_item[3].text)
新闻标题 序号 点击量 时间
完整代码如下:
#coding:utf-8
from bs4 import BeautifulSoup
import requestsdef spider_Information():global newfrom tool.models import Informationfirst = BeautifulSoup(str(new[0]),'html.parser')#new[0]代表只爬取资讯新闻,其中len(new)为5,即五个div标签first_new = first.find_all('tr')for i in range(20):#20代表资讯的20条新闻信息first_new_td = BeautifulSoup(str(first_new[i+1]),'html.parser')first_new_item = first_new_td.find_all('td')print(first_new_item[1].text,first_new_item[0].text,first_new_item[2].text,first_new_item[3].text)if __name__ == "__main__":url = 'http://news.ifeng.com/hotnews/'req = requests.get(url)html = req.content.decode('utf-8')div_bf = BeautifulSoup(html,'html.parser')new = div_bf.find_all('div',class_='boxTab clearfix')spider_Information()print('Information Done!')
python凤凰新闻数据分析(一)python爬虫数据爬取相关推荐
- python凤凰新闻数据分析(四)整合
python版本:3.5, bootstrap版本:3.3.7, django版本:2.0 通过win+r键进入cmd输入命令: django-admin.py startproject websit ...
- python爬取网页表格数据匹配,python爬虫——数据爬取和具体解析
标签:pattern div mat txt 保存 关于 json result with open 关于正则表达式的更多用法,可参考链接:https://blog.c ...
- 基于python的自媒体和官媒数据爬取、可视化分析及云词图制作
创作不易,如果以下内容对你有帮助,别忘了点一个赞,让更多的小伙伴能看到吧~~ 1. 问题描述 为了研究自媒体和官媒的传播新闻<武汉快递小哥汪勇的先进事迹>的及时性和传播力度,对比两种传播途 ...
- 基于python的自媒体和官媒数据爬取、对比可视化分析及云词图提取关键词
创作不易,如果以下内容对你有帮助,别忘了点一个赞,让更多的小伙伴能看到吧~~ 1. 问题描述 为了研究自媒体和官媒的传播新闻<武汉快递小哥汪勇的先进事迹>的及时性和传播力度,对比两种传播途 ...
- python爬取凤凰新闻网_python凤凰新闻数据分析(一)python爬虫数据爬取
标签的内容 first_new_td = BeautifulSoup(str(first_new[0]),'html.parser') first_new_item = first_new_td.fi ...
- python登录网站后爬取数据_用 Python 登录主流网站,我们的数据爬取少不了它
不论是自然语言处理还是计算机视觉,做机器学习算法总会存在数据不足的情况,而这个时候就需要我们用爬虫获取一些额外数据.这个项目介绍了如何用 Python 登录各大网站,并用简单的爬虫获取一些有用数据,目 ...
- python soup歌词_python学习之爬虫(一) ——————爬取网易云歌词
接触python也有一段时间了,一提到python,可能大部分pythoner都会想到爬虫,没错,今天我们的话题就是爬虫!作为一个小学生,关于爬虫其实本人也只是略懂,怀着"Done is b ...
- python访问多个网页_Python 爬虫 2 爬取多页网页
本文内容: Requests.get 爬取多个页码的网页 例:爬取极客学院课程列表 爬虫步骤 打开目标网页,先查看网页源代码 get网页源码 找到想要的内容,找到规律,用正则表达式匹配,存储结果 Re ...
- Python学习MongoDB之酷狗音乐数据爬取与上传
发现URL规律,构建url,使用BeautifulSoup解析 url = 'https://www.kugou.com/yy/rank/home/1-8888.html?from=rank' url ...
最新文章
- python 用for循环生成字典_我需要创建一个for循环来生成嵌套字典
- 005-对象——对象的 final const
- 工程制图 (装配图)
- python列表索引负数_python – 如何检查列表索引是否存在?
- Asp.NET Core 轻松学-项目目录和文件作用介绍
- 动态Java代码注入
- android 按键上浮动画_android – 浮动动作按钮动画
- php5.0 添加接口,Thinkphp5.0模型---插入数据
- 腾讯云AI平台张文杰:构建一站式机器学习服务平台
- Unity对接Steam SDK
- thinkphp页面请求时间超过40S报404错误解决办法
- 微信语音终于可以转发了
- 网络直播对现代社会的影响
- 怎么解决在微信中不能直接下载APP(APK)的方案
- softmax和sigmod的pytorch这些
- 自动化测试工程师_所以你想成为一名测试自动化工程师
- JAVA程序员常用访问网址
- html移动端注册流程,登录和注册移动端.html
- 关于 tchar.h
- 一二线城市知名 IT互联网公司名单(最新整理版跳槽名单)~
热门文章
- 冯诺依曼 计算机名言,约翰·冯·诺伊曼留给我们的名言之一
- ((蓝桥杯 刷题全集)【备战(蓝桥杯)算法竞赛-第6天(动态规划 专题)】( 从头开始重新做题,记录备战竞赛路上的每一道题 )距离蓝桥杯还有61天
- 生物工程学蛋白功能预测_海水中生长的工程细菌产生丝蛋白
- 查看SQL查询数据所话费时间
- Windows XP自动登录 auto login
- 阴阳师服务器维护,《阴阳师》手游10月24日维护更新公告
- QWidget 半透明窗口解决方案
- IGMPv1包结构及工作机制讲解
- 技术与经济之六:现代化的陷阱
- 小傻蛋的妹妹跟随小甲鱼学习Python的第二十三、二十四节023、024