凤凰网热点新闻

查看网页源代码,发现每个排行的数据在标签<div class="boxTab clearfix">中,共五个div标签

import requests
from bs4 import BeautifulSoup
url = 'http://news.ifeng.com/hotnews/'
req = requests.get(url)
html = req.content.decode('utf-8')#这里用utf-8解析
div_bf = BeautifulSoup(html,'html.parser')#html.parser解析器
new = div_bf.find_all('div',class_='boxTab clearfix')#筛选所有div标
print(new)
[<div class="boxTab clearfix"><a name="news"></a>
<div class="tit"><span class="c_01">资讯排行</span></div>
<ul class="label_01"><li class="current" id="m01">点击量排行</li><li id="m02">评论数排行</li></ul>
<div class="conTab">
<div class="tab_01" id="c01">
<table border="1" bordercolor="#cfcfcf" cellpadding="0" cellspacing="0" style="border-color:#ddd;" width="100%">
<tr>
<td width="9%">序号</td>
<td width="52%">新闻标题</td>
<td width="13%">点击量</td>
<td width="13%">时间</td>
<td width="13%">发表评论</td>
</tr>
<tr>
<td nowrap="">1</td>
<td nowrap=""><h3><a href="http://news.ifeng.com/a/20180604/58565046_0.shtml" target="_blank">7018米!中国科学家又迎来历史性突破</a></h3></td>
<td nowrap="">806045</td>
<td nowrap="">2018-06-04 06:25:31</td>
<td nowrap=""><a href="http://comment.ifeng.com/view.php?docName=7018米!中国科学家又迎来历史性突破&docUrl=http://news.ifeng.com/a/20180604/58565046_0.shtml" target="_blank">发表评论</a></td>
</tr>

以上代码为输出的部分new数据,type(new)为列表,输出的数据中所需要的数据都在<tr>和<td>标签中,进一步用BeautifulSoup解析(解析时需要用str())并筛选

first = BeautifulSoup(str(new[0]),'html.parser')
first_new = first.find_all('tr')
print(first_new)
[<tr>
<td width="9%">序号</td>
<td width="52%">新闻标题</td>
<td width="13%">点击量</td>
<td width="13%">时间</td>
<td width="13%">发表评论</td>
</tr>, <tr>
<td nowrap="">1</td>
<td nowrap=""><h3><a href="http://news.ifeng.com/a/20180604/58565046_0.shtml" target="_blank">7018米!中国科学家又迎来历史性突破</a></h3></td>
<td nowrap="">806045</td>
<td nowrap="">2018-06-04 06:25:31</td>
<td nowrap=""><a href="http://comment.ifeng.com/view.php?docName=7018米!中国科学家又迎来历史性突破&docUrl=http://news.ifeng.com/a/20180604/58565046_0.shtml" target="_blank">发表评论</a></td>
</tr>, <tr>
>>> print(first_new[0])
<tr>
<td width="9%">序号</td>
<td width="52%">新闻标题</td>
<td width="13%">点击量</td>
<td width="13%">时间</td>
<td width="13%">发表评论</td>
</tr>

同理,获得<td>标签的内容

first_new_td = BeautifulSoup(str(first_new[0]),'html.parser')
first_new_item = first_new_td.find_all('td')
print(first_new_item[1].text,first_new_item[0].text,first_new_item[2].text,first_new_item[3].text)
新闻标题 序号 点击量 时间

完整代码如下:

#coding:utf-8
from bs4 import BeautifulSoup
import requestsdef spider_Information():global newfrom tool.models import Informationfirst = BeautifulSoup(str(new[0]),'html.parser')#new[0]代表只爬取资讯新闻,其中len(new)为5,即五个div标签first_new = first.find_all('tr')for i in range(20):#20代表资讯的20条新闻信息first_new_td = BeautifulSoup(str(first_new[i+1]),'html.parser')first_new_item = first_new_td.find_all('td')print(first_new_item[1].text,first_new_item[0].text,first_new_item[2].text,first_new_item[3].text)if __name__ == "__main__":url = 'http://news.ifeng.com/hotnews/'req = requests.get(url)html = req.content.decode('utf-8')div_bf = BeautifulSoup(html,'html.parser')new = div_bf.find_all('div',class_='boxTab clearfix')spider_Information()print('Information Done!')

python凤凰新闻数据分析(一)python爬虫数据爬取相关推荐

  1. python凤凰新闻数据分析(四)整合

    python版本:3.5, bootstrap版本:3.3.7, django版本:2.0 通过win+r键进入cmd输入命令: django-admin.py startproject websit ...

  2. python爬取网页表格数据匹配,python爬虫——数据爬取和具体解析

    标签:pattern   div   mat   txt   保存   关于   json   result   with open 关于正则表达式的更多用法,可参考链接:https://blog.c ...

  3. 基于python的自媒体和官媒数据爬取、可视化分析及云词图制作

    创作不易,如果以下内容对你有帮助,别忘了点一个赞,让更多的小伙伴能看到吧~~ 1. 问题描述 为了研究自媒体和官媒的传播新闻<武汉快递小哥汪勇的先进事迹>的及时性和传播力度,对比两种传播途 ...

  4. 基于python的自媒体和官媒数据爬取、对比可视化分析及云词图提取关键词

    创作不易,如果以下内容对你有帮助,别忘了点一个赞,让更多的小伙伴能看到吧~~ 1. 问题描述 为了研究自媒体和官媒的传播新闻<武汉快递小哥汪勇的先进事迹>的及时性和传播力度,对比两种传播途 ...

  5. python爬取凤凰新闻网_python凤凰新闻数据分析(一)python爬虫数据爬取

    标签的内容 first_new_td = BeautifulSoup(str(first_new[0]),'html.parser') first_new_item = first_new_td.fi ...

  6. python登录网站后爬取数据_用 Python 登录主流网站,我们的数据爬取少不了它

    不论是自然语言处理还是计算机视觉,做机器学习算法总会存在数据不足的情况,而这个时候就需要我们用爬虫获取一些额外数据.这个项目介绍了如何用 Python 登录各大网站,并用简单的爬虫获取一些有用数据,目 ...

  7. python soup歌词_python学习之爬虫(一) ——————爬取网易云歌词

    接触python也有一段时间了,一提到python,可能大部分pythoner都会想到爬虫,没错,今天我们的话题就是爬虫!作为一个小学生,关于爬虫其实本人也只是略懂,怀着"Done is b ...

  8. python访问多个网页_Python 爬虫 2 爬取多页网页

    本文内容: Requests.get 爬取多个页码的网页 例:爬取极客学院课程列表 爬虫步骤 打开目标网页,先查看网页源代码 get网页源码 找到想要的内容,找到规律,用正则表达式匹配,存储结果 Re ...

  9. Python学习MongoDB之酷狗音乐数据爬取与上传

    发现URL规律,构建url,使用BeautifulSoup解析 url = 'https://www.kugou.com/yy/rank/home/1-8888.html?from=rank' url ...

最新文章

  1. python 用for循环生成字典_我需要创建一个for循环来生成嵌套字典
  2. 005-对象——对象的 final const
  3. 工程制图 (装配图)
  4. python列表索引负数_python – 如何检查列表索引是否存在?
  5. Asp.NET Core 轻松学-项目目录和文件作用介绍
  6. 动态Java代码注入
  7. android 按键上浮动画_android – 浮动动作按钮动画
  8. php5.0 添加接口,Thinkphp5.0模型---插入数据
  9. 腾讯云AI平台张文杰:构建一站式机器学习服务平台
  10. Unity对接Steam SDK
  11. thinkphp页面请求时间超过40S报404错误解决办法
  12. 微信语音终于可以转发了
  13. 网络直播对现代社会的影响
  14. 怎么解决在微信中不能直接下载APP(APK)的方案
  15. softmax和sigmod的pytorch这些
  16. 自动化测试工程师_所以你想成为一名测试自动化工程师
  17. JAVA程序员常用访问网址
  18. html移动端注册流程,登录和注册移动端.html
  19. 关于 tchar.h
  20. 一二线城市知名 IT互联网公司名单(最新整理版跳槽名单)~

热门文章

  1. 冯诺依曼 计算机名言,约翰·冯·诺伊曼留给我们的名言之一
  2. ((蓝桥杯 刷题全集)【备战(蓝桥杯)算法竞赛-第6天(动态规划 专题)】( 从头开始重新做题,记录备战竞赛路上的每一道题 )距离蓝桥杯还有61天
  3. 生物工程学蛋白功能预测_海水中生长的工程细菌产生丝蛋白
  4. 查看SQL查询数据所话费时间
  5. Windows XP自动登录 auto login
  6. 阴阳师服务器维护,《阴阳师》手游10月24日维护更新公告
  7. QWidget 半透明窗口解决方案
  8. IGMPv1包结构及工作机制讲解
  9. 技术与经济之六:现代化的陷阱
  10. 小傻蛋的妹妹跟随小甲鱼学习Python的第二十三、二十四节023、024