百度热点新闻上,前6条是在strong > a下面抓取,后30条,以及之后的各个分版块(国内,国际,地方,娱乐,体育等等),抓取的特征值是a标签下的mon的值,c=板块名称,pn=为每个分类下的第几条新闻,一个分类下显示12条(地方新闻显示8条),看看原网页就可以知道了。

完整代码如下

import  requests
from bs4 import  BeautifulSoup
import timeurl='http://news.baidu.com/'
res=requests.get(url)
soup = BeautifulSoup(res.text,'lxml')print('百度新闻python爬虫抓取')print('头条热点新闻')
sel_a =soup.select('strong a')
for i in range(0,5):print(sel_a[i].get_text())print(sel_a[i].get('href'))print('热点新闻')
titles_b=[]
titlew=""
for i in range(1,31):sel_b=soup.find_all('a',mon="ct=1&a=2&c=top&pn="+str(i))titles_b.append(sel_b[0])
for i in range(0,30):print(titles_b[i].get_text())print(titles_b[i].get('href'))titlew=titlew + titles_b[i].get_text() + "\n"# 获取当前时间
now = time.strftime('%Y-%m-%d', time.localtime(time.time()))
# 输出到文件
with open('news' + now + '.txt', 'a', encoding='utf-8') as file:file.write(titlew) #只输出标题

摸索期间,可以直接把网页下载到本地进行调试,代码如下:

with open('本地文件路径',encoding='utf-8') as f:
#  print(f.read())
soup = BeautifulSoup(f,'lxml')

python爬虫(1)-百度新闻首页抓取相关推荐

  1. python爬虫教程,带你抓取百度的高清摄影图片

    python爬虫教程,带你抓取百度的高清摄影图片 源码分享: ''' 在学习过程中有什么不懂得可以加我的 python学习交流扣扣qun,934109170 群里有不错的学习教程.开发工具与电子书籍. ...

  2. python中国大学排名爬虫写明详细步骤-Python爬虫--2019大学排名数据抓取

    Python爬虫--2019大学排名数据抓取 准备工作 输入:大学排名URL连接 输出:大学排名信息屏幕输出 所需要用到的库:requests,bs4 思路 获取网页信息 提取网页中的内容并放到数据结 ...

  3. 如何用python抓取文献_浅谈Python爬虫技术的网页数据抓取与分析

    浅谈 Python 爬虫技术的网页数据抓取与分析 吴永聪 [期刊名称] <计算机时代> [年 ( 卷 ), 期] 2019(000)008 [摘要] 近年来 , 随着互联网的发展 , 如何 ...

  4. python爬关键词百度指数_Python 抓取指定关键词的百度指数

    百度指数很多时候在我们做项目的时候会很有帮助,从搜索引擎的流量端给到我们一些帮助,比如:家具行业的销量跟"装修","新房","二手房"等关键 ...

  5. Python爬虫成长之路:抓取证券之星的股票数据(转)

    获取数据是数据分析中必不可少的一部分,而网络爬虫是是获取数据的一个重要渠道之一.鉴于此,我拾起了Python这把利器,开启了网络爬虫之路. 本篇使用的版本为python3.5,意在抓取证券之星上当天所 ...

  6. 【Python】 调用百度地图API抓取西安市小区信息

    前面有同学参加市场调查大赛,需要西安市的小区信息数据,一个小爬虫程序完美解决. 百度地图开放平台 详情访问:百度PlaceAPI 这里用到了矩形区域检索,具体参数说明如下: 调取详情 所需库: imp ...

  7. python爬虫:使用scrapy框架抓取360超清壁纸(10W+超清壁纸等你来爬)

    目的:闲着无聊,利用爬虫爬取360超清壁纸,并将其数据存储至MongoDB/MySQL中,将图片下载至指定文件夹. 要求:确保以安装MongoDB或者MySQL数据库.scrapy框架也肯定必须有的: ...

  8. python爬虫之scrapy初试与抓取链家成交房产记录

    接上一篇文章,本机安装好python之后和scrapy之后,我们开始学习使用scrapy创建爬虫程序. 今天先来点简单的,不那么复杂,先看看抓取链家网里面的房价信息. 首先使用CMD命令行进入F盘创建 ...

  9. 基于Python爬虫的股票成交量数据抓取分析系统

    目录 数据获取 2 1.1. 实验环境搭建 2 1.2. 抓取数据 2 1.2.1. 新浪财经 3 1.2.2. 网易财经 6 1.2.3. 东方财富 12 1.2.4. TuShare (挖地兔) ...

最新文章

  1. spring MVC项目启动报错
  2. [CF522D]Closest Equals
  3. 青龙羊毛——顺丰科勒(搬运)
  4. Labview 串口通信之——PC控制云台方向
  5. python是多模型语言_Django多语言post模型
  6. Shell(3)——截取某些字符、默认值处理
  7. MyBatis的association示例
  8. c#代码实现GPS数据的有效性校验
  9. python求矩形面积_关于python:创建矩形类
  10. C++ 模板何时被实例化
  11. 苹果下调macbook AppleCare+价格 英特尔芯pro除外
  12. VIP 时代,详解会员营销系统架构技术实践!
  13. 头号英雄 答题助手助力通关赢大奖
  14. UI设计中的“吐司”是什么意思?
  15. 寄生方式分类计算机病毒,计算机病毒寄生方式和感染途径分类
  16. EasyBoot中文启动光盘制作教程
  17. 特斯拉设计师评苹果造车:痴人说梦,缺乏创新
  18. idea中摸鱼插件_推荐几款我常用的IDEA插件~网友:妈耶~飞起来咯!
  19. centos mysql 5.2.3 编译安装_在CentOS上编译安装MySQL 5.7.13步骤详解
  20. 做人做事需牢记20条原则

热门文章

  1. 第六篇 VGGNet——模型精讲
  2. openssl RSA、AES、DES、MD5、SHA1,CA
  3. Codeforces Round #406 (Div. 1) A. Berzerk(博弈论)
  4. dash 机器人 Android,用于 Dash 和 Dot 机器人的Blockly
  5. 我国成功发射第七颗北斗导航卫星
  6. 低能耗配电开关 USB过流保护芯片USB限流保护SY6280
  7. win7计算机无法连接投影仪,win7系统下投影仪无法输出信号到电脑的解决方法
  8. 《书中圣Inception》隐私策略
  9. CAD框选对象的两种方式、AUTOCAD——删除重复线段
  10. xmind可以画流程图吗_xmind8可以画流程图吗