import requests
import json
import xlwt
import osheaders={'referer': 'https://news.qq.com/','user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'
}
rows=0  # 行数def getPage(url):try:re=requests.get(url,headers=headers)re.encoding=re.apparent_encodingreturn json.loads(re.text)except:print(re.status_code)# 获取新闻
def parse_news(text):global rows # 声明rows为全局变量try:content=text['data']['list']    # 热点精选except:content = text['data']  # 今日要闻和今日话题for item in content:source=item['url']title=item['title']sheet.write(rows,0,title)sheet.write(rows,1,source)rows+=1if __name__ == '__main__':today_news_url='https://i.news.qq.com/trpc.qqnews_web.pc_base_srv.base_http_proxy/NinjaPageContentSync?pull_urls=news_top_2018'today_topic_url='https://i.news.qq.com/trpc.qqnews_web.pc_base_srv.base_http_proxy/NinjaPageContentSync?pull_urls=today_topic_2018'# 创建excelExcel_book=xlwt.Workbook()# 添加一个sheetsheet=Excel_book.add_sheet('腾讯新闻')# 获取今日要闻print("开始获取今日要闻>>>")today_news=getPage(today_news_url)sheet.write(rows,0,'以下为今日要闻')rows+=1parse_news(today_news)print("...今日要闻获取完毕")# 获取今日话题print("开始获取今日话题>>>")today_topic=getPage(today_topic_url)sheet.write(rows,0,"以下为今日话题")rows+=1parse_news(today_topic)print("...今日话题获取完毕")# 热点精选page = int(input("请输入你想获得的热点精选页数:"))print("开始获取热点精选>>>")sheet.write(rows,0,"以下为热点精选")rows+=1for i in range(page):hot_news_url = 'https://i.news.qq.com/trpc.qqnews_web.kv_srv.kv_srv_http_proxy/list?sub_srv_id=24hours&srv_id=pc&offset=' + str(i*20) + '&limit=20&strategy=1&ext={%22pool%22:[%22top%22],%22is_filter%22:7,%22check_type%22:true}'hot_news=getPage(hot_news_url)parse_news(hot_news)print("...第%d页获取完毕"%(i+1))Excel_book.save('09_腾讯新闻.xlsx')print("保存完毕!路径为{}\\09_腾讯新闻.xlsx".format(os.getcwd()))

Python爬虫学习获取腾讯新闻并存入Excel相关推荐

  1. Python爬虫学习获取腾讯新闻并存入Csv文件

    with open('09_腾讯新闻.csv','a+') as f:    这样子写入的话产生的csv文件每行后面都会多一条空行,添加newline=''即可消除空行: 即with open('09 ...

  2. python 爬虫爬取腾讯新闻科技类的企鹅智酷系列(1)

    废话不多说,直接贴代码,主要采用BeautifulSoup写的 #coding:utf8from bs4 import BeautifulSoup import urllib2 import urll ...

  3. python爬虫爬取实习僧岗位信息并存入excel数据表中

    欢迎访问我的个人网站http://liubofeng.com 网页分析 博主在本博客中爬取的是数据分析岗位. 进入网站首页https://www.shixiseng.com/搜索数据分析,F12审查元 ...

  4. 从入门到入土:Python爬虫学习|实例练手|详细讲解|爬取腾讯招聘网|一步一步分析|异步加载|初级难度反扒处理|寻找消失的API来找工作吧

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  5. 从入门到入土:Python爬虫学习|实例练手|爬取新浪新闻搜索指定内容|Xpath定位标签爬取|代码注释详解

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  6. Python爬虫学习手册

    like:128-Python 爬取落网音乐 like:127-[图文详解]python爬虫实战--5分钟做个图片自动下载器 like:97-用Python写一个简单的微博爬虫 like:87-爬虫抓 ...

  7. python爬虫正则表达式实例-python爬虫学习三:python正则表达式

    python爬虫学习三:python正则表达式 1.正则表达式基础 a.正则表达式的大致匹配过程: 1.依次拿出表达式和文本中的字符比较 2.如果每一个字符都能匹配,则匹配成功:一旦有匹配不成功的字符 ...

  8. Python爬虫学习系列教程

    大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多.学习过程中我把一些学习的笔记总结下来,还记录了一些自己实际写的一些小爬虫,在这里跟大家一同分享,希望对Python爬虫 ...

  9. 新手python爬虫代码_新手小白必看 Python爬虫学习路线全面指导

    爬虫是大家公认的入门Python最好方式,没有之一.虽然Python有很多应用的方向,但爬虫对于新手小白而言更友好,原理也更简单,几行代码就能实现基本的爬虫,零基础也能快速入门,让新手小白体会更大的成 ...

最新文章

  1. asyncdata 获取参数_载入页面初始数据(asyncData)《 Nuxt.js:异步数据 》
  2. 重构第28 天 重命名bool方法(Rename boolean method)
  3. 无障碍开发(九)之tabindex属性
  4. 蓝桥杯之最大体积(数论+完全背包)
  5. 钟南山团队在患者粪便中检出新冠活病毒,国家卫健委回应!专家:做好这事很重要...
  6. 适用于Java开发人员的Elasticsearch:简介
  7. LL1分析构造法_【财经职业教育活动周】分析天平的使用——电气环保部
  8. GPU-Z:显卡体质、显卡各传感器实时状态的查看
  9. 【转】大厦将倾,互联网将如何变革传统行业(下)
  10. c#输入三个数升序排列_【每日一题】80. 两数之和输入有序数组
  11. 【STC15】串口使用
  12. 王码五笔98版forwin10_王码五笔98版-王码五笔98版64位 兼容王码五笔86版 - 快盘下载...
  13. 计算机中ms-dos什么意思,msdos是什么意思
  14. 微软文字转语音免费下载
  15. unite_Unite 2016主题总结:有关图形,平台,VR等的新闻
  16. 国际物流杰信项目总结与面试
  17. HTML超好看樱花飘落404页面源码+带时间
  18. js获取系统当前时间,实现钟表功能
  19. html(标题加上图片的方法,笔记)
  20. pin和port的区别

热门文章

  1. VM之Linux:Linux的Ubuntu中,解决安装后屏幕太小的问题
  2. Jupyter notebook 编写scala与spark
  3. 钢琴演奏:舒伯特的小夜曲 --- 女儿的钢琴学习
  4. 一位Python初学者的自白:Python小白眼中的装饰器
  5. Hashtable多线程遍历问题
  6. OSG+VS2010+win7环境搭建---OsgEarth编译
  7. 【c++手记】句柄类智能指针
  8. GDI 绘制圆角矩形
  9. 通告,消息,提醒 DB
  10. 清除vs2005起始页最近打开项目