使用jupyter编辑, etree爬取

进入头条财经新闻网页,无法获取原网页内容,在查看各个请求中发现一个url里包含新闻信息.信息都在data里

import requests
from lxml import etree
import json

url = "https://www.toutiao.com/api/pc/feed/?category=stock&utm_source=toutiao&widen=1&max_behot_time=0&max_behot_time_tmp=0&tadrequire=true&as=A1C51CD5E0C5598&cp=5C50D50599C8BE1&_signature=4tjOJQAAvpNI946lUObjM-LYzj"headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3610.2 Safari/537.36","Connection": "close"
}response = requests.get(url=url,headers=headers)
response.encoding = "utf-8"
page_text = json.loads(response.text)  # 获取页面内容
# print(page_text)

data = page_text['data']  # 获取data
# print(data)
news_dict = {}  # 存放每条新闻信息的字典
news_list = []  # 存放所有新闻信息的列表
for news in data:news_dict['描述'] = news['abstract']news_dict['标题'] = news['title']news_dict['来源'] = news['source']news_dict['关键字'] = news['label']news_list.append(news_dict)news_dict={}print(news_list)

转载于:https://www.cnblogs.com/huangqihui/p/10336270.html

爬取今日头条财经版块新闻相关推荐

  1. python抽取指定url页面的title_Python使用scrapy爬虫,爬取今日头条首页推荐新闻

    爬取今日头条https://www.toutiao.com/首页推荐的新闻,打开网址得到如下界面 查看源代码你会发现 全是js代码,说明今日头条的内容是通过js动态生成的. 用火狐浏览器F12查看得知 ...

  2. Python 爬取今日头条的图片新闻

    工具 from urllib.parse import urlencode import requests 网页 进入今日头条,搜索图片新闻 往下进行网页刷新的时候,按f12选择xhr进行筛选可以看到 ...

  3. 使用python-aiohttp爬取今日头条

    在上一篇文章<使用python-aiohttp爬取网易云音乐>中,我们给自己的微信公众号添加了在线点歌的功能,这次我们再增加一个新闻浏览的功能.由于我平时浏览新闻用的是今日头条,所以在这里 ...

  4. python编程100例头条-python 简单爬取今日头条热点新闻(一)

    今日头条如今在自媒体领域算是比较强大的存在,今天就带大家利用python爬去今日头条的热点新闻,理论上是可以做到无限爬取的: 在浏览器中打开今日头条的链接,选中左侧的热点,在浏览器开发者模式netwo ...

  5. python爬虫今日头条_python 简单爬取今日头条热点新闻(

    今日头条如今在自媒体领域算是比较强大的存在,今天就带大家利用python爬去今日头条的热点新闻,理论上是可以做到无限爬取的: 在浏览器中打开今日头条的链接,选中左侧的热点,在浏览器开发者模式netwo ...

  6. python爬虫爬取今日头条_python 简单爬取今日头条热点新闻(一)

    今日头条如今在自媒体领域算是比较强大的存在,今天就带大家利用python爬去今日头条的热点新闻,理论上是可以做到无限爬取的: 在浏览器中打开今日头条的链接,选中左侧的热点,在浏览器开发者模式netwo ...

  7. 利用搜索关键字爬取今日头条新闻评论信息案例

    利用搜索关键字爬取今日头条新闻评论信息案例 爬虫4步骤: 1.分析网页 2.对网页发送请求,获取响应 3.提取解析数据 4.保存数据 本案例所用到的模块 import requests import ...

  8. Python3从零开始爬取今日头条的新闻【五、解析头条视频真实播放地址并自动下载】

    Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Pyt ...

  9. 爬取今日头条新闻selenium

    from selenium import webdriver, common import time # 爬取今日头条的新闻 browser = webdriver.Chrome() browser. ...

最新文章

  1. 直流UPS的研究和应用前景
  2. #面试!,一定要注意,避免踩这些雷!!
  3. 为什么35岁的C++依然能主导编程世界
  4. fastdfs配置-跟踪服务器
  5. 阿里巴巴提出Auto-Context R-CNN算法,刷出Faster RCNN目标检测新高度
  6. fiddler汉化版可以改成英文吗_可以把推拉门改成平开窗吗?推拉门和平开窗哪个更好?...
  7. day6 java成员变量与局部变量以及对象的建立
  8. 【项目调研+论文阅读】基于医学文献的实体抽取(NER)方法研究 day5
  9. 嵌入网站的挖矿代码——Cryptoloot
  10. 关于url传参中文乱码问题
  11. 庄河投资10亿元强力打造“智慧城市”
  12. 如何成为一名卓越的数据科学家-桃树七剑之二:数据准备
  13. 不精确微分/不完整微分(Inexact differential/Imperfect differential)
  14. 计算机word的关闭怎么办,电脑无法打开Word提示已停止工作并自动退出怎么办
  15. 重复组合公式及其证明方法
  16. Android 调用第三方地图类App (高德 百度 百度网页版)
  17. 使用chrome浏览器插件抢小米8
  18. 小程序源码:独家全新娱乐性超高的喝酒神器-多玩法安装简单
  19. 极光短信验证码的集成过程
  20. java 防篡改_用JAVA二十分钟撸一个简易图片防篡改

热门文章

  1. java实现itchat_GitHub - Xiazki/itchat4j: wechatbot 的java实现,简单搭建了基本框架和实现了扫码登陆,具体网页微信api请参考...
  2. 每日一练(8)—— 野指针
  3. linux中断处理体系结构分析(一),Linux中断处理体系结构分析(二)
  4. python制作聊天机器人原理_用 Python 来做一个聊天机器人吧!(一)
  5. ios 权限提示语_iOS工作室都在用按键v1.6.1(体验版)
  6. 阿里云 超级码力在线编程大赛初赛 第4场 题目3. from start to end
  7. LeetCode MySQL 1322. 广告效果
  8. LeetCode 1504. 统计全 1 子矩形(记录左侧的连续1的个数)
  9. LeetCode 813. 最大平均值和的分组(DP)
  10. uart口图片_uart 加强了的串口调试助手,可以自动记录传输数据,并且显示图片,示波器等功能 Com Port 编程 267万源代码下载- www.pudn.com...