from selenium import webdriver, common
import time
# 爬取今日头条的新闻
browser = webdriver.Chrome()
browser.maximize_window()
browser.get("https://www.toutiao.com/ch/news_finance/")
time.sleep(3)
# 获取13条网页文章
index = 1
while index < 13:
    try:

# 得到网页上显示的新闻的连接
        web = browser.find_element_by_xpath("/html/body/div/div[4]/div[2]/div[2]/div/div/div/ul/li["+str(index)+"]/div/div[1]/div/div[1]/a")
        print(web.get_attribute("href"))

# 模拟点击
        web.click()

# 由于打开了新的连接该步骤是让selenium跳转到新的页面操作
        pagenum = browser.window_handles
        browser.switch_to.window(pagenum[1])
        time.sleep(5)
        # 操作js命令 注意return
        title = None
        try:
            # 如果使用find element by xxx 会出现异常,所以折中选择js操作
            title = browser.execute_script("return document.getElementsByClassName('article-title')[0].innerText")
        except common.exceptions.WebDriverException as e:
            print("标题有异常", e)
        print(title)
        browser.close()
        browser.switch_to.window(pagenum[0])
        time.sleep(3)
        # 当流量的标题大于4个后,拖动滚动条
        browser.execute_script("window.scrollTo(0," + str(index * 100) + ")")
        time.sleep(2)
    except common.exceptions.WebDriverException as e:
        # 当有跳转的时候直接刷新页面 从头开始爬取
        print("有跳转", e)
        browser.get("https://www.toutiao.com/ch/news_finance/")
        index = 0
        time.sleep(5)
        # 滚轴顶头
        browser.execute_script("window.scrollTo(0, 0)")
    finally:
        index += 1

爬取今日头条新闻selenium相关推荐

  1. 利用搜索关键字爬取今日头条新闻评论信息案例

    利用搜索关键字爬取今日头条新闻评论信息案例 爬虫4步骤: 1.分析网页 2.对网页发送请求,获取响应 3.提取解析数据 4.保存数据 本案例所用到的模块 import requests import ...

  2. 小福利,爬取今日头条新闻信息

    大家好,我是天空之城,今天给大家带来小福利,爬取今日头条新闻信息 话不多说,代码如下 import requestsheaders={'user-agent':'Mozilla/5.0 (Macint ...

  3. 用requests包爬取今日头条新闻标题

    全码如下: # requests # 用来发送url(请求request),获取服务器响应 import requests import json if __name__ == '__main__': ...

  4. python抽取指定url页面的title_Python使用scrapy爬虫,爬取今日头条首页推荐新闻

    爬取今日头条https://www.toutiao.com/首页推荐的新闻,打开网址得到如下界面 查看源代码你会发现 全是js代码,说明今日头条的内容是通过js动态生成的. 用火狐浏览器F12查看得知 ...

  5. Selenium驱动firefox爬取今日头条并存放在MySQL数据库中

    Selenium驱动firefox爬取今日头条 前提: 1.安装selenium包:pip install selenium 2.安装MySQL数据库,并下载Navicat可视化工具 Navicat可 ...

  6. Python3从零开始爬取今日头条的新闻【五、解析头条视频真实播放地址并自动下载】

    Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Pyt ...

  7. Python3从零开始爬取今日头条的新闻【一、开发环境搭建】

    Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Pyt ...

  8. python编程100例头条-python爬虫演示:以爬取今日头条为例

    编者按 众所周知,Python是一门编程语言,操作简洁而清晰.功能专业而强大.入门容易又严谨.2018年,教育部正式将人工智能.物联网.大数据处理划入高中课程,这就意味着,现在的中学生开始就要学习编程 ...

  9. 用python爬取头条文章_AI第四课:Python爬取今日头条文章

    到目前为止,能使用python写一点简单的程序了,本次的任务是爬取今日头条的文章信息. 大致涉及的知识点:json数据格式,浏览器插件jsonView,浏览器开发者模式,html基础,http代理,h ...

最新文章

  1. 基于nanopi的即时通讯系统
  2. 整理Java相关的工具类Utils,持续更新中,建议收藏【目前更新至24】
  3. Android关于Handler发送消息里面的arg1和arg2以及obj和what的用法
  4. MongoDB数据查询
  5. VMware虚拟机克隆CentOS6.5后修改网卡
  6. linux如何重启syslog服务,Linux syslog服务
  7. 学计算机和电脑办公的区别,自学编程和计算机科班出身的差别在哪?
  8. python文本情感分析代码_6行代码的超简单语言情感分析:由Python的Vader情感库实现,超级,使用,vaderSentiment...
  9. Hibernate-03-Hibernate的检索方式
  10. linux 固态硬盘 分区工具,固态硬盘怎么分区?使用免费分区助手轻松搞定!
  11. Tomcat日志文件catalina.out文件过大问题解决方法
  12. 共享电动车风云再起,市场如何才能有序?
  13. 企业如何进行客户细分 客户细分的方法和类型
  14. 嵌入式linux ota,嵌入式Linux的OTA更新,基本原理和实现
  15. PTA——是不是太胖了
  16. 【JAVA】网页版登录注册系统2.0
  17. 舆情监控系统java_java舆情监测系统
  18. Linux_day02
  19. 【大学物理实验】RL和RC串联电路的稳态特性研究
  20. linux用户名设置,怎样更改linux的用户名

热门文章

  1. 盒马与淄博布局重仓数字农业探索乡村振兴新样本
  2. wps缩小后如何让文档横向排列
  3. 精准销售配合粉丝经济,打造新销售时代最热IP
  4. c++中给LPCSTR赋值
  5. My Andoid Tool 微信禁用方案记录
  6. 获取系统时间戳 如文件备份带上时间
  7. 网页中播放mp4文件
  8. UnityShader_倒影,水波倒影(1)
  9. MAC绕开pan限速下载的方法
  10. 台式计算机的速度,台式机电脑运行速度慢的解决方法