爬取今日头条新闻selenium
from selenium import webdriver, common
import time
# 爬取今日头条的新闻
browser = webdriver.Chrome()
browser.maximize_window()
browser.get("https://www.toutiao.com/ch/news_finance/")
time.sleep(3)
# 获取13条网页文章
index = 1
while index < 13:
try:
# 得到网页上显示的新闻的连接
web = browser.find_element_by_xpath("/html/body/div/div[4]/div[2]/div[2]/div/div/div/ul/li["+str(index)+"]/div/div[1]/div/div[1]/a")
print(web.get_attribute("href"))
# 模拟点击
web.click()
# 由于打开了新的连接该步骤是让selenium跳转到新的页面操作
pagenum = browser.window_handles
browser.switch_to.window(pagenum[1])
time.sleep(5)
# 操作js命令 注意return
title = None
try:
# 如果使用find element by xxx 会出现异常,所以折中选择js操作
title = browser.execute_script("return document.getElementsByClassName('article-title')[0].innerText")
except common.exceptions.WebDriverException as e:
print("标题有异常", e)
print(title)
browser.close()
browser.switch_to.window(pagenum[0])
time.sleep(3)
# 当流量的标题大于4个后,拖动滚动条
browser.execute_script("window.scrollTo(0," + str(index * 100) + ")")
time.sleep(2)
except common.exceptions.WebDriverException as e:
# 当有跳转的时候直接刷新页面 从头开始爬取
print("有跳转", e)
browser.get("https://www.toutiao.com/ch/news_finance/")
index = 0
time.sleep(5)
# 滚轴顶头
browser.execute_script("window.scrollTo(0, 0)")
finally:
index += 1
爬取今日头条新闻selenium相关推荐
- 利用搜索关键字爬取今日头条新闻评论信息案例
利用搜索关键字爬取今日头条新闻评论信息案例 爬虫4步骤: 1.分析网页 2.对网页发送请求,获取响应 3.提取解析数据 4.保存数据 本案例所用到的模块 import requests import ...
- 小福利,爬取今日头条新闻信息
大家好,我是天空之城,今天给大家带来小福利,爬取今日头条新闻信息 话不多说,代码如下 import requestsheaders={'user-agent':'Mozilla/5.0 (Macint ...
- 用requests包爬取今日头条新闻标题
全码如下: # requests # 用来发送url(请求request),获取服务器响应 import requests import json if __name__ == '__main__': ...
- python抽取指定url页面的title_Python使用scrapy爬虫,爬取今日头条首页推荐新闻
爬取今日头条https://www.toutiao.com/首页推荐的新闻,打开网址得到如下界面 查看源代码你会发现 全是js代码,说明今日头条的内容是通过js动态生成的. 用火狐浏览器F12查看得知 ...
- Selenium驱动firefox爬取今日头条并存放在MySQL数据库中
Selenium驱动firefox爬取今日头条 前提: 1.安装selenium包:pip install selenium 2.安装MySQL数据库,并下载Navicat可视化工具 Navicat可 ...
- Python3从零开始爬取今日头条的新闻【五、解析头条视频真实播放地址并自动下载】
Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Pyt ...
- Python3从零开始爬取今日头条的新闻【一、开发环境搭建】
Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Pyt ...
- python编程100例头条-python爬虫演示:以爬取今日头条为例
编者按 众所周知,Python是一门编程语言,操作简洁而清晰.功能专业而强大.入门容易又严谨.2018年,教育部正式将人工智能.物联网.大数据处理划入高中课程,这就意味着,现在的中学生开始就要学习编程 ...
- 用python爬取头条文章_AI第四课:Python爬取今日头条文章
到目前为止,能使用python写一点简单的程序了,本次的任务是爬取今日头条的文章信息. 大致涉及的知识点:json数据格式,浏览器插件jsonView,浏览器开发者模式,html基础,http代理,h ...
最新文章
- 基于nanopi的即时通讯系统
- 整理Java相关的工具类Utils,持续更新中,建议收藏【目前更新至24】
- Android关于Handler发送消息里面的arg1和arg2以及obj和what的用法
- MongoDB数据查询
- VMware虚拟机克隆CentOS6.5后修改网卡
- linux如何重启syslog服务,Linux syslog服务
- 学计算机和电脑办公的区别,自学编程和计算机科班出身的差别在哪?
- python文本情感分析代码_6行代码的超简单语言情感分析:由Python的Vader情感库实现,超级,使用,vaderSentiment...
- Hibernate-03-Hibernate的检索方式
- linux 固态硬盘 分区工具,固态硬盘怎么分区?使用免费分区助手轻松搞定!
- Tomcat日志文件catalina.out文件过大问题解决方法
- 共享电动车风云再起,市场如何才能有序?
- 企业如何进行客户细分 客户细分的方法和类型
- 嵌入式linux ota,嵌入式Linux的OTA更新,基本原理和实现
- PTA——是不是太胖了
- 【JAVA】网页版登录注册系统2.0
- 舆情监控系统java_java舆情监测系统
- Linux_day02
- 【大学物理实验】RL和RC串联电路的稳态特性研究
- linux用户名设置,怎样更改linux的用户名