爬取今日头条新闻selenium

from selenium import webdriver, common
import time
# 爬取今日头条的新闻
browser = webdriver.Chrome()
browser.maximize_window()
browser.get("https://www.toutiao.com/ch/news_finance/")
time.sleep(3)
# 获取13条网页文章
index = 1
while index < 13:
try:

# 得到网页上显示的新闻的连接
web = browser.find_element_by_xpath("/html/body/div/div[4]/div[2]/div[2]/div/div/div/ul/li["+str(index)+"]/div/div[1]/div/div[1]/a")
print(web.get_attribute("href"))

# 模拟点击
web.click()

# 由于打开了新的连接该步骤是让selenium跳转到新的页面操作
pagenum = browser.window_handles
browser.switch_to.window(pagenum[1])
time.sleep(5)
# 操作js命令注意return
title = None
try:
# 如果使用find element by xxx 会出现异常，所以折中选择js操作
title = browser.execute_script("return document.getElementsByClassName('article-title')[0].innerText")
except common.exceptions.WebDriverException as e:
print("标题有异常", e)
print(title)
browser.close()
browser.switch_to.window(pagenum[0])
time.sleep(3)
# 当流量的标题大于4个后，拖动滚动条
browser.execute_script("window.scrollTo(0," + str(index * 100) + ")")
time.sleep(2)
except common.exceptions.WebDriverException as e:
# 当有跳转的时候直接刷新页面从头开始爬取
print("有跳转", e)
browser.get("https://www.toutiao.com/ch/news_finance/")
index = 0
time.sleep(5)
# 滚轴顶头
browser.execute_script("window.scrollTo(0, 0)")
finally:
index += 1

爬取今日头条新闻selenium相关推荐

利用搜索关键字爬取今日头条新闻评论信息案例
利用搜索关键字爬取今日头条新闻评论信息案例爬虫4步骤: 1.分析网页 2.对网页发送请求,获取响应 3.提取解析数据 4.保存数据本案例所用到的模块 import requests import ...
小福利，爬取今日头条新闻信息
大家好,我是天空之城,今天给大家带来小福利,爬取今日头条新闻信息话不多说,代码如下 import requestsheaders={'user-agent':'Mozilla/5.0 (Macint ...
用requests包爬取今日头条新闻标题
全码如下: # requests # 用来发送url(请求request),获取服务器响应 import requests import json if __name__ == '__main__': ...
python抽取指定url页面的title_Python使用scrapy爬虫，爬取今日头条首页推荐新闻
爬取今日头条https://www.toutiao.com/首页推荐的新闻,打开网址得到如下界面查看源代码你会发现全是js代码,说明今日头条的内容是通过js动态生成的. 用火狐浏览器F12查看得知 ...
Selenium驱动firefox爬取今日头条并存放在MySQL数据库中
Selenium驱动firefox爬取今日头条前提: 1.安装selenium包:pip install selenium 2.安装MySQL数据库,并下载Navicat可视化工具 Navicat可 ...
Python3从零开始爬取今日头条的新闻【五、解析头条视频真实播放地址并自动下载】
Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Pyt ...
Python3从零开始爬取今日头条的新闻【一、开发环境搭建】
Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Pyt ...
python编程100例头条-python爬虫演示：以爬取今日头条为例
编者按众所周知,Python是一门编程语言,操作简洁而清晰.功能专业而强大.入门容易又严谨.2018年,教育部正式将人工智能.物联网.大数据处理划入高中课程,这就意味着,现在的中学生开始就要学习编程 ...
用python爬取头条文章_AI第四课：Python爬取今日头条文章
到目前为止,能使用python写一点简单的程序了,本次的任务是爬取今日头条的文章信息. 大致涉及的知识点:json数据格式,浏览器插件jsonView,浏览器开发者模式,html基础,http代理,h ...

爬取今日头条新闻selenium

爬取今日头条新闻selenium相关推荐

最新文章

热门文章