python爬取豆瓣网评并写入excel表格中
为了爬取网评我们需要导入几个模块
from selenium import webdriver
import time
import xlwt
先定义要爬取的网站url’以及设置浏览器参数
movieUrl='https://movie.douban.com/subject/26794435/comments?start=0&limit=20&sort=new_score&status=P'
driverPath=r'E:\分享\chromedriver.exe'
#设置浏览器参数和驱动
driver=webdriver.Chrome(chrome_options=webdriver.ChromeOptions(),executable_path=driverPath)
爬取数据
driver.get(movieUrl)
driver.implicitly_wait(30)
list_short=[]
list_user=[]
list_star=[]
for i in range(10):# select()# 根据css选择器获取元素listShort = driver.find_elements_by_css_selector('.short')for li in listShort:short = li.textlist_short.append(short)# 拿到用户名listUser = driver.find_elements_by_css_selector('.comment-info')for infouser in listUser:user=infouser.find_element_by_css_selector('a')userName = user.textlist_user.append(userName)try:star=infouser.find_element_by_css_selector('.rating')starL = star.get_attribute('title')except:starL='0'list_star.append(starL)# 拿到星级#liststar = driver.find_elements_by_css_selector('.rating')# for star in liststar:# starL = star.get_attribute('title')# list_star.append(starL)#点翻页之前休眠一会#点击后页翻页driver.find_elements_by_css_selector('.next')[0].click()print('user',len(list_user))print('star',len(list_star))print('short',len(list_star))time.sleep(5)pass
写入表格
#向excel表格中写入
list=[list_user,list_star,list_short]
workbook=xlwt.Workbook()#创建一个worbook设置编码
sheet=workbook.add_sheet('douban')#创建一个worksheet
for i in range(len(list_user)):for j in range(3):sheet.write(i,j,list[j][i])#写入excel 参数对应行列值pass
workbook.save('short.xls')#保存
python爬取豆瓣网评并写入excel表格中相关推荐
- Python爬取豆瓣网影评展示
Python爬取豆瓣网影评展示 需要的库文件 requests beautifulsoup wordcloud jieba matplotlib 本文思想 1.访问指定的网页 #获取指定url的内容 ...
- python 爬取当当网商品价格并写入数据库
python 爬取数据并写入数据库案例: import requests import pymysql import re from fake_useragent import UserAgent f ...
- 爬取豆瓣音乐TOP250并写入Excel
爬取豆瓣音乐写入Excel from urllib.request import Request, urlopen import bs4 import requests import re impor ...
- python爬取豆瓣网资源DIY影讯
输出结果: 名字:哆啦A梦:伴我同行2,链接:https://movie.douban.com/subject/34913671/,日期:05月28日,类型:剧情 / 动画,地区:日本, 关注者:17 ...
- python爬取豆瓣网即将上映的电影,数据信息存储到json文件
1,import库的安装,在我其它博文中有:获取豆瓣网即将上映的网页信息即HTML页面. 2,解析获取到的网页的数据信息 3将获取到的数据信息,放到json文件 4,主程序
- Python爬取豆瓣高分图书TOP100存入Excel
作为一名转行过来的新手小白,花了两周业余时间,在B站上把北京理工大学嵩天老师的"Python语言程序设计"和"Python网络爬虫与信息提取"看了一遍,心里跃跃 ...
- Python爬取新浪微博评论数据,写入csv文件中
因为新浪微博网页版爬虫比较困难,故采取用手机网页端爬取的方式 操作步骤如下: 1. 网页版登陆新浪微博 2.打开m.weibo.cn 3.查找自己感兴趣的话题,获取对应的数据接口链接 4.获取cook ...
- python 列表写入excel_[python]获取一年日历数据并写入excel表格中
[Asm] 纯文本查看 复制代码# coding=gbk import requests from bs4 import BeautifulSoup import xlwt # 获取一年数据,以字典返 ...
- Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(下)
在Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(上)中,我们最后爬出来的结果不是很完美,这对于"精益求精.追求完美的"程序猿来说怎么能够甘心 所以,今天,用pyth ...
最新文章
- Speed4Web 绿色纯净版
- 计算机网络工程应用,计算机网络工程网络命令的应用
- (转载)Android GradientDrawable(shape标签定义) 静态使用和动态使用(圆角,渐变实现)
- 复制初始化和直接初始化
- Django(part19)--Django中的应用
- CentOS工作内容(七)禁用IPV6
- STL源码剖析 lower_bound | upper_bound | binary_search
- 彻底理解jdbc为什么用反射创建驱动程序对象
- Authlib OAuth2.0
- BugkuCTF web5
- 大数据对能源发展有什么作用
- spring实战笔记6---springMVC的请求过程
- python数据挖掘(2.分类 OneR算法)
- 编译LineageOS
- python写api接口实战
- 英语知识点整理day07
- 字节笔试题(含答案)
- 记录一次nginx服务器签名证书过期的排查过程
- 自顶向下语法分析方法
- java时间戳防重放_API防重放机制
热门文章
- Java文本文档地址地址怎么找_java 中如何在一个文本文档里取出邮件地址
- LeetCode 1104. Path In Zigzag Labelled Binary Tree解题报告
- 51单片机学习笔记AD/DA
- 怎么通过在线PS修图 修图工具有什么
- 再度盈利后提“冷静增长”,爱奇艺守住长视频初心
- CC00055.LinuxNetwork——|LinuxApache.V05|
- 两位前阿里 P10 的成长经历的启发
- Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks阅读笔记
- cvm和MySQL_配置腾讯云服务器(CVM)出现的错误及解决方法
- 上海市专业计算机学校地址,上海计算机专业学校