python爬虫 豆瓣影评的爬取cookies实现自动登录账号

频繁的登录网页会让豆瓣锁定你的账号……

网页请求

使用cookies来实现的自动登录账号,这里的cookies因为涉及到账号我屏蔽了,具体的cookies获取方法直接可以让浏览器实现自动登录后,在网页请求信息中自己找到。

def askURL(url):head = {"User-Agent": "Mozilla / 5.0(Windows NT 10.0;WOW64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 77.0.3865.90Safari / 537.36"}cookies ={"Cookie":' ***********************'}# request = urllib.request.Request(url, headers=head)# html = ""# response = urllib.request.urlopen(request)# html = response.read().decode("utf-8")html = requests.get(url,cookies=cookies,headers=head)print("网站返回成功")return html.text
获取数据代码片段

再看豆瓣影评的时候,我发现他的所有评论我没有办法完全获取下来
他这里的评论我没理解错的话应该是31万+的评论,但是实际获取的时候在26页以后就什么都没有了。

re正则表达式

findCritic = re.compile(r'<span class="short">(.*?)</span>',re.S)
findUser = re.compile(r'<a href=.*? title="(.*?)">',re.S)
findScore = re.compile(r'<span class="(.*?)" title=')

具体方法

def getDate(base_url):datelist = []for i in range(0,25):url = base_url +str(i*20)html = askURL(url)print("第{0}页".format(i+1))soup = BeautifulSoup(html,"html.parser")for item in soup.find_all('div',class_ = "comment-item"):date = []item = str(item)#print(item)user = re.findall(findUser,item)date.append(user)score = re.findall(findScore, item)[0]date.append(score)critic = re.findall(findCritic,item)date.append(critic)datelist.append(date)return datelist
数据库保存

这里因为处理用户名中含有单引号的问题给我搞得有点傻,使用str.replace()先把用户名中的单引号变为空格,再将字符串格式的两边双引号变为单引号,最后才满足的数据库插入格式。
如果有大佬有更好的解决办法可以评论区告诉我。

def saveDate_DB(datelist,dbpath):init_DB(dbpath)conn = sqlite3.connect(dbpath)cursor = conn.cursor()for date in datelist:for index in range(len(date)):date[index] = str(date[index])date[index] = date[index].replace("'"," ");date[index] = date[index].replace('"', "'");date[index] = '"'+str(date[index])+'"'sql = '''insert into bawangbieji(author ,score ,critics)values(%s)'''%",".join(date)#print(sql)cursor.execute(sql)conn.commit()conn.close()print("保存到数据库",dbpath)

python爬虫 豆瓣影评的爬取cookies实现自动登录账号相关推荐

  1. Python爬虫【二】爬取PC网页版“微博辟谣”账号内容(selenium同步单线程)

    专题系列导引   爬虫课题描述可见: Python爬虫[零]课题介绍 – 对"微博辟谣"账号的历史微博进行数据采集   课题解决方法: 微博移动版爬虫 Python爬虫[一]爬取移 ...

  2. Python爬虫【四】爬取PC网页版“微博辟谣”账号内容(selenium多线程异步处理多页面)

    专题系列导引   爬虫课题描述可见: Python爬虫[零]课题介绍 – 对"微博辟谣"账号的历史微博进行数据采集   课题解决方法: 微博移动版爬虫 Python爬虫[一]爬取移 ...

  3. Python爬虫【三】爬取PC网页版“微博辟谣”账号内容(selenium单页面内多线程爬取内容)

    专题系列导引   爬虫课题描述可见: Python爬虫[零]课题介绍 – 对"微博辟谣"账号的历史微博进行数据采集   课题解决方法: 微博移动版爬虫 Python爬虫[一]爬取移 ...

  4. Python爬虫入门 | 7 分类爬取豆瓣电影,解决动态加载问题

      比如我们今天的案例,豆瓣电影分类页面.根本没有什么翻页,需要点击"加载更多"新的电影信息,前面的黑科技瞬间被秒--   又比如知乎关注的人列表页面:   我复制了其中两个人昵称 ...

  5. python爬虫(一)爬取豆瓣电影排名前50名电影的信息

    python爬虫(一)爬取豆瓣电影排名前50名电影的信息 在Python爬虫中,我们可以使用beautifulsoup对网页进行解析. 我们可以使用它来爬取豆瓣电影排名前50名的电影的详细信息,例如排 ...

  6. Python爬虫菜鸟入门,爬取豆瓣top250电影 (自己学习,如有侵权,请联系我删除)

    Python爬虫菜鸟入门,爬取豆瓣top250电影 (自己学习,如有侵权,请联系我删除) import requests from bs4 import BeautifulSoup import ti ...

  7. 数据采集与存储案例——基于Python爬虫框架Scrapy的爬取网络数据与MySQL数据持久化

    此案例需要预先安装pymsql python3.7.4 scrapy2.7.1 一.安装scrapy框架 1.使用pip命令安装scrapy pip install scrapy 在这里下载太慢可以使 ...

  8. python爬取图片教程-推荐|Python 爬虫系列教程一爬取批量百度图片

    Python 爬虫系列教程一爬取批量百度图片https://blog.csdn.net/qq_40774175/article/details/81273198# -*- coding: utf-8 ...

  9. python爬虫对炒股有没有用_使用python爬虫实现网络股票信息爬取的demo

    实例如下所示: import requests from bs4 import BeautifulSoup import traceback import re def getHTMLText(url ...

最新文章

  1. “贝叶斯网络之父”:不透明机器学习的局限性
  2. 修改MySql默认存储引擎为InnoDB,启动报错
  3. 2018年台湾为陕西最大贸易伙伴
  4. 从扫描序列的标准化做起,西门子医疗正在中国布这样一盘棋...
  5. 在html页面中加入矢量图,HTML5画布矢量图形?
  6. pandas.DataFrame()的基本操作
  7. 银行业AI:炒作背后的现实——“尽管对新技术感到兴奋,但银行业态度非常谨慎”
  8. 可转债的投资价值算法
  9. DNS无法解析IP_通过YouTube的封杀窥视DNS原理
  10. Ubuntu外观美化安装WPS
  11. Mybatis安装配置使用
  12. HP1010 不能连续打印维修一例
  13. 2020安洵杯部分WP —— 没人比我更懂签到题和问卷题队伍
  14. 《余光中诗歌精读》放下代码,静下心来,细细品读
  15. MySQL的主从配置+SpringBoot的MySQL读写分离配置
  16. 如何配置java的环境变量
  17. VALSE2019总结(6)-年度总结-GAN
  18. 图片组件(Image)
  19. 环德无人便利店面向全国代理加盟连锁便利店
  20. scrapy保存图片、音频

热门文章

  1. CEF 最新版本自己编译加上支持播放MP4视频
  2. cdr最新软件下载2023中文版电脑64位免费安装包
  3. Finance_finacial_engineering_02
  4. Awesome Chrome 插件集锦
  5. Windows设备与驱动器管理
  6. 织梦cms怎么上传html模板,织梦dedecms 本地模板安装图文方法
  7. 旅游类APP原型模板分享——爱彼迎
  8. PLS-00905: 对象 SCOTT.QUERYEMPINFO 无效;PL/SQL: Statement ignored
  9. 数据传输 -- 字符串报文
  10. 计算机3d打印技术论文,3D打印技术小论文