最近有一个需求就是爬取CSDN上的数据,但是目前遇到了一个问题就是关于获取CSDN的cookie的问题。到目前为止并没有什么好的办法。希望大家可以给我留言,我们一起探讨。。

在我没有设置cookie的时候,会报以下错误。

function setCookie(name,value){var expiredate=new Date();expiredate.setTime(expiredate.getTime()+(3600*1000));document.cookie=name+"="+value+";expires="+expiredate.toGMTString()+";max-age=3600;path=/";}

function reload(x) {setCookie("acw_sc__v2", x);document.location.reload();}

造成这个的原因主要是因为我们在进行网络爬虫的时候模拟浏览器进行网络访问的,所以这里需要我们在我们的请求信息里边加上cookie值。

但是如何获取cookie值呢?目前我找的方法主要有以下几种

1.

可以第一次先访问网站的首页,看看能不能拿到cookie

我们可以将这些cookie值放入到我们的请求里边。

在我这里我把cookie的值放在了application.yml当中,大家也可以直接将值放在这里。

2.另外就是使用用一些工具,使用selenium获取cookie,我在下边找到了一些博客,希望能有所帮助,但是到目前为止我还没有解决自动获取cookie的问题,如果有同学谁弄好,请指点我一下吧。。。。

selenium博客1

selenium博客2

我的代码下载地址-----不需要积分

java 数据抓取 动态获得cookies里变动的属性_Java爬取CSDN博客遇到setCookie问题相关推荐

  1. java 数据抓取 动态获得cookies里变动的属性_@CookieValue获取Cookie信息,使用Servlet API作为入参,处理模型数据...

    @RequestMapping("/testCookieValue") public String testCookieValue(@CookieValue(value=" ...

  2. Python爬虫小实践:爬取任意CSDN博客所有文章的文字内容(或可改写为保存其他的元素),间接增加博客访问量...

    Python并不是我的主业,当初学Python主要是为了学爬虫,以为自己觉得能够从网上爬东西是一件非常神奇又是一件非常有用的事情,因为我们可以获取一些方面的数据或者其他的东西,反正各有用处. 这两天闲 ...

  3. 在ubuntu 16.04里使用python—scrapy将爬取到的数据存到mysql数据库中的一些随笔

    一.将爬取的数据保存到mysql数据库的代码(已经能将爬取的数据保存到json文件) (1)编辑Pipeline.py文件 (2)编辑settings.py文件 二.将数据保存至mysql数据库出现的 ...

  4. 【爬虫+数据可视化】Python爬取CSDN博客访问量数据并绘制成柱状图

    以下内容为本人原创,欢迎大家观看学习,禁止用于商业及非法用途,谢谢合作! ·作者:@Yhen ·原文网站:CSDN ·原文链接:https://blog.csdn.net/Yhen1/article/ ...

  5. 爬取三千条数据需要多久_数字科学家赚多少钱?我爬取近 6 年三千份数据后发现了这些秘密...

    数字科学家究竟能赚多少钱?这大概是数据科学领域最有趣.关注度最高的一个问题了.近期,美国一位对这个问题充满好奇的数据科学家 Tony Yiu,针对数据科学家的薪资水平做了一次数据分析.他爬取了 201 ...

  6. Python爬虫-CSDN博客排行榜数据爬取

    文章目录 前言 网络爬虫 搜索引擎 爬虫应用 谨防违法 爬虫实战 网页分析 编写代码 运行效果 反爬技术 前言 开始接触 CTF 网络安全比赛发现不会写 Python 脚本的话简直寸步难行--故丢弃 ...

  7. python爬取知乎回答并进行舆情分析:爬取数据部分

    python爬取知乎回答并进行舆情分析:爬取数据部分 背景 Ajax原理介绍 Request URL分析 json报文结构分析 代码 参考链接 背景 近期导师让我从社交媒体平台(包括微博.知乎.贴吧等 ...

  8. mysql 数据为空 none 网页显示空白_用python爬虫爬取股票数据

    前言: 编写一个爬虫脚本,用于爬取东方财富网的上海股票代码,并通过爬取百度股票的单个股票数据,将所有上海股票数据爬取下来并保存到本地文件中 系统环境: 64位win10系统,64位python3.6, ...

  9. python爬取豆瓣影评_【python爬虫实战】爬取豆瓣影评数据

    概述: 爬取豆瓣影评数据步骤: 1.获取网页请求 2.解析获取的网页 3.提速数据 4.保存文件 源代码: # 1.导入需要的库 import urllib.request from bs4 impo ...

  10. python爬微博数据合法吗_GitHub - ChaliceRunRunRun/weibo-crawler: 新浪微博爬虫,用python爬取新浪微博数据...

    功能 连续爬取一个或多个新浪微博用户(如Dear-迪丽热巴.郭碧婷)的数据,并将结果信息写入文件.写入信息几乎包括了用户微博的所有数据,主要有用户信息和微博信息两大类,前者包含用户昵称.关注数.粉丝数 ...

最新文章

  1. 《代码整洁之道》(Clean Code)- 读书笔记
  2. c3p0 mysql 连接池配置文件_数据库连接池c3p0的使用
  3. 创建容器时[Warning] IPv4 forwarding is disabled. Networking will not work.
  4. jzoj4485-[GDOI 2016 Day1]第一题 中学生数学题【数学】
  5. 艰难的时候总会过去,只要你能坚持下来~
  6. linux init.d 密码,Linux基础之init.d、rc.local
  7. POI3.8解决导出大数据量excel文件时内存溢出的问题
  8. rhel7.5安装mysql8.0教程_RHEL7.5下mysql 8.0.11安装教程
  9. account for 与led to和result in的区别
  10. ext2 无损升级 ext3、ext4
  11. 好家伙!AI内容审核这么强!
  12. 标签设计软件如何设计注册商标标识
  13. Ubuntu 声卡解决办法合集
  14. 正则表达式, email格式验证,邮箱地址验证
  15. 2021_SIGIR_ConsisRec: Enhancing GNN for Social Recommendation via Consistent Neighbor Aggregation
  16. html5_滑条等其他标签
  17. 自学python能成功吗_自学Python之路一
  18. 基础拓扑学笔记(3)——连续映像
  19. python之meshgrid的使用
  20. 医院软件管理系统怎样配置服务器,医院信息化建设服务器系统构建初探

热门文章

  1. 阿里云的ACP认证与ACE认证含金量高吗?
  2. 计算机专业科研经费排名2015,2017中国大学科研经费排名
  3. hdu2122 poj2485 最小生成树
  4. codeforces 1384A(构造)
  5. 如何获取ppt的背景图片
  6. CentOS7安装FTP服务器及默认21端口修改
  7. NCBI数据库以及常用编号
  8. html仿ppt动画,jquery仿PPT幻灯片特效插件ppt.js
  9. 数字图像处理锐化的原理_数字图像锐化的工作原理以及为什么要使用它
  10. 图像处理2:二维图像的频谱图理解