【自嗨笔记#4】几乎大多数人都会需要的功能!学会它生产力提高200% !百度文库付费文章网页分析
【自嗨笔记#4】几乎大多数人都会需要的功能!学会它生产力提高200% !百度文库付费文章网页分析
前几天在写报告的时候,需要引用些BD文库里的文章,但不是会员是不可以下载的。因此,萌生了研究研究它的网页是怎么显示的想法。懂得小伙伴请往下看!
已这个文档为例
F12 调出工具
首先我们先看下,它的文字内容的位置
直接访问这个地址试试看,结果是可以的。然而,发现他是一个json文件被封装在了wenku_1()的里面,这个OK,用正则可以提取出json。另外,这个文档共有5页,也就是有5个 0.json?的链接,里面分别有wenku_1()、wenku_2()、wenku_3()、wenku_4()、wenku_5()。那么,这5个json就可以组成了文章文字的全部。
OK!我们基本可以总结下路线:按顺序访问0.json的链接------>利用正则,转换为json,
定位body[ n ][ c ],看到里面的文字------->按照顺序把排列好------->最后,保存到txt文件,就是一篇完整的文章???但是,最后的txt文件是没有格式的,还需要自己调整换行、结构等。
(特别说明下,涉及的版权问题不建议大家用爬虫的方式去得到文章,本文也不会给出代码,只是作为一个web页面分析,思路练习。而且,这个方法也是很不成熟,需要找到所有的0.json的链接,遇到上百页的就很头痛!)
欢迎兄弟们,帮我补充,一起学习,找到更好的方法!!
往期文章链接:
[ 自嗨笔记#1] 微博疫情舆情分析—爬取部分
[ 自嗨笔记#2] 微博疫情舆情分析—舆情分析部分
[ 自嗨笔记#3] 后浪 评论分析
【自嗨笔记#4】几乎大多数人都会需要的功能!学会它生产力提高200% !百度文库付费文章网页分析相关推荐
- 【自嗨笔记#1】微博疫情舆情分析---信息爬取部分
[ 自嗨笔记#1] 微博疫情舆情分析-爬取部分 作为一个疫情时入坑的"小学生",刚刚注册了csdn,这里想和大家交流下学习心得(自己解决代码错误的太难了!),一方面:想看看大家有没 ...
- 【自嗨笔记#2】微博疫情舆情分析---舆情分析部分
[ 自嗨笔记#2] 微博疫情舆情分析-舆情分析部分 利用前面抓取的信息,开始分析,这里可以说都是看到大佬的文章,模仿加上自己的想象加工,确实不太了解实际业务需求,如果有业内朋友看到,欢迎帮我指正,也欢 ...
- 【自嗨笔记#5】2020 最新B站视频下载方法
[自嗨笔记#5]2020 最新B站视频下载方法 最近,因公司需要创办抖音号,宣传造势,我就想自己找点素材练习练习剪辑.那么,学习素材从哪里来呢!小破站!!不多说,正文开始! 先说下情况,B站的视频,音 ...
- 学习笔记:The Log(我所读过的最好的一篇分布式技术文章
学习笔记:The Log(我所读过的最好的一篇分布式技术文章) 前言 这是一篇学习笔记. 学习的材料来自Jay Kreps的一篇讲Log的博文. 原文很长,但是我坚持看完了,收获 ...
- Contour 学习笔记(二):使用级联功能实现蓝绿部署和金丝雀发布
上篇文章介绍了 Contour 分布式架构的工作原理,顺便简单介绍了下 IngressRoute 的使用方式.本文将探讨 IngressRoute 更高级的用法,其中级联功能是重点. 1. Ingre ...
- Android开发自学笔记—1.1(番外)AndroidStudio常用功能介绍
Android开发自学笔记-1.1(番外)AndroidStudio常用功能介绍 http://www.cnblogs.com/boyliupan/p/4729736.html#_labelTop 回 ...
- Splay学习笔记,每个操作都会执行splay。
文章目录 前言 平衡树 Zig和Zag 引入splay操作 Splay的核心函数 查找前驱和后继 查找排名和第k小 插入和删除 完结感言 前言 之前学了fhq-Treap,一种靠分裂与合并维护平衡的一 ...
- 大多数人都会遇到的几个H5坑(实战)
点击上方"前端进阶周刊",选择"置顶或者星标" 期待你的关注! 前言 最近在公司写了微信h5业务页面,总结分享一下前端开发过程中的几个兼容性坑,项目直接拿的公司 ...
- 微信 H5 页面前端开发,大多数人都会遇到的几个兼容性坑
关注上方"前端开发博客",选择"设为星标" 回复"2"加入前端群 最近给公司写了微信h5业务页面,总结分享一下前端开发过程中的几个兼容性坑, ...
最新文章
- jquery 获取一组元素的选中项 - 函数、jquery获取复选框值、jquery获取单选按钮值...
- Python 学习之作用域
- PHP如何复制前端传递的json数据
- hikaridatasource连接池_细数springboot中的那些连接池
- codeforces:CF1604 总结
- 因果关系固定搭配知识库项目CausalCollocation
- @PostConstruct、@PreDestroy注解介绍及Spring中@PostConstruct、constructor、@Autowired的顺序
- 随想录(markdown基本语法)
- python小课账号转卖_Python小课笔记--Python报错处理
- ubuntu14.04编译ffmpeg的过程
- 巧用变量代换求极限 高数
- 最优传输论文(二十六):Sliced Wasserstein Discrepancy for Unsupervised Domain Adaptation论文原理
- [b2g] firefoxOS 移植记录
- 726. 原子的数量
- html布局属性,hTML之FLEX布局属性
- c语言程序设计1253,1253c语言程序设计a(2010年1月)
- 马云坦然不懂计算机,来自马云的绝望:三角函数让我彻底失去学数学的信心
- 奋发图强半年多,终于四面阿里如愿拿到心仪offer定级P7
- 撕开的黎明--孔庆东卷
- html 滚动 切换背景,在滚动页面时渐变切换背景色
热门文章
- 北师大2018秋季计算机在线考试答案,北师大作业2018秋季《专科英语(二)》在线作业一课后参考答案...
- 算法(Java)——动态规划
- oracle linux查看时区,linux修改系统时间和linux查看时区、修改时区的方法
- 【转】存储系统的分类
- html前端元素—菜单导航代码实例
- Unchecked runtime.lastError: Could not establish connection. Receiving end does not exist.
- java毕业设计学生评奖评优管理子系统的设计与实现Mybatis+系统+数据库+调试部署
- 项目中 oracle操作命令记录
- 苏州大学计算机学院官方网,苏州大学计算机技术学院导师介绍:张广泉
- 【C++】Breaking Dependencies: The SOLID Principles - Klaus Iglberger - CppCon 2020 -知识点目录