【自嗨笔记#4】几乎大多数人都会需要的功能!学会它生产力提高200% !百度文库付费文章网页分析

前几天在写报告的时候,需要引用些BD文库里的文章,但不是会员是不可以下载的。因此,萌生了研究研究它的网页是怎么显示的想法。懂得小伙伴请往下看!
已这个文档为例

  • F12 调出工具
    首先我们先看下,它的文字内容的位置

    直接访问这个地址试试看,结果是可以的。然而,发现他是一个json文件被封装在了wenku_1()的里面,这个OK,用正则可以提取出json。另外,这个文档共有5页,也就是有5个 0.json?的链接,里面分别有wenku_1()、wenku_2()、wenku_3()、wenku_4()、wenku_5()。那么,这5个json就可以组成了文章文字的全部。

    OK!我们基本可以总结下路线:按顺序访问0.json的链接------>利用正则,转换为json,
    定位body[ n ][ c ],看到里面的文字------->按照顺序把排列好------->最后,保存到txt文件,就是一篇完整的文章???

    但是,最后的txt文件是没有格式的,还需要自己调整换行、结构等。

    (特别说明下,涉及的版权问题不建议大家用爬虫的方式去得到文章,本文也不会给出代码,只是作为一个web页面分析,思路练习。而且,这个方法也是很不成熟,需要找到所有的0.json的链接,遇到上百页的就很头痛!)
    欢迎兄弟们,帮我补充,一起学习,找到更好的方法!!

往期文章链接:
[ 自嗨笔记#1] 微博疫情舆情分析—爬取部分
[ 自嗨笔记#2] 微博疫情舆情分析—舆情分析部分
[ 自嗨笔记#3] 后浪 评论分析

【自嗨笔记#4】几乎大多数人都会需要的功能!学会它生产力提高200% !百度文库付费文章网页分析相关推荐

  1. 【自嗨笔记#1】微博疫情舆情分析---信息爬取部分

    [ 自嗨笔记#1] 微博疫情舆情分析-爬取部分 作为一个疫情时入坑的"小学生",刚刚注册了csdn,这里想和大家交流下学习心得(自己解决代码错误的太难了!),一方面:想看看大家有没 ...

  2. 【自嗨笔记#2】微博疫情舆情分析---舆情分析部分

    [ 自嗨笔记#2] 微博疫情舆情分析-舆情分析部分 利用前面抓取的信息,开始分析,这里可以说都是看到大佬的文章,模仿加上自己的想象加工,确实不太了解实际业务需求,如果有业内朋友看到,欢迎帮我指正,也欢 ...

  3. 【自嗨笔记#5】2020 最新B站视频下载方法

    [自嗨笔记#5]2020 最新B站视频下载方法 最近,因公司需要创办抖音号,宣传造势,我就想自己找点素材练习练习剪辑.那么,学习素材从哪里来呢!小破站!!不多说,正文开始! 先说下情况,B站的视频,音 ...

  4. 学习笔记:The Log(我所读过的最好的一篇分布式技术文章

     学习笔记:The Log(我所读过的最好的一篇分布式技术文章)         前言 这是一篇学习笔记. 学习的材料来自Jay Kreps的一篇讲Log的博文. 原文很长,但是我坚持看完了,收获 ...

  5. Contour 学习笔记(二):使用级联功能实现蓝绿部署和金丝雀发布

    上篇文章介绍了 Contour 分布式架构的工作原理,顺便简单介绍了下 IngressRoute 的使用方式.本文将探讨 IngressRoute 更高级的用法,其中级联功能是重点. 1. Ingre ...

  6. Android开发自学笔记—1.1(番外)AndroidStudio常用功能介绍

    Android开发自学笔记-1.1(番外)AndroidStudio常用功能介绍 http://www.cnblogs.com/boyliupan/p/4729736.html#_labelTop 回 ...

  7. Splay学习笔记,每个操作都会执行splay。

    文章目录 前言 平衡树 Zig和Zag 引入splay操作 Splay的核心函数 查找前驱和后继 查找排名和第k小 插入和删除 完结感言 前言 之前学了fhq-Treap,一种靠分裂与合并维护平衡的一 ...

  8. 大多数人都会遇到的几个H5坑(实战)

    点击上方"前端进阶周刊",选择"置顶或者星标" 期待你的关注! 前言 最近在公司写了微信h5业务页面,总结分享一下前端开发过程中的几个兼容性坑,项目直接拿的公司 ...

  9. 微信 H5 页面前端开发,大多数人都会遇到的几个兼容性坑

    关注上方"前端开发博客",选择"设为星标" 回复"2"加入前端群 最近给公司写了微信h5业务页面,总结分享一下前端开发过程中的几个兼容性坑, ...

最新文章

  1. jquery 获取一组元素的选中项 - 函数、jquery获取复选框值、jquery获取单选按钮值...
  2. Python 学习之作用域
  3. PHP如何复制前端传递的json数据
  4. hikaridatasource连接池_细数springboot中的那些连接池
  5. codeforces:CF1604 总结
  6. 因果关系固定搭配知识库项目CausalCollocation
  7. @PostConstruct、@PreDestroy注解介绍及Spring中@PostConstruct、constructor、@Autowired的顺序
  8. 随想录(markdown基本语法)
  9. python小课账号转卖_Python小课笔记--Python报错处理
  10. ubuntu14.04编译ffmpeg的过程
  11. 巧用变量代换求极限 高数
  12. 最优传输论文(二十六):Sliced Wasserstein Discrepancy for Unsupervised Domain Adaptation论文原理
  13. [b2g] firefoxOS 移植记录
  14. 726. 原子的数量
  15. html布局属性,hTML之FLEX布局属性
  16. c语言程序设计1253,1253c语言程序设计a(2010年1月)
  17. 马云坦然不懂计算机,来自马云的绝望:三角函数让我彻底失去学数学的信心
  18. 奋发图强半年多,终于四面阿里如愿拿到心仪offer定级P7
  19. 撕开的黎明--孔庆东卷
  20. html 滚动 切换背景,在滚动页面时渐变切换背景色

热门文章

  1. 北师大2018秋季计算机在线考试答案,北师大作业2018秋季《专科英语(二)》在线作业一课后参考答案...
  2. 算法(Java)——动态规划
  3. oracle linux查看时区,linux修改系统时间和linux查看时区、修改时区的方法
  4. 【转】存储系统的分类
  5. html前端元素—菜单导航代码实例
  6. Unchecked runtime.lastError: Could not establish connection. Receiving end does not exist.
  7. java毕业设计学生评奖评优管理子系统的设计与实现Mybatis+系统+数据库+调试部署
  8. 项目中 oracle操作命令记录
  9. 苏州大学计算机学院官方网,苏州大学计算机技术学院导师介绍:张广泉
  10. 【C++】Breaking Dependencies: The SOLID Principles - Klaus Iglberger - CppCon 2020 -知识点目录