教你如何用python爬取豆丁网付费文章俘获女神芳心。

事情是这样的
女神想要一篇关于如下的文章:

可一看,下载需要十个米,作为打工人哪舍得花这个钱去下载如此贵的文章,于是她想到了我。

记录:


这里聊天告一段落,
身兼CV大法的我看了看,怎么可以在女神面前这么无能呢·,分析了一下该网站,好家伙,这算法我不想找了,据我分析,是通过wasm文件加载的算法.
如下是加密数据:


但是可见即可爬,然后又尝试了selenium也翻车,也不想试其他的了,于是我选择了另一种查看方式,这下总算被我发现了可行方法,于是撸代码。

# -*- coding: utf-8 -*-
"""
# @Time         : 2021/11/2 11:06
# @Author       : ChenLvLei
# @Email        : 2516455367@qq.com
# @FileName     : docin
# @Description  :
"""
import os
from fpdf import FPDF
from PIL import Image
from pdf2docx import Converter
from configparser import ConfigParserimport requestsheaders = {'Accept': 'image/avif,image/webp,image/apng,image/svg+xml,image/*,*/*;q=0.8','Accept-Encoding': 'gzip, deflate, br','Accept-Language': 'zh-CN,zh;q=0.9',"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36"" (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36"}def download(**kwargs):page = kwargs.pop('maxPage')for page in range(1, page):print(f'豆丁文档下载中......第{page}张')kwargs.update({'pageno': str(page)})response = requests.request("GET",'https://docimg1.docin.com/docinpic.jsp?',headers=headers,params=kwargs)if not os.path.exists('./豆丁'):os.mkdir('./豆丁')with open(f'./豆丁/{page}.png', 'wb') as f:f.write(response.content)def generate_pdf(pdf_file_name, list_ages):cover = Image.open(list_ages[0])width, height = cover.sizepdf = FPDF(unit="pt", format=[width, height])for page in list_ages:pdf.add_page()pdf.image(page, 0, 0)pdf.output(pdf_file_name, "F")def pdf_to_word():config_parser = ConfigParser()config_parser.read('config.cfg', encoding='utf-8')config = config_parser['default']for file in os.listdir(config['pdf_folder']):extension_name = os.path.splitext(file)[1]if extension_name != '.pdf':continuefile_name = os.path.splitext(file)[0]pdf_file = config['pdf_folder'] + '/' + fileword_file = config['word_folder'] + '/' + file_name + '.docx'cv = Converter(pdf_file)cv.convert(word_file)cv.close()def main(file: str,width: str,sid: str,pageno: str,pcimg: str,page: int,**kwargs):key = {'file': file,'width': width,'sid': sid,'pageno': pageno,'pcimg': pcimg,'maxPage': page}download(**key)generate_pdf("人力资源项目计划书.pdf",['./豆丁/' + imgFileNamefor imgFileName inos.listdir('./豆丁')if imgFileName.endswith(".png")])if __name__ == '__main__':main('填入对应参数即可')```

最终不负所托完成了女神交付的任务。



就这样,我成功忽悠到10米。

你以为事情就这样结束了吗???大错特错!错的离谱!不能再错了!

正当我准备给女神用网上免费的OCR字符识别库Tesseract,识别一下文字,免得女神复制的如此辛苦,结果:

女神由于被我忽悠了10米,于是气氛的去上个厕所压压惊,结果特喵手机掉厕所了。。。。。。

这时候女神的心情就如同她掉到厕所的手机,一样沉重.

洗澡睡觉觉啦,觉得不错的小伙伴点赞关注不迷路
本故事根据真实故事改编
如有侵权 联系删除

教你如何用python俘获女神芳心相关推荐

  1. 图灵机器人调用数据恢复_机器人也能撩妹?python程序员自制微信机器人,替他俘获女神芳心...

    机器人也有感情 还记得王传君饰演的<星语心愿之再爱>这部电影吗?王传君饰演的天才程序员"王鹏鹏"因工作原因不能陪伴照顾身在异地的女朋友"林亦男",呆 ...

  2. 用visio画用例图小人_教你如何用 Python 打飞机 ?

    前言:python 除了生孩子 ,啥都会 .包括打飞机 !今天就来教你如何用 python 打飞机 ! 简述 相信你是一个单纯的孩子说的打飞机是指啥意思 ,对吧 ?嗯 ,没毛病 .就是 pygame ...

  3. 怎么用python制作简单的程序-神级程序员教你如何用python制作一个牛逼的外挂!...

    玩过电脑游戏的同学对于外挂肯定不陌生,但是你在用外挂的时候有没有想过如何做一个外挂呢?(当然用外挂不是那么道义哈,呵呵),那我们就来看一下如何用python来制作一个外挂.... 我打开了4399小游 ...

  4. python编程怎么建立工程_教你如何用Python脚本快速创建项目

    相信初学Cocos2D者对Python还很陌生,今天本篇教程教你如何用Python脚本快速创建项目. 在Cocos2d-x2.1.4以上的版本中,取消了使用vs模版创建项目的方法,开始使用python ...

  5. 手把手教你如何用Python制作一个电子相册?末附python教程

    这里简单介绍一下python制作电子相册的过程,主要用到tkinter和pillow这2个库,tkinter用于窗口显示照片,pillow用来处理照片,照片切换分为2种方式,一种是自动切换(每隔5秒) ...

  6. 教你如何用python制作平面直角坐标系模拟器 python项目小发明 【安安教具】-【数学】-【平面直角坐标系】模拟器

    平面直角坐标系和之前的数轴模拟器有异曲同工之妙,但是作为一个二维的软件,肯定是要难一些的... [安安教具]-[数学]-[数轴]模拟器 教你如何用python制作数轴模拟器 python 小项目创作_ ...

  7. 手机版python3h如何自制游戏_教你如何用 Python 写一个小游戏

    教你如何用 Python 写一个小游戏 引言 最近 python 语言大火, 除了在科学计算领域 python 有用武之地之外, 在游戏后台等方面, python 也大放异彩, 本篇博文将按照正规的项 ...

  8. python批量删缩进_鬼畜小姐姐+野狼disco,十分钟教你如何用Python剪辑一个牛逼的抖音小视频?...

    鬼畜小姐姐+野狼disco,十分钟教你如何用Python剪辑一个牛逼的抖音小视频? 前言 半个月前,后台有个小伙伴问我,如何将视频中的音频提取出来,并且将声音转成文字写入到 word 中,正好接下来的 ...

  9. 用python画皇冠_【推荐】手把手教你如何用Python画一棵漂亮樱花树含源码

    最近给大家整理了一下,挑了一些我觉得不错的代码分享给大家手把手教你如何用Python画一棵漂亮樱花树含源码. 动态生成樱花 效果图(这个是动态的): import turtle as T import ...

最新文章

  1. 使用复合索引代替单键索引,来避免单键有null值的情况
  2. [Sdoi2017]硬币游戏 [高斯消元 KMP]
  3. java 1.7升级到1.8_CentOS openJdk1.7升级1.8
  4. 指针数组,数组指针,函数指针,main函数实质,二重指针,函数指针作为参数,泛型函数
  5. CTO 太水!犯了低级错误,还删除代码隐藏证据!
  6. VPP /什么是VPP?读这篇文章就够了
  7. 几款Linux系统漏洞扫描、评估工具简介
  8. mysql怎么让自增id不连续_MySQL中自增主键不连续之解决方案。(20131109)
  9. 使用CleanMyMac的空间透镜功快速决策清理垃圾
  10. live2d_Live2d( 动画制作软件 )中文版分享
  11. 量子计算机未来猜想,太厉害了吧?这台量子计算机能预测16种不同的未来​!...
  12. linux ssh工具下载,ssh下载_ssh工具下载-太平洋下载中心
  13. VS201x提示无法查找或打开 PDB 文件
  14. 华为 hg8245c 超级密码
  15. ps: 如何调出辅助线
  16. 校/院级虚拟仿真实验教学平台ilab-x接口版本对接文档
  17. VUE项目开发,使用开发者工具查看源文件
  18. excel复选框_使用复选框更改Excel公式结果
  19. 阿里云ecs服务器安装RabbitMQ
  20. 正在与拖延症病魔抗争中

热门文章

  1. 【单片机工具】单片机小精灵
  2. 迪威视讯获中国大屏显示领域顶级大奖
  3. 循环神经网络(RNN)与长短期记忆网络(LSTM)讲解
  4. 5W无线充非认证版便宜实用无线充电器常用方案
  5. python文字转语音女声_python文字转语音
  6. 手机钢琴软件太好玩啦!弹奏乐曲分享
  7. [古典密码]:Vigenere cipher 维吉尼亚密码
  8. 几种常见的压力传感器
  9. Git小技巧:如何从其他分支merge个别文件
  10. 系统架构设计-数据库系统知识点