2022年第01周。

这一周的Python语言学习,记录如下。

01

pip工具使用知识

1 pip是什么?

pip是一个用Python写的用于安装和管理包的包管理系统。它连接一个叫做Python Package Index的在线公共包存储库。它通过配置,也可以连接其它包库。

2 pip使用知识

2.1 安装包

常用命令

pip install some-package-name

若需要指定特定的版本安装

pip install some-package-name==1.2.2 --force-reinstall

force-reinstall用于指示重新安装指定版本的包。

也可以指定版本的范围安装

pip install some-package-name>=1.3.0,<1.4.0 --force-reinstall

2.2 卸载包

卸载包很容易,执行如下操作

pip uninstall some-package-name

2.3 从Python工作环境的requirement.txt的文件安装包

例如,我们有一个Python工作环境的requirement.txt文件。

pandas==1.2.5
numpy==1.21.1

安装这些包

pip install -r requirement.txt

2.4 如何生成requirement.txt文件

我们进入自己的Python工作环境,使用如下命令,获取工作环境的配置包文件

pip freeze > requirement.txt

2.5 获取已经安装包的信息

我们想知道已经安装了那些Python包

pip list

进一步,结合grep命令,搜索到你感兴趣包的是否安装。

pip list | grep pandas

2.6 了解包更详细信息

我们想了解包更详细的信息

pip show some-package-name

2.7 检查包之间兼容问题

我们想了解包之间兼容的信息

pip check

02

模型保存为pickle

1 pickle是什么?

pickle是Python中序列化对象的标准方式。

我们可以使用pickle操作来序列化机器学习模型,并将序列化的格式保存到一个文件中。以后,我们可以加载这个文件来反序列化模型,用它来做新的预测。

2 代码演示

我们基于一份公开的糖尿病发病数据集,构建逻辑回归模型,并保存模型,后来加载模型,用于新样本的预测。

import os
import pandas as pdfrom sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_scoreimport pickle
import warnings
warnings.filterwarnings('ignore')url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = pd.read_csv(url, names=names)
array = dataframe.values
X = array[:,0:8]
y = array[:,8]test_size = 0.33
seed = 7
# 数据计划分
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=test_size, random_state=seed)# 拟合模型
model = LogisticRegression()
model.fit(X_train, Y_train)# 模型保存
model_folder = './model/'
if not os.path.exists(model_folder):os.makedirs(model_folder)filename = model_folder + 'LR_2022_week1_finalized_model.sav'
pickle.dump(model, open(filename, 'wb'))# 加载模型
loaded_model = pickle.load(open(filename, 'rb'))# 模型的效果分析
pred_result = loaded_model.predict(X_test)model_result = accuracy_score(y_test, pred_result)print(round(model_result, 2))

运行结果

0.79

03

pdf与docx互相转换操作

1 简介

pdf和docx是两种常用的格式文件,如何用Python实现彼此的转换?我们可以使用pdf2docxdocx2pdf两个包来做这个有趣的事情。

2 安装库

执行如下命令

pip install pdf2docx
pip install docx2pdf

若是已经安装,请忽略

3 pdf转换为docx示范

pdf文件全部页面转换为docx

方法一:

# 方法1
from pdf2docx import Converterpdf_file = './file/sample.pdf'
docx_file = './file/sample.docx'cv = Converter(pdf_file)
cv.convert(docx_file)
cv.close()

方法二:

# 方法2
from pdf2docx import parsepdf_file = './file/sample.pdf'
docx_file = './file/sample2.docx'parse(pdf_file, docx_file)

pdf文件部分页面转换为docx

# 指定单独PDF页面转化为docx
from pdf2docx import Converterpdf_file = './file/sample.pdf'
docx_file = './file/sample2.docx'pages_list = [0]cv = Converter(pdf_file)
cv.convert(docx_file, pages=pages_list)
cv.close()

4 docx转换为pdf示范

docx文件转换为pdf

from docx2pdf import convertdocx_file = './file/input.docx'
pdf_file = './file/output.pdf'convert(docx_file, pdf_file)

关于pdf和docx相互转换操作,你有什么问题,请扫描文末二维码,添加我微信,一起讨论。


往期精彩回顾适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载黄海广老师《机器学习课程》视频课黄海广老师《机器学习课程》711页完整版课件

本站qq群955171419,加入微信群请扫码:

【Python】pip工具使用知识,模型保存pickle,PDF与docx相互转换处理相关推荐

  1. 【Python】Python语言学习:pip工具使用知识,模型保存pickle,PDF与docx相互转换处理...

    2022年第01周. 这一周的Python语言学习,记录如下. 01 pip工具使用知识 1 pip是什么? pip是一个用Python写的用于安装和管理包的包管理系统.它连接一个叫做Python P ...

  2. python离线安装pip.whl_20180903 - Python Pip 工具下载whl包与离线安装

    20180903 - Python Pip 工具下载whl包与离线安装 1. 我的Blog 2. 简介信息 摘要:Linux下,python,pip工具离线安装包 Author: andy_yhm@y ...

  3. Python pip工具初步学习

    pip 是 Python 包管理工具,该工具提供了对Python 包的查找.下载.安装.卸载的功能. 一般安装了python已经自带了该工具. Python 2.7.9 + 或 Python 3.4+ ...

  4. python pip工具命令_转载 Python 安装setuptools和pip工具操作方法(必看)

    本文章转载自 脚本之家 http://www.jb51.net  感谢! setuptools模块和pip模块是python进行第三方库扩展的极重要工具,例如我们在需要安装一些爬虫或者数据分析的包时就 ...

  5. python pip工具命令_Python包管理工具pip

    一.pip概述 1.python包 python包,可以使我们利用网络上现成的代码库资源,解决程序中某一方面的问题,类似于C语言的各种库. PyPi(Python Package Index ,包索引 ...

  6. python pip工具命令_python 工具链 包管理工具 pip

    Installation mac下可以采用 brew,easy_install(python自带)等方式安装. centos下可以采用yum,easy_install等方式安装. 但是上面两种方式在系 ...

  7. python风控工具_python-风控模型分析01

    数据导入与查看 # -*- coding: utf-8 -*- # %%time # from pyhive import presto import pandas as pd import nump ...

  8. Python新工具:用三行代码提取PDF表格数据

    点击上方"视学算法",星标公众号 重磅干货,第一时间送达 项目作者:vinayak mehta 参与:一鸣 从 PDF 表格中获取数据是一项痛苦的工作.不久前,一位开发者提供了一个 ...

  9. dataframe保存为txt_竟然可以用 Python 抓取公号文章保存成 PDF

    . 游戏的多维数据集的形状概念 Python技术 人生苦短,我用 Python! 今天为大家介绍如何将自己喜欢的公众号的历史文章转成 PDF 保存到本地.前几天还有朋友再问,能不能帮把某某公众号的文章 ...

最新文章

  1. 【408预推免复习】操作系统之存储器管理
  2. php缓存变量_PHP 从缓存中取出存储的变量
  3. sap 获取计划订单bapi_sapbapi的清单.doc
  4. GIMP永久保存选择的办法
  5. 图解elasticsearch原理转载自
  6. 让别人和自己看懂自己的程序代码?一文掌握Java单行多行、文档注释以及注解(Annotation)超详细的理解使用,IDEA注释注解快捷键和模板,提高程序代码更有可读性
  7. jdbc mysql ssh通道_Jdbc使用ssh通道连接Mysql
  8. c++11/14新特性学习
  9. 光盘隐藏文件夹 linux,linux常用命令大全2--挂载/dpkg/文件系统分析/apt/光盘/关机...
  10. selinux 导致ftp文件夹出错~
  11. 技术研究院004---数据仓库系统的实现与使用(含OLAP重点讲解)
  12. 数学建模3 插值算法
  13. 苹果发生大规模宕机,网友调侃“突然白苹果了一会。”
  14. windows系统bat批处理 打开乱码
  15. 使用触发器对学生表操作进行日志记录
  16. WIN10取消密码和休眠密码
  17. QAV250四轴穿越机安装全程详解(多图)
  18. GAN学习历程之CycleGAN论文笔记
  19. 细说社交化经销商服务的十大典型应用场景
  20. 面试篇1:嵌入式C语言面试常见问题

热门文章

  1. C# viewstate
  2. 【转】typedef函数指针的用法(C++)
  3. 数据库毗连过多的错误,年夜概的启事分解及措置惩罚行动
  4. 复合数据类型,英文词频统计
  5. Linux下安装MongoDB全程记录
  6. 17-比赛1 A - Weak in the Middle (栈)
  7. python如何打开一个大文件?
  8. CSS+JS鼠标悬停单元格变色
  9. 用c语言实现对n个进程采用“短进程优先”算法的进程调度_为什么Linux CFS调度器没有带来惊艳的碾压效果?...
  10. 第23天学习Java的笔记-抽象类