七大Github机器学习热门项目

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达本文转自|机器学习算法那些事

Pytorch-Transformers(NLP)

https://github.com/huggingface/pytorch-transformers

PyTorch-Transformers是最新的一系列最先进的NLP库。它打败了之前各种NLP任务的基准。我真正喜欢pytorch-transformers的是它包含PyTorch实现，预训练模型权重和其他重要组件，可以帮助你快速入门。

你可能会觉得运行复杂的模型需要巨大的计算能力。但是PyTorch-Transformers没有这个问题，使大多数人都可以建立最优秀的NLP模型。

NeuralClassifer(NLP)

https://github.com/Tencent/NeuralNLP-NeuralClassifier

文本数据的多标签分类是一个相当大的挑战。当我们处理早期的NLP问题时，我们通常会处理单一标签任务。该级别在实际数据上增加了几个级别。

在多标签分类问题中，实例或记录可以具有多个标签，并且每个实例的标签数量不固定。

NeuralClassifier使我们能够快速实现分层多标签分类任务的神经模型。NeuralClassifier提供了我们熟悉的各种文本编码器，如FastText，RCNN，Transformer编码器等。

我们可以使用NeuralClassifier执行以下分类任务：

二进制文本分类
多级文本分类
多标签文本分类
分层（多标签）文本分类

TDEngine（大数据）

https://github.com/taosdata/TDengine

TDengine

TDEngine在上个月的星星数超过了GitHub上所有其他的新项目。在不到一个月的时间内收到了将近10000颗星。

TDEngine是一个用于下列领域的开源大数据平台：

物联网（IoT）
联网汽车
工业物联网
IT基础设施等等。

TDEngine提供了与数据工程相关的一整套任务。我们可以以超快的速度完成所有这些工作（处理查询速度提高10倍，计算使用率为1/5）。

有一点目前需要注意，TDEngine仅支持在Linux上执行。这个GitHub存储库包含了完整的文档和带有代码的入门指南。

视频对象删除（CV）

https://github.com/zllrunning/video-object-removal

您是否操作过图像数据？用于操作和处理图像的计算机视觉技术非常先进，其中图像物体检测被认为是成为计算机视觉专家的基本步骤。

但是操作视频会怎么样？当我们需要在视频中的对象周围绘制边界框时，难度会提高几个级别。对象的动态特征使整个概念更加复杂。

所以，当我看到这个GitHub存储库时非常高兴。我们只需在视频中的对象周围绘制一个边界框即可将它删除。 真的非常容易！下面是该项目的一个例子：

Python自动补全（编程）

https://github.com/vpj/python_autocomplete

你会喜欢上这个机器学习项目。作为数据科学家，我们的工作大多数就是围绕着算法做实验。这是一个可以自动完成简单的LSTM模型的Python代码的项目。

下面灰色突出显示的代码是LSTM模型填写的内容（结果位于图像的底部）：

正如开发人员所说：

我们在python代码中删除注释、字符串和空行后进行训练和预测。在对python代码进行标记化之后训练模型。它似乎比使用字节对编码的字符级预测更有效。

如果你曾经花费或浪费时间写了很差的Python代码，那么你可能需要它。它现在处于在非常早期的阶段，所以还存在一些问题。

tfpyth – TensorFlow to PyTorch to TensorFlow(编程)

https://github.com/BlackHC/tfpyth

TensorFlow和PyTorch都拥有强大的用户社区。但令人难以置信的是PyTorch的使用率可能会在未来一两年内超越TensorFlow。这不是打击TensorFlow，而是相当可靠的。

因此，如果你使用TensorFlow编写了一部分代码并用PyTorch中编写了另一部分代码，并希望将两者结合起来训练模型，那么tfpyth框架非常适合你。tfpyth最好的地方是不需要重写之前的代码。

这个GitHub存储库包含了一个结构良好的示例，说明了如何使用tfpyth。这绝对是TensorFlow与PyTorch之间的一种新的看法，不是吗？

安装tfpyth：

pythonpip install tfpyth

MedicalNet

https://github.com/Tencent/MedicalNet

将迁移学习与NLP联系起来。当我看到这个精彩的MedicalNet项目时，我感到很激动。

这个GitHub存储库包含了“Med3D: Transfer Learning for 3D Medical Image Analysis”论文的PyTorch实现。该机器学习项目将医学数据集与不同的模态，目标器官和病理进行聚合，以构建相对较大的数据集。

众所周知，深度学习模型通常需要大量的训练数据。因此，TenCent发布的MedicalNet是一个出色的开源项目，我希望很多人能够继续在它上面工作。MedicalNet的开发人员已经发布了基于23个数据集的四个预训练模型。

下载1：OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2：Python视觉实战项目52讲

在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

下载3：OpenCV实战项目20讲

在「小白学视觉」公众号后台回复：OpenCV实战项目20讲，即可下载含有20个基于OpenCV实现20个实战项目，实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~