Deriving Design Feature Vectors for Patent Images Using Convolutional Neural Networks（Journal of Mechanical Design · January 2021）

摘要

由于专利文件中包含着大型的，广泛的，大量的设计信息，为实现创新设计，设计者通常利用专利数据库去寻找灵感刺激。越来越多的类比设计工作采用了各种向量化方法，将设计文件关联在一起。然而，他们只关注了文本分析而忽略了视觉信息。工程设计和认知心理学研究表明对视觉刺激更利于设计想法的产生。本文专注于视觉设计刺激，并自动推导出向量空间和表示设计图像的设计特征向量。这个自动向量化方法采用一种名为双视觉几何组（Dual-Visual Geometry Group (VGG)）的新型卷积神经网络架构，旨在完成两项任务：1.图像材料类型预测；2.国际专利分类（IPC）部分标签预测。这种被推导出的特征向量嵌入了视觉特征和技术相关知识，可以潜在地引导检索和根据向量距离进行近场和远场设计刺激。

1.介绍

背景：目前大量图像检索方式大多数仅仅基于图像内容，检索结果仅使用查询图像的几何信息，而忽略了与技术相关的知识。
表征学习：一种机器学习方法，能从数据中自动学习特征。
这篇文章利用CNN来实现表征学习，CNN是目前最受欢迎的表征学习方法，原因在于它的深层架构可以学习到丰富的图像特征。
使用Dual-VGG的原因：不仅可以嵌入视觉信息，同时加入技术相关信息。
Dual-VGG的两个任务：1.图像材料类型预测（将专利图像分为九种预定义的类型：抽象绘图、流程图、图表、化学结构、表格、DNA、数学公式、计算机程序和符号，让模型能够学习专利图像的视觉特征）；2.IPC 部分标签预测（IPC 标签不仅起到索引功能，还包含结构、功能、机制和技术原理相关的知识，因此，这项任务能使模型学习到技术相关知识)。
设计特征：由倒数第二个全连接层神经网络推导出。
余弦相似度：用作设计特征向量之间的类比距离，表示给定的查询图片，以及图片库中的其他图片距离，可以用于引导类比设计和提供实现近场刺激和远场刺激新方法（创新设计理论：近场刺激有利于设计的有效性和质量和远距离刺激产生新的想法和机会突破性创新）。
意义：有助于越来越多的关于数据驱动设计，类比设计，以及基于机器学习的设计分析。

2.国内外研究背景综述

2.1数据驱动设计

Cascini和Russo开发了一个名为Pat-分析器的系统，通过分析专利文本信息，自动识别TRIZ专利发明中所包含的设计矛盾。
Cascini, G., and Russo, D., 2007, “Computer-Aided Analysis of Patents and Search for TRIZ Contradictions,” Int. J. Prod. Dev., 4(1), pp. 52–67
Ji等人提出了一种设计灵感方法，将美国专利国际专利分类的知识用于设计教育
Ji, Y., Qiu, Q., Feng, P., and Wu, J., 2019, “Empirical Study on the Impact of Knowledge in International Patent Classification on Design Inspiration of Undergraduate Students,” Int. J. Technol. Des. Educ., 29(4), pp. 803–820.
罗等人利用所有专利类别的网络地图开发了一种名为InnoGPS的计算机辅助构思系统，以增加对整个技术空间中设计机会的探索，并指导跨领域检索先前的知识和概念，以便进行设计类比和合成
Luo, J., Song, B., Blessing, L., and Wood, K., 2018, “Design Opportunity Conception Using the Total Technology Space Map,” AI EDAM, 32(4), pp.449–461.
Luo, J., Yan, B., and Wood, K., 2017, “InnoGPS for Data-Driven Exploration of Design Opportunities and Directions: The Case of Google Driverless Car Project,” ASME J. Mech. Des., 139(11), p. 111416.
Luo, J., Sarica, S., and Wood, K. L., 2019, “Computer-Aided Design Ideation Using InnoGPS,” Proceedings of the 2019 ASME International Design Engineering Technical Conferences and Computers and Information in Engineering Conference (IDETC/CIE), Anaheim, CA, Aug. 18–21, p.V02AT03A011.
Sarica 等人开发了一个语义网络，其中有 400 多万个技术术语，称为 TechNet，基于 USPTO 数据库，用于工程知识发现和构想支持。
Sarica, S., Luo, J., and Wood, K. L., 2020, “TechNet: Technology Semantic Network Based on Patent Data,” Expert Syst. Appl., 142, p. 112995.
TechNet 已用于增强设计检索和探索 [1]、专利文档搜索 [2]、创意生成和评估 [3]等应用
[1]Sarica, S., Song, B., Luo, J., and Wood, K., 2019, “Technology Knowledge Graph for Design Exploration: Application to Designing the Future of Flying Cars,” Proceedings of the 2019 ASME International Design Engineering Technical Conferences and Computers and Information in Engineering Conference (IDETC/CIE), Anaheim, CA, Aug. 18–21, p. V001T02A028.
[2]Sarica, S., Song, B., Low, E., and Luo, J., 2019, “Engineering Knowledge Graph for Keyword Discovery in Patent Search,” Proceedings of the Design Society:International Conference on Engineering Design (ICED), The Netherlands,Aug. 5–8, pp. 2249–2258.
[3]Han, J., Forbes, H., Shi, F., Hao, J., and Schaefer, D., 2020, “A Data-Driven Approach for Creative Concept Generation and Evaluation,” Proceedings of the Design Society: DESIGN Conference, Virtual, Oct. 26–29, Vol. 1,pp. 167–176.

2.2类比设计和类比距离

Murphy 等人提出了一种功能向量方法，将专利表示为向量，以支持在不同向量距离上搜索功能类比。
Murphy, J., Fu, K., Otto, K., Yang, M., Jensen, D., and Wood, K., 2014, “Function Based Design-by-Analogy: A Functional Vector Approach toAnalogical Search,” ASME J. Mech. Des., 136(10), p. 101102.
Song等人在专利信息的基础上建立了专利技术网络，位于家庭、近场和远场的潜在刺激
Song, B., Srinivasan, V., and Luo, J., 2017, “Patent Stimuli Search and Its Influence on Ideation Outcomes,” Des. Sci., 3(e25).
McCaffrey 和 Spector 开发了一个名为"模拟查找器"的系统，通过将输入设计问题重新措辞为动词和同义词来搜索专利数据库中的适应性刺激。
McCaffrey, T., and Spector, L., 2018, “An Approach to Human–Machine Collaboration in Innovation,” AI EDAM, 32(1), pp. 1–15.
Sarica 等人从专利标题和摘要用词嵌入模型以训练的向量表示各技术类别：技术功能，组成，结构等。
Sarica, S., Luo, J., and Wood, K. L., 2020, “TechNet: Technology Semantic Network Based on Patent Data,” Expert Syst. Appl., 142, p. 112995.

2.3专利图像表示和检索

在图像检索领域，已经报告了使用 CNN 与传统 SIFT 功能相比产生的一些竞争结果，即使具有低维矢量。
Zheng, L., Yang, Y., and Tian, Q., 2017, “SIFT Meets CNN: A Decade Survey of Instance Retrieval,” IEEE Trans. Pattern Anal. Mach. Intell., 40(5), pp. 1224–1244.
Radenović, F., Tolias, G., and Chum, O., 2016, “CNN Image Retrieval Learns From BoW: Unsupervised Fine-Tuning with Hard Examples,” Proceedings of the 2016 European Conference on Computer Vision (ECCV), Amsterdam, The Netherlands, Oct. 11–14, pp. 3–20.
Tolias, G., Sicre, R., and Jégou, H., 2016, “Particular Object Retrieval with Integral Max-Pooling of CNN Activations,” Proceedings of the 4th International Conference on Learning Representations (ICLR), San Juan,Puerto Rico, May 2–4.
Kalantidis, Y., Mellina, C., and Osindero, S., 2016, “Cross-Dimensional Weighting for Aggregated Deep Convolutional Features,” Proceedings of the 2016 European Conference on Computer Vision (ECCV), Amsterdam, The Netherlands, Oct. 11–14, pp. 685–701.
Gordo, A., Almazán, J., Revaud, J., and Larlus, D., 2016, “DeepImage Retrieval: Learning Global Representations for Image Search,”Proceedings of the 2016 European Conference on Computer Vision (ECCV),Amsterdam, The Netherlands, Oct. 11–14, pp. 241–257.

3.方法

总任务：训练一个Dual-VGG卷积神经网络以完成由专利图像推导出设计特征向量的任务。
通过向量空间中的余弦相似度来比较测量类比距离，以支持设计图像检索类比设计。
任务1：预测每个专利的 IPC 部分标签，使用 A 到 H 的八个专利类别中每个类别的一位数 IPC 标签，而每个类别由较小的 3 到 7 位子类组成，相当于一个分类任务。值得注意，这篇文章采用多类单标签，是否可用多类多标签
神经网络训练完成之后，可以从倒数第二层这个全连接层中提取特征向量，从而可以将专利数据库中的所有专利图像用特殊的向量表示，这篇文章中，此向量为1024维。通过余弦相似度计算，可以找出专利库中与目标图像最接近的专利图像。
Dual-VGG的优势在于能够学习不仅包含形状、颜色和图案的基本知识，还包含 IPC 信息中包含的技术相关知识。

3.1Dual-VGG卷积神经网络架构

Dual-VGG网络基于 VGG19（Simonyan, K., and Zisserman, A., 2015, “Very Deep Convolutional Networks for Large-Scale Image Recognition,” Proceedings of the 3rd International Conference on Learning Representations (ICLR), San Diego, CA, May 7–9.）卷积神经网络设计。VGG19 有 19 个可训练层，包括卷积层、全连接层、最大池化层以及drop out。
Dual-VGG包括两个VGG19模块，下面的模块用于图像材料类型预测，这里增加了一个辅助任务去将专利图像转化多维向量，辅助任务的目的是将与类型相关的知识嵌入到设计特征中。

在训练阶段，首先独立于预训练的权重训练下方模块。然后，冻结在下方模块的所有权重，此块的输出向量将嵌入专利图像的视觉特征。同时，网络的上方模块旨在学习 IPC 信息中包含的一般几何知识和技术相关知识。
在网络中，将专利图像扩展为输入层的 224 × 224 × 3 向量，属于卷积层的过滤器取为 3 × 3 大小。每个卷积层堆叠之后是激活函数和最大池化操作，激活函数为ReLU函数，最大池化采取2×2大小的过滤器和相同的长度步。通过两个 VGG 模块，获得了两个1024 维特征向量。之后，模型中的串联层将两个向量连接成一个2,048 维向量。最后，另一个全连接层会吸收上一层的所有信息，生成每个 IPC 部分标签的概率分布。
关于将两个1024维特征向量串联的理论依据为知识融合策略：当所有知识形态都被转换成新的表示，它变得易于融合其他不同的表示到单个隐藏层，然后学习一个联合多模态表示。
Ramachandram, D., and Taylor, G. W., 2017, “Deep Multimodal Learning: A Survey on Recent Advances and Trends,” IEEE Signal Process. Mag., 34(6),pp. 96–108.
在训练过程中，损失函数是根据分类交叉熵计算：

N表示一批图像中的图像数量，而 i为图像的索引。K表示类数，在本文情况下，有K=8，yj表示最后一个完全连接的层的输出值，我们有yj 之和等于1，ˆyj代表真实标签：它等于1时为真正的类，为0时为其他类。
训练之后，该神经网络模型可用于分类和实现特征推导的目的。由于该模型的目标是将专利图像分类为特定的 IPC 部分，从网络中提取的设计特征将包含从 IPC 信息中学习的技术相关知识。

3.2设计功能推导和视觉刺激识别

余弦距离为用于文档和图像检索任务中的最易于实施和最有效的指标。两个特征向量的余弦距离为：

向量空间中特征向量之间的关联性由余弦相似性确定，使按类比设计进行专利图像检索策略至少有两种：一、基于给定的查询专利图像，计算所有其他专利图像与其的相似度来确定最合适的图像，这是一种直接的图片-图片的推导和搜索；二、给定一个基于语言的设计问题，首先利用关键词检索在专利网站上检索相关专利，然后选择专利文件中最相关的图片作为查询图片去确定其他最相似的专利图像。

4.实验

4.1数据收集和预处理

实验基于三个数据集：1.用于辅助任务的数据集；2.用于主任务的IPC部分标签数据集；3.用于案例研究及评价的数据集，包括来自四个技术领域的数千张专利图像，如图：

辅助任务数据集：由于原始专利数据库没有图像的类型标签，使用现有的专利图像类型数据集执行辅助任务，即 CLEF-IP 2011 ，其中所有图像已标记为九大类。
Piroi, F., Lupu, M., Hanbury, A., and Zenz, V., 2011, “CLEF-IP 2011: Retrievalin the Intellectual Property Domain,” The WorkshopProceedings of the 2011Cross-Language Evaluation Forum (CLEF), Amsterdam, Sept 19–22.
为了提高辅助分类任务的最终性能，采用数据增强技术，丰富数据的同时平衡数据集，最终每个分类得到8000张图片，按照训练集、验证集、测试集比例6:1:1的比例分离（实验证明表现最好）。
数据增强技术：Van Dyk, D. A., and Meng, X.-L., 2001, “The Art of Data Augmentation,”J. Comput. Graph. Stat., 10(1), pp. 1–50.
IPC部分标签数据集：在 IPC 1 位数级别的 8 个类别中收集了 403870 项实用专利及其 10，877，766 张图像。图中显示了来自八个 IPC 部分的随机专利图像的说明性示例，其中某些专利一张图上实际有多个专利图像，采用YOLO-V3神经网络进行分割，最终得到13998254张图片。
**YOLO-V3：**Redmon, J., and Farhadi, A., 2018, “Yolov3: An Incremental Improvement,”arXiv Prepr. arXiv1804.02767.

评估数据集：此为了评估表征学习的性能，并理解专利图像的特征向量表示和距离，其中包含与机械设计相关的四个不同技术领域的专利：飞轮、铣床、飞机和机器人。来自于 PATSNAP4 网站，从这四个领域获得了大约15851项专利，此数据集只使用了专利文件的头版图像。

4.2神经网络训练

与其他神经网络训练方法大致相同，SGD优化器的学习率设置了1E-4，批次（batch）设置了32，辅助任务迭代次数：50（耗时16.8h,416G）；IPC部分标签预测任务迭代次数：10(耗时136.2h,416G)。

4.3训练结果

为了进行基准和评估，还使用 ResNet50 、DenseNet121 以及 XRCE 的方法进行的测试。

主任务准确率比其他方法高，因为结合了辅助任务和主任务的信息，而其他神经网络是独自训练两个任务，这表明材料类型信息是有利于预测IPC部分标签的。但是这个准确率不高的原因可能在于：一、用单个专利图像预测IPC部分标签本来就很困难，即使对于人类专家来说；二、专利图像分辨率低。
下图展示了训练后的向量空间中的图像采样示例子集。此图谱中的所有图像都从我们的评估数据集中采样。通过t-SNE方法将这些由Dual-VGG模型推导出的特征向量转化到二维空间。
Maaten van der, L., and Hinton, G., 2008, “Visualizing Data Using T-SNE,”J. Mach. Learn. Res., 9(86), pp. 2579–2605.

5.案例研究评价

下图展示了利用谷歌搜索引擎搜索关键词“机器人手臂”检索出的图像，可以看到，这些机器人手臂的外观和功能在外观上非常相似。这种检索既没有提供广泛的设计概念，也没有提供足够的机器人手臂工程设计信息来激发设计理念。

下图展示了在 USPTO 专利库中进行的同样的关键词检索后的结果，其中一些专利图像中所包含的设计信息难以吸收。例如：Keyword-2提供了关于某种机器人控制系统的流程图，Keyword-5、8和10仅使用简单的图形来解释特定设计的工作原理，如果不阅读专利文档，仅靠这些视觉图像不能直接激发设计师的灵感。

下图展示了运用本文训练的Dual-VGG网络检索出的结果。下图的第一个图像为初始查询图像，实验中使用的初始查询图像是由作者根据相应专利的视觉和语义内容选择的。设计人员可以根据自己的喜好选择不同的初始查询图像，通过向量空间推导显示与初始查询图像最接近的前九个图像。

上图中，DVGG-2、DVGG-4 和 DVGG-5 具有传统的机器人手臂形式，由驱动扭转机制的电机组成。DVGG-1 提供了具有高灵活性效果的机器人手臂，由几个铰接式动臂组成。 DVGG-3 显示了机器人手臂中接头使用的运动转换装置。DVGG-6 为机器人手臂的机械设计过程中使用的平行机制提供了可移动的联动链路。这些设计图像显示了可用于或与机械臂设计一起使用的设计配置和机制。此外，DVGG-7 和 DVGG-8 还展示了气动抓手和抓取夹具，可为改进对接和引入此功能提供一种不规则设计。这些图像描述的设计与典型的机器人手臂设计无关，**但可能与机器人手臂的创新设计潜在相关。**这种设计检索对于增强设计理念和支持按类比设计具有价值。
为了与其他CNN方法进行比较，下图表示使用 Resnet50 执行了相同的检索任务。可以轻松地观察到使用 Resnet 50 检索到的图像的形状与查询图像非常相似，尤其是 RES-1、3、4、5 和 8 的图像。原因在于这种检索预训练的 ResNet50 只考虑视觉特征，而不考虑与技术相关的信息。

更进一步，试验了另一种间接设计检索策略，首先用关键词检索专利图像，设计师识别了四个有价值的项目作为初始查询图像，以查询数据库中其他图像。下图表示了这四个初始查询图像的检索结果。

以上介绍了单图片查询和混合关键词-图片查询两种检索方法，两种方法的运用，增强了知识发现和设计机会的探索。
实际上上述所有检索结果虽然超出了一般检索固定的范围，但实际上都是相似度最高的结果。实际上，设计师可以探索和选择不同类比距离的专利图像，以解决我们模型所训练的设计特征向量空间中的特定设计问题，以获得检索结果有效性和质量，而不是新颖性和仅仅为了创新机会。

6.结束语

研究工作仍有一些限制：一、并非每个专利图像都可以用来表示整个专利，一些专利图像质量不高，检索结果会出现一定程度上与查询图像相关；二、网络中的可训练参数可能会有更好的替代；三、图像可以不言自明和具体到足以提供灵感，然而有时对于设计师来说可能很难单独理解图像，对于这种情况，添加相关文本内容可能是一个方案。
未来：一、建立更加健全的机械工程领域专利图像数据库；二、使用提出的方法为每个专利图像都推导出特征向量以便研究者更大范围的使用；三、提升神经网络架构以获得更好的特征向量表现；四、进行一种可解释性的研究：运用本文方法，通过实施由特征向量决定的不同距离的设计刺激，对产生的设计想法的表现进行更细致的理解。

文章学习（一）方法类：利用CNN从专利图像导出设计特征向量相关推荐

文章学习（二）综述类：数据驱动的类比设计：最先进的技术和未来的方向
DATA-DRIVEN DESIGN-BY-ANALOGY:STATE OF THE ART AND FUTURE DIRECTIONS 摘要类比设计(DbA)是一种设计方法,指的是从源领域得到 ...
如何利用CNN实现图像识别的任务？
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达如何利用CNN实现图像识别的任务? 输入层读入经过规则化(统一大小 ...
黑科技DeepFake检测方法：利用心跳做信号，还能「揪出」造假模型
本文转载自机器之心. 选自arXiv 作者:Umur Aybars Ciftci等机器之心编译编辑:陈萍 DeepFake 真的可以达到以假乱真的效果吗?未必.来自宾汉姆顿大学.英特尔公司的研究人 ...
【转】自然语言系列学习之表示学习与知识获取（五）融合文本和知识，利用cnn方法进行关系抽取
本文重点放在怎么利用知识表示学习,辅助我们进行关系抽取,首先介绍如何利用分布式表示去融合知识和文本进行文本的抽取. 前文提到利用知识图谱学习了知识表示,就可以预测任意两个实体之间的关系,它是通过t-h ...
【深度学习】利用CNN来检测伪造图像
随着像Facebook和Instagram这样的社交网络服务的出现,在过去十年中产生的图像数据量有一个巨大增加.使用图像(和视频)等处理软件GNU Gimp,Adobe Photoshop创建修改过的 ...
C# “Thread类Suspend()与Resume()已过时” 解决方法（利用ManualResetEvent类）
C# "Thread类Suspend()与Resume()已过时" 解决方法(利用ManualResetEvent类) 参考文章: (1)C# "Thread类Suspe ...
java学习（2）方法/类+成员/局部变量+private/this关键字+构造方法+标准类
文章目录 1.方法+类 (1)创建类 (2)对象的在调用时的内存 (3)方法的参数.返回值可以是一个对象 2.成员变量和局部变量 3.private关键字 4.this关键字 5.构造方法 6.定义一 ...
深度学习-07(图像分类、常用数据集、利用CNN实现图像分类、图像分类优化)
文章目录深度学习-07(PaddlePaddle图像分类) 图像分类概述概述什么是图像分类图像分类粒度图像分类发展历程图像分类问题的挑战常用数据集介绍 MNIST数据集 CIFAR10数 ...
JAVAAPI学习之Calendar类；Calendar类set()、add()、roll()方法区别
JAVAAPI学习之Calendar类 http://blog.csdn.net/myjlvzlp/article/details/8065775(写的很好,清晰易懂) Calendar类set(). ...

文章学习（一）方法类：利用CNN从专利图像导出设计特征向量