常见的问题是检测并显示两个文本(尤其是几百行或几千行)的差异。 使用纯java.lang.String类方法可能是一种解决方案,但是对于此类操作最重要的问题是,“性能”将不能令人满意。 我们需要一种有效的解决方案,其可能具有以下观点:

文字差异工具示例

该问题包含两个部分:

  • 检测两个文本的差异:为了检测差异,在此解决方案中使用了一种有效的LCS(最长公共子序列)动态算法 。 该解决方案具有O(text1WordCount * text2WordCount)复杂度,并在下面被编码为“ longestCommonSubsequence”方法。
  • 可视化差异:可视化使用基于HTML标记的方法,该方法将text2的新单词标记为绿色,将text1的旧单词标记为红色。 该解决方案具有O(changedWordsCount *(text1WordCount + text2WordCount))复杂度,并在下面被编码为“ markTextDifferences”方法。

注意1:为简单起见,“ normalizeText”方法用于删除\ n,\ t和多个空格字符。 注意2:此类创建为Vaadin组件。 但是,“ longestCommonSubsequence”是纯通用的,“ markTextDifferences”方法是基于HTML的可视组件的通用,因此它们也可以用于不同的框架。

import java.util.ArrayList;
import com.vaadin.ui.CustomComponent;
import com.vaadin.ui.Label;
import com.vaadin.ui.Layout;
import com.vaadin.ui.VerticalLayout;/**
* Text comparison component which marks differences of two texts with colors.
*
* @author cb
*/
public class TextCompareComponent extends CustomComponent {private Layout mainLayout = new VerticalLayout();private ArrayList<String> longestCommonSubsequenceList;private static final String INSERT_COLOR = "#99FFCC";private static final String DELETE_COLOR = "#CB6D6D";public TextCompareComponent(String text1, String text2) {text1 = normalizeText(text1);text2 = normalizeText(text2);this.longestCommonSubsequenceList = longestCommonSubsequence(text1, text2);String result = markTextDifferences(text1, text2, longestCommonSubsequenceList, INSERT_COLOR, DELETE_COLOR);Label label = new Label(result, Label.CONTENT_XHTML);mainLayout.addComponent(label);setCompositionRoot(mainLayout);}/*** Finds a list of longest common subsequences (lcs) of given two texts.* * @param text1* @param text2* @return - longest common subsequence list*/private ArrayList<String> longestCommonSubsequence(String text1,String text2){String[] text1Words = text1.split(" ");String[] text2Words = text2.split(" ");int text1WordCount = text1Words.length;int text2WordCount = text2Words.length;int[][] solutionMatrix = new int[text1WordCount + 1][text2WordCount + 1];for (int i = text1WordCount - 1; i >=0; i--) {for (int j = text2WordCount - 1; j >= 0; j--) {if (text1Words[i].equals(text2Words[j])){solutionMatrix[i][j] = solutionMatrix[i + 1][j + 1] + 1;}else {solutionMatrix[i][j] = Math.max(solutionMatrix[i + 1][j],solutionMatrix[i][j + 1]);}}}int i = 0, j = 0;ArrayList<String> lcsResultList =new ArrayList<String>();while (i < text1WordCount && j < text2WordCount) {if (text1Words[i].equals(text2Words[j])) {lcsResultList.add(text2Words[j]);i++;j++;} else if (solutionMatrix[i + 1][j] >= solutionMatrix[i][j + 1]) {i++;}else {j++;}}return lcsResultList;}/*** Normalizes given string by deleting \n, \t and extra spaces.* * @param text - initial string* @return - normalized string*/private String normalizeText(String text) {text = text.trim();text = text.replace("\n", " ");text = text.replace("\t", " ");while (text.contains("  ")) {text = text.replace("  ", " ");}return text;}/*** Returns colored inserted/deleted text representation of given two texts.* Uses longestCommonSubsequenceList to determine colored sections.** @param text1* @param text2* @param lcsList* @param insertColor* @param deleteColor* @return - colored result text*/private String markTextDifferences(String text1, String text2,ArrayList<String> lcsList, String insertColor, String deleteColor) {StringBuffer stringBuffer = new StringBuffer();if (text1 != null && lcsList != null) {String[] text1Words = text1.split(" ");String[] text2Words = text2.split(" ");int i = 0, j = 0, word1LastIndex = 0, word2LastIndex = 0;for (int k = 0; k < lcsList.size(); k++) {for (i = word1LastIndex, j = word2LastIndex;i < text1Words.length && j < text2Words.length;) {if (text1Words[i].equals(lcsList.get(k)) &&text2Words[j].equals(lcsList.get(k))) {stringBuffer.append("<SPAN>" + lcsList.get(k) + " </SPAN>");word1LastIndex = i + 1;word2LastIndex = j + 1;i = text1Words.length;j = text2Words.length;}else if (!text1Words[i].equals(lcsList.get(k))) {for (; i < text1Words.length &&!text1Words[i].equals(lcsList.get(k)); i++) {stringBuffer.append("<SPAN style='BACKGROUND-COLOR:" +deleteColor + "'>" + text1Words[i] + " </SPAN>");}} else if (!text2Words[j].equals(lcsList.get(k))) {for (; j < text2Words.length &&!text2Words[j].equals(lcsList.get(k)), j++) {stringBuffer.append("<SPAN style='BACKGROUND-COLOR:" +insertColor + "'>" + text2Words[j] + " </SPAN>");}}}}for (; word1LastIndex < text1Words.length; word1LastIndex++) {stringBuffer.append("<SPAN style='BACKGROUND-COLOR:" +deleteColor + "'>" + text1Words[word1LastIndex] + " </SPAN>");}for (; word2LastIndex < text2Words.length; word2LastIndex++) {stringBuffer.append("<SPAN style='BACKGROUND-COLOR:" +insertColor + "'>" + text2Words[word2LastIndex] + " </SPAN>");}}return stringBuffer.toString();}
}

参考:我们的JCG合作伙伴 Cagdas Basaraner在CodeBuild博客上使用LCS方法实现了通用文本比较工具 。

翻译自: https://www.javacodegeeks.com/2012/05/generic-text-comparison-tool-with-lcs.html

具有LCS方法的通用文本比较工具相关推荐

  1. lcs文本相似度_具有LCS方法的通用文本比较工具

    lcs文本相似度 常见的问题是检测并显示两个文本的差异(尤其是几百行或几千行). 使用纯java.lang.String类方法可能是一种解决方案,但是对于此类操作最重要的问题是,"性能&qu ...

  2. OpenCASCADE:形状愈合之通用拆分工具

    OpenCASCADE:形状愈合之通用拆分工具 形状分割的通用工具 人脸分割的通用工具 分线通用工具 边缘分割的通用工具 几何分割的通用工具 形状分割的通用工具 类ShapeUpgrade_Shape ...

  3. 通用数据库管理工具_了解为什么这个直观的工具是您团队的通用团队管理工具...

    通用数据库管理工具 每个项目管理工具都试图做同样的工具性工作:保持团队联系,按任务执行和按时完成重大计划. 但是市场变得非常拥挤,并且有充分的理由-没有平台似乎对人们需要看到的东西以及应该如何显示这些 ...

  4. 【电脑办公软件】万彩办公大师教程丨TextDiff文本比较工具

    通过使用文本比较工具, 可以快速比较两个文件的内容区别. 内容不同之处会被自动标记成不同的颜色,清晰明了,方便修改.在这个工具里面, 选择自定义高亮颜色, 设置水平分割方式, 搜索查找替换文件内容等. ...

  5. 如何在Linux系统中安装DBeaver通用数据库工具

    DBeaver是一个开源.功能齐全.跨平台的通用数据库管理工具和SQL客户端,可在Linux操作系统.Windows和macOS 系统上运行. DBeaver支持80多个数据库管理系统,包括Postg ...

  6. 如何进阶优秀数据分析师行列?方法、技术与工具,缺一不可!

    ▼ 更多精彩推荐,请关注我们 ▼ 入行数据分析师,从来都不是一蹴而就的.好比钓鱼,不是简单地把诱饵放上鱼钩,然后扔到水中,就可以有鱼上钓,方法.技术与工具,缺一不可.什么是举一反三,什么是学以致用,什 ...

  7. 免费IP代理池定时维护,封装通用爬虫工具类每次随机更新IP代理池跟UserAgent池,并制作简易流量爬虫...

    前言 我们之前的爬虫都是模拟成浏览器后直接爬取,并没有动态设置IP代理以及UserAgent标识,这样很容易被服务器封IP,因此需要设置IP代理,但又不想花钱买,网上有免费IP代理,但大多都数都是不可 ...

  8. 通用数据库管理工具DBeaver

    通用数据库管理工具DBeaver 在渗透测试中,用户往往需要管理很多数据库.这些数据库可能是渗透软件使用的(如Metasploit使用的Postgresql),也有目标主机的数据库(如网站的数据库). ...

  9. 《研发企业管理——思想、方法、流程和工具》——1.11 论成本

    本节书摘来自异步社区<研发企业管理--思想.方法.流程和工具>一书中的第1章,第1.11节,作者:林锐著,更多章节内容可以访问云栖社区"异步社区"公众号查看 1.11 ...

最新文章

  1. ZigBee TI ZStack CC2530 3.18 串口01-发送
  2. 深圳华强北三菱服务器维修,三菱电梯GPS维修的故障分析 -解决方案-华强电子网...
  3. 创建二叉树的代码_解二叉树的右视图的两种方式
  4. 东北到底有没有互联网?!
  5. 关于Vue.js的v-for,key的顺序改变,影响过渡动画表现
  6. 【数据库】E-R图向关系模型转换的规则
  7. 用pathon实现计算器功能
  8. mysql查询条件中使用 或 !-的问题
  9. centos mysql5.5 编译安装_centos6.4下编译安装MySQL-5.5.33
  10. 贝叶斯概率推断:短信数据推断行为
  11. Iperf使用方法与参数说明
  12. 从键盘输入字符串,按回车键结束,在第二行显示输入内容。
  13. 关于命令注入的一些介绍
  14. ionic 以及cordova apk打包成功,安装不成功,显示Failure [INSTALL_FAILED_CONFLICTING_PROVIDER]
  15. 常用开关电源芯片大全
  16. 对话姚期智:中国人工智能界是怎么被我教出来的?
  17. el-input-number 默认值设置失效
  18. 大学物理上——复习系统c++代码
  19. 深度共情:让人际交往和沟通变得高效自在
  20. 3D游戏建模软件大总结,你都知道哪些?

热门文章

  1. os引导程序boot从扇区拷贝os加载程序loader文件到内存(boot copy kernel to mem in the same method)
  2. throwable_您想了解的所有Throwable
  3. stomp java客户端_Stomp-Spring服务器端的Web套接字Java客户端
  4. 移动端apm关键指标_3个经常被忽视的APM关键功能
  5. mongodb dsl_具有Java DSL的Spring Integration MongoDB适配器
  6. dynamodb java_使用Java扫描DynamoDB项目
  7. 冷热复位_冷热rx-java可观察
  8. javafx canvas_JavaFX技巧2:使用Canvas API进行清晰绘图
  9. 您是否尝试过MicroProfile Starter?
  10. java jvm调优_(第1部分,共3部分):有关性能调优,Java中的JVM,GC,Mechanical Sympathy等的文章和视频的摘要...