分词程序的测试一般用backoff2005的脚本,但是backoff2005脚本是运行在linux系统上的。如果在windows系统中时,怎么使用该脚本呢?假设用户已经有了icwb2-data压缩包了。

首先得安装perl开发环境。下载地址:

https://dwimperl.googlecode.com/files/dwimperl-5.14.2.1-v7-32bit.exe
接下来,需要安装diff工具,下载地址:

http://superb-dca3.dl.sourceforge.net/project/gnuwin32/diffutils/2.8.7-1/diffutils-2.8.7-1-bin.zip

把diff工具解压到E:\diffutils目录下即可,然后把E:\diffutils\bin目录添加到系统的环境变量中。

接下来,就需要对icwb2-data/script/score脚本进行修改:

把46行的代码修改成:

$diff = "E:/diffutils/bin/diff";

把52,53行的代码修改成:(注意d:/tmp目录要存在)

$tmp1 = "d:/tmp/comp01$$";

$tmp2 = "d:/tmp/comp02$$";

接下来,就可以执行测试命令了:

在E:\icwb2-data目录中打开命令行工具并执行命令,如下:

E:\icwb2-data>perl scripts/score gold/pku_training_words.utf8 gold/pku_test_gold

.utf8 gold/pku_test_gold.utf8 > pku_maxent.score

命令的执行需要一段时间,等待即可。

测试命令完成后,会在E:\icwb2-data目录下生成pku_maxent.score文件,最终结果如下:

INSERTIONS: 0

DELETIONS: 0

SUBSTITUTIONS: 0

NCHANGE: 0

NTRUTH: 27

NTEST: 27

TRUE WORDS RECALL: 1.000

TEST WORDS PRECISION: 1.000

=== SUMMARY:

=== TOTAL INSERTIONS: 0

=== TOTAL DELETIONS: 0

=== TOTAL SUBSTITUTIONS: 0

=== TOTAL NCHANGE: 0

=== TOTAL TRUE WORD COUNT: 104372

=== TOTAL TEST WORD COUNT: 104372

=== TOTAL TRUE WORDS RECALL: 1.000

=== TOTAL TEST WORDS PRECISION: 1.000

=== F MEASURE: 1.000

=== OOV Rate: 0.058

=== OOV Recall Rate: 1.000

=== IV Recall Rate: 1.000

### gold/pku_test_gold.utf8 0 0 0 0 104372 104372 1.000 1.000 1.000 0.058 1.000 1.000

因为我们用的测试集和分词结果集是同一个文件,所以正确率、召回率什么的都是100%。

在windows系统中使用backoff2005的测试脚本来测试分词结果相关推荐

  1. 在Windows系统中配置Google AddressSanitizer

    Google AddressSanitizer简介 AddressSanitizer (ASan) 是 C 和 C++ 的内存错误检测软件,它可以检测: 释放指针后继续使用 堆缓冲区溢出 栈缓冲区溢出 ...

  2. linux open换行windows,python中遇到的Windows系统中换行符的一个坑

    在项目hex2bin( https://github.com/Root-lee/hex2bin ) 中,需要实现将一个txt文本中的十六进制码转换成相应的ascii码符号并写入一个.dat文件中,以用 ...

  3. 在windows系统中安装显卡驱动

    Windows系统下在docker中使用nvidia的GPU 微软官方文档 https://docs.microsoft.com/ja-jp/windows/ai/directml/gpu-cuda- ...

  4. 【从零学习OpenCV 4】Windows系统中安装OpenCV 4

    本文首发于"小白学视觉"微信公众号,欢迎关注公众号 本文作者为小白,版权归人民邮电出版社所有,禁止转载,侵权必究! 经过几个月的努力,小白终于完成了市面上第一本OpenCV 4入门 ...

  5. Linux / Windows系统中安装最新版 ElasticSearch (es)搜索引擎 超详细图文教程【一看就懂】

    "You Know, for Search"  相信来到这里的朋友们已经对ElasticSearch(es)有了一个大致的了解.关于Elasticsearch的介绍就不在此做过多赘 ...

  6. Windows系统中vscode+MSVC的C++配置

    Windows系统中vscode+MSVC的C++配置 在Windows上编译C++程序不能直接使用gcc和g++命令,一般来说如果非要使用的话可以用wsl或者MinGW.过去的很长一段时间我也确实是 ...

  7. Windows系统中Redis 下载安装

    Windows系统中Redis 下载安装 下载地址:https://github.com/MSOpenTech/redis/releases Redis 支持 32 位和 64 位.这个需要根据你系统 ...

  8. 调用mstsc命令_在Windows系统中,打开远程桌面的命令是(mstsc)

    ghost win7系统用户反映不知道怎么使用Windows远程桌面命令,还有打开远程桌面的命令之后的使用.下面小编就来详细介绍一下通过Windows计算机的远程桌面连接来管理远程计算机和入侵渗透测试 ...

  9. 在windows系统中使用GDAL

    在windows系统中使用GDAL 啥是GDAL windows 安装GDAL osgeo4w 安装 osgeo4w 使用.py指令 python GDAL库安装 参考 啥是GDAL GDAL 官网 ...

  10. 在windows系统中使用Ceres非线性优化库:(一)安装Ceres库

    (一)安装Ceres库                         1.用vcpkg安装Ceres库                 1.1.安装vcpkg 1.2.安装Ceres 1.3.配置C ...

最新文章

  1. Android 项目集成腾讯X5浏览器内核
  2. VTK:模型用法实战
  3. Git的reflog与log
  4. mongodb 数组查询 php,关于PHP,查询mongodb里的数组的问题
  5. 超级详细的手写webpack4配置来启动vue2项目(附配置作用)
  6. linux安装配置java,Linux 安装配置 java 环境
  7. android 定时唤醒蓝牙,Android保活——蓝牙唤醒(主动kill掉也可唤醒)
  8. verilog 四舍五入_IEEE 754 round-to-nearest-even Verilog代码
  9. Ubuntu20.04使用清华源下载Qt
  10. 笔记本win10正在更新怎么关闭计算机,win10系统彻底永久关闭更新方法大全_联想戴尔笔记本win10关闭自动更新方法介绍...
  11. python招聘-的python招聘
  12. 测试需要掌握的一些技能
  13. 无人货架上演生死时速,谁会成为最后的赢家?
  14. 开天辟地第一人---盘古
  15. 浏览器工作原理:浅析HTTP请求流程
  16. 数据页和数据行(第八周翻译)
  17. 组策略禁止自动锁定计算机,次次都登录太麻烦 教你关闭Win10锁屏
  18. STM32三种BOOT模式
  19. 【机器学习】凸集、凸函数、凸优化、凸优化问题、非凸优化问题概念详解
  20. DevOps怎么读?在线标准分发音

热门文章

  1. Redmine(Ruby)配置经验
  2. 如何向枚举中添加新值
  3. SVM中的核函数什么意思
  4. MacBook进阶技巧,如何在触控栏添加一键截屏?
  5. macOS 12兼容机型列表 想知道你的Mac是否支持macOS Monterey吗?
  6. Joey Sturgis Tones Soar for Mac(音效延迟插件)
  7. 想要升级Big Sur?你的Mac与Big Sur兼容吗?
  8. WiFi无法连接?解决macOS Big Sur / Mojave / Catalina上的Wi-Fi问题
  9. Vue 打包静态文件路径设置
  10. Streams AQ: qmn coordinator waiting for slave to start等待事件