因为业务需求,需要一个字数统计的功能,其实这个功能也不难,但是因为这边涉及到中文,英文,
日文和韩文的混合文本,所以不能用一般的统计方法,在网上搜索了一些,
然后综合了一下自己写了个支持混合统计的工具类
直接上代码
 /*** 字数统计* @param sContent 正文内容* @return*/public static Integer wordCount(String sContent){int byteCount = 0;//中文字符的处理String cn_words = sContent.replaceAll("[^(\\u4e00-\\u9fa5\\x3130-\\x318F\\u0800-\\u4e00,。《》?;’‘:“”【】、)(……¥!·)]", "");int cn_word_count = cn_words.length();//英文字符的处理String en_words = sContent.replaceAll("[^(a-zA-Z0-9`\\-=\\';.,/~!@#$%^&*()_+|}{\\\":><?\\[\\]\" \")]", "");int en_words_count = 0;String[] en = en_words.split(" ");for (String s : en){if (s.trim().length() != 0){en_words_count++;}}//韩文字符处理String kr_words = sContent.replaceAll("[(\\u4e00-\\u9fa5\\u0800-\\u4e00a-zA-Z0-9!\" \",。《》?;’‘:“”【】、)(……¥!·)]", "");int kr_word_count = kr_words.length();//合计处理byteCount = cn_word_count + en_words_count + kr_word_count;return byteCount;}

其实一般来讲,统计字数只需要中文和英文区分一下就可以了,但是因为业务需求,所以加入了日文和韩文的混合统计,其中韩文的字符编码范围是/x3130-/x318F,本来是可以一起在中文字符处理的正则里面过滤的,但是不知道为什么没有生效,只能重新统计一次将中英日文排除掉
最后的运行结果也达到了混合统计的效果,和word里面的统计相似(虽然代码有一点low)

Java实现字数统计(中文英文韩文日文混合),类似word效果相关推荐

  1. ecshop 多语言版 fckeditor,支持中文英文韩文等众多语言

    下载完解压覆盖掉ecshop的fckeditor即可 下载地址:FCKeditor_2.6.9.zip 转载自:http://www.9958.pw/post/ecshop_fckeditor 转载于 ...

  2. 《奥多比 PS CS4 官方中文版》(Adobe Photoshop CS4 Extended)繁体中文/简体中文/韩文

    <奥多比 PS CS4 官方中文版>(Adobe Photoshop CS4 Extended)繁体中文/简体中文/韩文 发布者: 呂翊翀 发布时间: 11月11日 更新时间: 前天 订阅 ...

  3. php韩文编码,PHP中GBK和UTF8编码处理(中文,韩文)

    一.编码范围 1. gbk (gb2312/gb18030) x00-xff gbk双字节编码范围 x20-x7f ascii xa1-xff 中文 x80-xff 中文 2. utf-8 (unic ...

  4. 中文翻译韩文软件有哪些?

    关于中文翻译韩文的软件对我们日常生活中可能不会起到什么作用,但是在办公中往往会起到很大的作用特别是对于一些外贸公司而言,翻译软件是他们经常会使用到的办公工具,那么中文翻译韩文的软件有哪些呢?下面的俩种 ...

  5. Unity NGUI显示任何字符内容(中文,韩文,英文,日文,等)

    也有一些其它的实现方便,都是通过设置,altas的字符纹理的配置: 如: http://blog.9tech.cn/?c=site&m=article&id=496 也可以参考:不过图 ...

  6. Java编程思想+Effective Java+Java核心技术+Java核心技术 卷II+Java语言程序设计(中文+英文+源码)

    Java四大名著(中文+英文+源码 ) 传说中的java四大名著,分享出来方便大家学习! 书名如下: Java编程思想 Effective Java(第2版) Java核心技术 卷I(第8版) Jav ...

  7. js正则禁止输中文韩文日文

    password = password.replace(/[\u4e00-\u9fa5]|[\u0800-\u4e00]|[\uac00-\ud7ff]/g,""); 通过unic ...

  8. Java Swing 无法显示韩文日文,或者显示方块,需要使用Noto字体

    Java Swing 的文本框无法显示韩文,或者显示不方块,原因是字体原因,JDK默认字体在 \jre\lib\fonts 下: 字体下载:NotoSansCJKtc_ttf.zip 下面代码是加载字 ...

  9. html显示不出韩文,Java Swing 无法显示韩文日文,或者显示方块,需要使用Noto字体...

    Java Swing 的文本框无法显示韩文,或者显示不方块,原因是字体原因,JDK默认字体在\jre\lib\fonts下: 下面代码是加载字体对象: public class MStyle { pr ...

最新文章

  1. 不用卷积,也能生成清晰图像,华人博士生首次尝试用两个Transformer构建一个GAN
  2. Android之在BaseAdapter源码中了解观察者模式
  3. android handler 的removeMessages的使用
  4. 开源公司被云厂商“寄生”,咋整?
  5. mysql.createPool(db),Node.js中JavaScript操作MySQL的常用方法整理
  6. 错误记录(三)identity和assigned 的区别
  7. 质疑“扩版=质量下降”——以《中国农学通报》和《安徽农业科学》为例
  8. Linux管理员常用的组合命令
  9. 调度流程图_怎么做大数据工作流调度系统?大厂架构师一语点破!
  10. python打包不能在其他电脑打开_pyinstaller打包python+opencv 无法在别人电脑上正常运行 问题所在:opencv_ffmpeg341_64.dll...
  11. 计算机高特效吃鸡游戏主机配置单,畅玩主流游戏吃鸡LOL组装电脑配置清单
  12. 递推DP UVA 473 Raucous Rockers
  13. mysql next key_关于mysql next-key锁的一些个人理解
  14. Navicat快捷键选择当前行
  15. U盘不被电脑识别问题
  16. 小学计算机课第二课堂活动总结,小学课外活动总结范文_2020小学第二课堂工作总结精选...
  17. 网规复习笔记---------(CSMA/CD)的最小帧长计算
  18. 抖音服务器升级暂时不能修改简介,抖音简介修改内容暂不可用,抖音简介哪些内容不能用...
  19. 定时任务(Spring与Quartz使用)
  20. linux   文件inode 详解

热门文章

  1. 第39次Scrum会议(12/5)【欢迎来怼】
  2. Codeforces Sereja and Mirroring
  3. 不同原因的美团差评,如何回复?
  4. Transformer,bert—t for transformers
  5. Nio实现高性能聊天系统
  6. 网络策划是做什么的,网络策划营销公司教你做策划
  7. 【开源SPL】列存数据仓库怎样更高效
  8. 计算机毕业设计SSM电影票购票系统【附源码数据库】
  9. Ubuntu云安装桌面版
  10. python网格交易法详解_3分钟带你了解网格交易法