Java国际化：BreakIterator

java.text.BreakIterator 类用来查找不同语言中的字符、单词和句子的边界。因为不同的语言有不同的字、单词和句子的边界，所以只是查找空格、逗号、句号、分号和冒号是不够的。你需要一个万无一失的、可用于各种语言的查找方法。BreakIterator 类就是干这个的。

创建一个 BreakIterator
一个 BreakIterator 实例只能判断以下四种边界之一：

字符边界
单词边界
句子边界
行边界
首先需要使用BreakIterator类提供的用于识别以上边界的，对应的工厂方法来创建一个实例。这些工厂方法有：

BreakIterator.getCharacterInstance();
BreakIterator.getWordInstance();
BreakIterator.getSentenceInstance();
BreakIterator.getLineInstance();

每个方法都需要一个 Locale 作为参数，然后返回一个 BreakIterator 实例，例如：

Locale locale = LocaleUK;BreakIterator breakIterator =BreakIterator.characterInstance(locale);

字符边界
当查找一个字符边界时，需要区分用户字符和Unicode字符。

一个用户字符是指用户用笔书写时或者用户通常在屏幕上看到了字符。

一个用户字符通常需要一个或多个Unicode字符去表示；有的需要2个或更多的Unicode字符来表示。

一个 BreakIterator 的字符实例可以用于查找用户字符的边界，而不是Unicode字符。

例如，以下例子用来查找一个字符串的字符边界：

Locale locale = Locale.UK;
BreakIterator breakIterator =BreakIterator.getCharacterInstance(locale);breakIterator.setText("Mary had a little Android device.");int boundaryIndex = breakIterator.first();
while(boundaryIndex != BreakIterator.DONE) {System.out.println(boundaryIndex) ;boundaryIndex = breakIterator.next();
}

上例创建了一个用于英式英语的 BreakIterator 实例，然后调用setText() 方法指定用于查找的文本内容。

first() 方法返回找到的第一个断点，方法 next() 用于查找所有接下来的断点。这两个方法都返回查找到的用户字符中的Unicode字符索引。因此，如果一个用户字符占用了多于一个的Unicode字符，那么字符的索引会增加占用的Unicode字符数。

单词边界
当查找单词时，需要创建一个符合单词边界的、针对特定语言的BreakIterator 实例，下面是一个示例：

Locale locale = Locale.UK;
BreakIterator breakIterator =BreakIterator.getWordInstance(locale);

以上代码创建一个用于查找英国英语中单词边界的 BreakIterator 实例。
下面的例子演示了怎么查找一段英语文本的单词边界：

Locale locale = Locale.UK;
BreakIterator breakIterator =BreakIterator.getWordInstance(locale);breakIterator.setText("Mary had a little Android device.");int boundaryIndex = breakIterator.first();
while(boundaryIndex != BreakIterator.DONE) {System.out.println(boundaryIndex) ;boundaryIndex = breakIterator.next();
}

同样的，first() 和 next() 方法返回查找到单词的Unicode字符的索引。

用Java统计特定语言中的单词数Counting Words in a Specific Language in Java
这个Java代码片段显示了如果统计某个特定语言中的单词数：

public class WordCounter {public static class  WordCount {protected String word  = null;protected int    count = 0;}public static Map<String, WordCount> countWords(String text, Locale locale) {Map<String, WordCount> wordCounts = new HashMap<String, WordCount>();BreakIterator breakIterator = BreakIterator.getWordInstance(locale) ;breakIterator.setText(text);int wordBoundaryIndex = breakIterator.first();int prevIndex         = 0;while(wordBoundaryIndex != BreakIterator.DONE){String word = text.substring(prevIndex, wordBoundaryIndex).toLowerCase();if(isWord(word)) {WordCount wordCount = wordCounts.get(word);if(wordCount == null) {wordCount = new WordCount();wordCount.word = word;}wordCount.count++;wordCounts.put(word, wordCount);}prevIndex = wordBoundaryIndex;wordBoundaryIndex = breakIterator.next();}return wordCounts;}private static boolean isWord(String word) {if(word.length() == 1){return Character.isLetterOrDigit(word.charAt(0));}return !"".equals(word.trim());}
}

方法countWords() 需要一个 string 参数和一个 Locale 参数。Locale 代码了传入的string的语言类别。因此，当创建 BreakIterator，它可以创建针对那个语言类型的实例。

这个方法统计了一个单词在传入的串中有多少个，然后返回一个 Map<String, WordCount> 对象，Map中的key是一个一个单词，以小写形式表示，值是一个 WordCount 实例，它包含了两个变量：word 和 count 。只需要把所有的单词发生的次数相加就可以得到总的单词数了。

注意：isWord() 方法中是怎么使用 Character.isLetterOrDigit() 方法来判断某个字符是字母还是数字的，或者是其他的（例如分号，引号等）。Character.isLetterOrDigit()方法检查对应的unicode characters 是字母还是数字，并且不仅仅用在英语上，也可以用于其他语言。关于这个方法和其他的一些类似的方法的更详细的描述，可以参考：Characeter Methods 。

句子边界
对于特定语言的句子边界，需要创建一个BreakIterator 针对那种语言的句子边界实例：

Locale locale = Locale.UK;
BreakIterator breakIterator =BreakIterator.getSentenceInstance(locale);

以上代码创建了一个针对英国英语的 BreakIterator 句子实例。
以下示例查找英语文本中的句子边界：

Locale locale = Locale.UK;
BreakIterator breakIterator =BreakIterator.getSentenceInstance(locale);breakIterator.setText("Mary had a little Android device. " +"It had small batteries too.");int boundaryIndex = breakIterator.first();
while(boundaryIndex != BreakIterator.DONE) {System.out.println(boundaryIndex) ;boundaryIndex = breakIterator.next();
}

行边界
也可以查找某段文本中的新行而不中断文本的阅读。这个时候需要一个拥有用于侦探潜在的行边界的BreakIterator 实例。注意：这并不能找到直接的行断点，而是潜在的行断点。找到潜在的行中断是需要把文本划分成多行显示的时候相当有用，即使这段文本不包括任何显示的分行。以下是一个创建这个的 BreakIterator 实例的例子：

Locale locale = Locale.UK;
BreakIterator breakIterator =BreakIterator.getLineInstance(locale);

这个例子创建一个拥有英式英语的潜在的行分割通用的 BreakIterator 实例。

下面的例子用于查找潜在的行分割：

Locale locale = Locale.UK;
BreakIterator breakIterator =BreakIterator.getLineInstance(locale);breakIterator.setText("Mary had a little Android device.\n " +"It had small batteries too.");int boundaryIndex = breakIterator.first();
while(boundaryIndex != BreakIterator.DONE) {System.out.println(boundaryIndex) ;boundaryIndex = breakIterator.next();
}

Java国际化：BreakIterator相关推荐

java 国际化_Java国际化基础
关于本教程本教程是关于什么的? 本教程向您介绍Java编程语言对多语言和多国家/地区环境的支持. 本课程首先对国际化原则和概念进行一般性讨论,然后继续对Java国际化支持的特定领域进行概述. 最后几 ...
JAVA国际化教程【转载】
JAVA国际化教程1.关于本教程 2.简介 3.Java平台I18N支持概述 4.Unicode与Java字符 5.提供本地化的资源 6.使用日期.数字和货币 7.将各部分放到一起 8.结束语与参考资 ...
java国际化——资源包
[0]README 1) 本文部分文字描述转自 core java volume 2 , 旨在理解 java国际化--资源包的基础知识 : 2) 本文源代码idea 转自: (利用propertie ...
java国际化——消息格式化+文本文件和字符集
[0]README 1) 本文部分文字描述转自 core java volume 2 , 测试源代码均为原创, 旨在理解 java国际化--消息格式化+文本文件和字符集的基础知识 : 2) 由于本文 ...
java国际化——日期和时间+排序
[0]README 1) 本文部分文字描述转自 core java volume 2 , 测试源代码均为原创, 旨在理解 java国际化--日期和时间+排序的基础知识 : [1]日期和时间 1)当格 ...
java国际化——Locale+数字格式
[0]README 1) 本文部分文字描述转自 core java volume 2 , 测试源代码均为原创, 旨在理解 java国际化--Locale+数字格式的基础知识 : 2) java 编程 ...
Java国际化概念和使用介绍
国际化是商业软件系统的一个基本要求,因为当今的软件系统需要面对全球的浏览者.国际化的目的就是根据用户的语言环境的不同向用户输出与之相应的页面,以示友好. 程序国际化已成为 Web 应用的基本要求.随着 ...
java国际化英语的标识符_（转）Java 国际化
1. Java国际化简介 Java既然作为一个跨平台的语言就必然要在各种不同的语言环境中使用, 为了解决这个问题Java给我们提供了一个工具类ResourceBundle, 帮助我们实现Java的国际 ...
java国际化程序_Java 国际化标准程序实现
国际化程序实现所谓的国家化应用指的就是根据当前的语言环境读取指定的语言资源文件. 如果要想实现国际化的操作,那么首先要解决的问题就是如何读取资源文件的问题:所谓的资源文件就是指文件后缀名称为:&q ...

Java国际化：BreakIterator

Java国际化：BreakIterator相关推荐

最新文章

热门文章