科大讯飞语音识别技术实（yuan）战（ma）小结

1.准备工作

1.1 开通讯飞开放平台账号

https://www.xfyun.cn/

可以领取免费套餐：https://www.xfyun.cn/free

1.2 下载语音处理类库TarsosDSP

https://0110.be/releases/TarsosDSP/TarsosDSP-2.4/TarsosDSP-2.4.jar

建议发布到maven仓库，便于集成。参考命令（本地安装）：

mvn install:install-file -Dfile=F:\tarsosdsp\TarsosDSP-2.4.jar -DgroupId=be.tarsos -DartifactId=dsp -Dversion=2.4 -Dpackaging=jar

POM文件添加依赖：

        <dependency><groupId>be.tarsos</groupId><artifactId>dsp</artifactId><version>2.4</version></dependency>

1.3 下载媒体处理软件ffmpeg

科大讯飞的接口不支持AMR等格式的音频文件，需要转换为PCM格式，因此需要使用功能强大的ffmpeg进行转码。为简化ffmpeg的使用，我们将利用TarsosDSP类库。TarsosDSP类库会在指定位置启动ffmpeg命令，我们预先下载好，可以避免TarsosDSP类库动态下载ffmpeg导致的长时间等待。

ffmpeg下载地址：

https://0110.be/releases/TarsosDSP/TarsosDSP-static-ffmpeg/linux_64_bits_ffmpeg

https://0110.be/releases/TarsosDSP/TarsosDSP-static-ffmpeg/windows_64_bits_ffmpeg.exe

win7下的存储路径：

C:\Users\<你的用户名>\AppData\Local\Temp\windows_64_bits_ffmpeg.exe

linux下的存储路径：

/tmp/linux_64_bits_ffmpeg

-------------------------------------------------------- 华丽的分割线 ------------------------------------------------------------

下面都是干（yuan）货（ma）。

2. 定义一个音频转换处理工具类

我们首先定义一个音频转换处理的工具类，用于将任意格式的音频文件转换为科大讯飞接口支持的PCM格式。

工具类主体代码：

@Slf4j
public class AudioTransformUtil {/*** 将任意的音频文件转换为PCM格式的文件*/public static void convertAudioFileToPCM(String originalFile, String targetFile) {try {double speedFactor = 1; // 变速率 (0,2) 大于1为加快语速，小于1为放慢语速double rateFactor = 1; // 音调变化率 (0,2) 大于1为降低音调（深沉），小于1为提升音调（尖锐）// 变声处理器（似乎不是必要的功能，但具有令人惊奇的效果）WaveformSimilarityBasedOverlapAdd waveformSimilarityBasedOverlapAdd = new WaveformSimilarityBasedOverlapAdd(WaveformSimilarityBasedOverlapAdd.Parameters.speechDefaults(speedFactor, 8000));  // 8000是采样率，不懂啥意思，但也没影响AudioDispatcher dispatcher = AudioDispatcherFactory.fromPipe(originalFile, 8000,   // fromPipe是关键。这里会启动ffmpeg命令进行转码，并使用管道(pipe)与ffmpeg命令通信waveformSimilarityBasedOverlapAdd.getInputBufferSize(),waveformSimilarityBasedOverlapAdd.getOverlap());waveformSimilarityBasedOverlapAdd.setDispatcher(dispatcher);AudioOutputToFile out = new AudioOutputToFile(targetFile);   // AudioOutputToFile是我们自定义的文件输出工具类，代码在后面dispatcher.addAudioProcessor(waveformSimilarityBasedOverlapAdd);dispatcher.addAudioProcessor(new RateTransposer(rateFactor));   // 变声处理器（似乎不是必要的功能，但具有令人惊奇的效果）dispatcher.addAudioProcessor(out);dispatcher.run();   // TarsosDSP类库会启动一个线程异步处理音频文件// 等待文件输出结束out.waitUntilDone();if (log.isDebugEnabled()) {log.debug("[convertAudioFileToPCM] ok. originalFile : " + originalFile + ", targetFile : " + targetFile);}} catch (Exception e) {String errMsg = "convertAudioFileToPCM failed. originalFile : " + originalFile;log.error(errMsg, e);}}

文件输出工具类代码：

public class AudioOutputToFile implements AudioProcessor {FileOutputStream target;String targetFile;boolean isDone = false;AudioOutputToFile(String targetFile) {try {this.targetFile = targetFile;target = new FileOutputStream(new File(targetFile));   // 初始化文件输出流} catch (Exception e) {String errMsg = "failed to create file : " + targetFile;log.error(errMsg, e);throw new RuntimeException(errMsg);}}@Overridepublic boolean process(AudioEvent audioEvent) {   // TarsosDSP类库每次处理完一部分音频数据就会调用此方法，我们将结果写入到输出流try {target.write(audioEvent.getByteBuffer(), 0, audioEvent.getByteBuffer().length);target.flush();if (log.isDebugEnabled()) {log.debug("[AudioOutputToFile] process ok. file : " + targetFile + ", length : "+ audioEvent.getByteBuffer().length);}} catch (IOException e) {String errMsg = "failed to write file : " + targetFile;log.error(errMsg, e);}return true;}@Overridepublic void processingFinished() {   // TarsosDSP类库在处理完整个音频文件时会调用此方法，我们将输出流关闭try {target.close();if (log.isDebugEnabled()) {log.debug("[AudioOutputToFile] processingFinished. file : " + targetFile);}} catch (IOException e) {String errMsg = "failed to close file : " + targetFile;log.error(errMsg, e);}isDone = true;}public void waitUntilDone() {   // 我们用一个简陋的方法等待TarsosDSP类库的异步处理过程while (!isDone) {try {Thread.sleep(10);} catch (InterruptedException e) {}}}}

我们可以用以下代码试听一下处理后的文件内容：

        // 播放目标文件FileInputStream fileInputStream = new FileInputStream(new File(targetFile));TarsosDSPAudioFormat format = new TarsosDSPAudioFormat(8000, 16, 1, true, false);AudioInputStream inputStream = new AudioInputStream(fileInputStream, JVMAudioInputStream.toAudioFormat(format),AudioSystem.NOT_SPECIFIED);JVMAudioInputStream stream = new JVMAudioInputStream(inputStream);AudioDispatcher dispatcher = new AudioDispatcher(stream, 1024, 0);dispatcher.addAudioProcessor(new AudioPlayer(format, 1024));dispatcher.run();

3. 定义一个语音识别工具类

POM加入netty依赖，用于与科大讯飞平台建立WebSocket通信。

        <!-- https://mvnrepository.com/artifact/io.netty/netty-all --><dependency><groupId>io.netty</groupId><artifactId>netty-all</artifactId></dependency>

主体代码：

@Component
@Slf4j
public class XFYunAudioRecognizer {...@Async("myAsyncServiceExecutor") // 语音识别过程耗时较长，建议使用线程池进行处理public void doRecognizeAsync(...) {// 使用netty建立连接EventLoopGroup eventLoopGroup = new NioEventLoopGroup();Bootstrap bootstrap = new Bootstrap();bootstrap.option(ChannelOption.SO_KEEPALIVE, true).option(ChannelOption.TCP_NODELAY, true).group(eventLoopGroup).handler(new LoggingHandler(LogLevel.INFO)).channel(NioSocketChannel.class).handler(new ChannelInitializer<SocketChannel>() {@Overrideprotected void initChannel(SocketChannel ch) throws Exception {ChannelPipeline pipeline = ch.pipeline();pipeline.addLast(new ChannelHandler[] { new HttpClientCodec(),new HttpObjectAggregator(1024 * 1024 * 10) });pipeline.addLast("hookedHandler", new XFYunWebSocketClientHandler());   // XFYunWebSocketClientHandler是自定义的WebSocket客户端处理器，代码在后面}});FileInputStream fileInputStream = null;try {// 初始化连接参数URI serverURI = generateURI();  // generateURI方法按照科大讯飞的接口文档要求，在URL后面拼接各种鉴权参数，代码在后面HttpHeaders httpHeaders = new DefaultHttpHeaders();int port = serverURI.getPort();if (port < 0) {if (xfyunAudioRecognizerAddress.startsWith("https")) {   // xfyunAudioRecognizerAddress是科大讯飞接口地址。例如：ws://iat-api.xfyun.cn/v2/iatport = 443;} else {port = 80;}}final Channel channel = bootstrap.connect(serverURI.getHost(), port).sync().channel();// 初始化处理器XFYunWebSocketClientHandler handler = (XFYunWebSocketClientHandler) channel.pipeline().get("hookedHandler");handler.setXXX();  // 设置自定义的WebSocket客户端处理器各种属性，具体按需求调整handler.setYYY();// 握手WebSocketClientHandshaker handshaker = WebSocketClientHandshakerFactory.newHandshaker(serverURI,WebSocketVersion.V13, (String) null, true, httpHeaders);handler.setHandshaker(handshaker);handshaker.handshake(channel);handler.getHandshakeFuture().sync();if (log.isDebugEnabled()) {log.debug("connected to : " + serverURI);}// 获取音频文件内容String originalFilePath = xxx(); // 根据具体情况，获取原始音频文件完整路径String filePath = originalFilePath + "-convert.pcm";  // 转换为PCM格式后的音频文件存储全路径// 原始音频转换为PCM格式AudioTransformUtil.convertAudioFileToPCM(originalFilePath, filePath);  // 此处用到上面的工具类// 下面的代码用于封装科大讯飞请求数据包，有点丑，可按需要优化fileInputStream = new FileInputStream(new File(filePath));int frameSize = 1280; // 每一帧音频大小的整数倍 TODO 根据音频文件格式调整int intervel = 40; // 两个数据包间隔，单位：毫秒String format = "audio/L16;rate=8000"; // TODO 支持更多格式String encoding = "raw"; // TODO 支持更多格式byte[] buffer = new byte[frameSize];JSONObject req = new JSONObject();JSONObject common = new JSONObject();common.put("app_id", xfyunAppId);    // 讯飞开放平台申请的APPIDJSONObject business = new JSONObject();business.put("language", "zh_cn");business.put("domain", "iat");business.put("accent", "mandarin");JSONObject data = new JSONObject();data.put("status", 0); // 第一帧音频data.put("format", format);data.put("encoding", encoding);// 准备第一帧数据int size = fileInputStream.read(buffer);byte[] sendBytes = null;if (size < frameSize) {sendBytes = new byte[size];System.arraycopy(buffer, 0, sendBytes, 0, size);} else {sendBytes = buffer;}String audio = new String(Base64Util.encode(sendBytes));   // Base64Util是将原始byte数组转换为base64编码的工具类，可自行百度data.put("audio", audio);req.put("common", common);req.put("business", business);if (log.isDebugEnabled()) {log.debug("req without data : " + req.toJSONString());}req.put("data", data);// 发送第一帧TextWebSocketFrame textFrame = new TextWebSocketFrame(req.toJSONString());channel.writeAndFlush(textFrame);req = new JSONObject();data.put("status", 1); // 中间音频req.put("data", data);while ((size = fileInputStream.read(buffer)) > 0) {// 发送后续帧Thread.sleep(intervel);   // 按照科大讯飞接口文档要求，每两帧之间适当等待，防止识别效果出问题sendBytes = null;if (size < frameSize) {sendBytes = new byte[size];System.arraycopy(buffer, 0, sendBytes, 0, size);} else {sendBytes = buffer;}audio = new String(Base64Util.encode(sendBytes));data.put("audio", audio);textFrame = new TextWebSocketFrame(req.toJSONString());channel.writeAndFlush(textFrame);}// 发送结束帧Thread.sleep(intervel);data = new JSONObject();data.put("status", 2); // 结束帧req.put("data", data);textFrame = new TextWebSocketFrame(req.toJSONString());channel.writeAndFlush(textFrame);} catch (Exception e) {String errMsg = "doRecognize failed : " + e.getMessage();log.error(errMsg, e);} finally {if (null != fileInputStream) {try {fileInputStream.close();} catch (Exception e2) {}}}
}

URL拼接方法：

private URI generateURI() throws UnsupportedEncodingException, URISyntaxException {URI tmp0 = new URI(xfyunAudioRecognizerAddress);  // 原始的科大讯飞语音识别接口地址，例如：ws://iat-api.xfyun.cn/v2/iatStringBuffer stringBuffer = new StringBuffer();stringBuffer.append(xfyunAudioRecognizerAddress).append("?authorization=");   // 准备拼接authorization参数String date = timeUtil.timeToGMTString(new Date());  // timeUtil是自定义的时间转换工具，此处将当前时间转换为GMT格式字符串。实现方法参考：String GMT_TIME_FORMAT = "EEE, dd MMM yyyy HH:mm:ss 'GMT'";StringBuffer tmp1 = new StringBuffer();tmp1.append("host: ").append(tmp0.getHost()).append("\ndate: ").append(date).append("\nGET ").append(tmp0.getPath()).append(" HTTP/1.1");if (log.isDebugEnabled()) {log.debug("tmp1 : " + tmp1.toString());}String signature = EncryptUtil.hmacSHA256(tmp1.toString(), xfyunAPISecret); // EncryptUtil是自定义的加密工具，此处将tmp1按照"HmacSHA256"算法加密，并返回base64编码结果，可自行百度；xfyunAPISecret是讯飞平台申请的APISecretif (log.isDebugEnabled()) {log.debug("signature : " + signature);}StringBuffer tmp2 = new StringBuffer();tmp2.append("api_key=\"").append(xfyunAPIKey)   // xfyunAPIKey是讯飞平台申请的APIKey.append("\",algorithm=\"hmac-sha256\",headers=\"host date request-line\",signature=\"").append(signature).append("\"");if (log.isDebugEnabled()) {log.debug("tmp2 : " + tmp2.toString());}String authorization = new String(Base64Util.encode(tmp2.toString().getBytes("UTF-8")));   // Base64Util是自定义的base64编解码工具，可自行百度stringBuffer.append(authorization).append("&date=").append(URLEncoder.encode(date, "UTF-8")).append("&host=").append(tmp0.getHost());  // 注意对date的处理，这里要防止date中空格符等影响URL的解析if (log.isDebugEnabled()) {log.debug("stringBuffer : " + stringBuffer.toString());}String encodedURL = stringBuffer.toString();if (log.isDebugEnabled()) {log.debug("encodedURL : " + encodedURL);}return new URI(encodedURL);}

自定义的WebSocket客户端处理器：

@Data
@EqualsAndHashCode(callSuper = false)
@Slf4j
public class XFYunWebSocketClientHandler extends SimpleChannelInboundHandler<Object> {...WebSocketClientHandshaker handshaker;/*** 语音识别返回文本*/StringBuffer resultBuffer = new StringBuffer();@Overrideprotected void channelRead0(ChannelHandlerContext ctx, Object msg) throws Exception {Channel ch = ctx.channel();FullHttpResponse response = null;if (!this.handshaker.isHandshakeComplete()) {  // 处理握手的响应数据try {response = (FullHttpResponse) msg;// 握手协议返回，设置结束握手this.handshaker.finishHandshake(ch, response);// 设置成功this.handshakeFuture.setSuccess();if (log.isDebugEnabled()) {log.debug("WebSocket Client connected! response headers[sec-websocket-extensions]:{}",response.headers());}} catch (WebSocketHandshakeException e) {FullHttpResponse res = (FullHttpResponse) msg;String errMsg = String.format("WebSocket Client failed to connect,status:%s,reason:%s", res.status(),res.content().toString(CharsetUtil.UTF_8));log.error(errMsg, e);this.handshakeFuture.setFailure(new Exception(errMsg));}} else if (msg instanceof FullHttpResponse) {  // 收到未知的数据包response = (FullHttpResponse) msg;String errMsg = "Unexpected FullHttpResponse,status:" + response.status() + ",reason:"+ response.content().toString(CharsetUtil.UTF_8);log.error(errMsg);} else {WebSocketFrame frame = (WebSocketFrame) msg;if (frame instanceof TextWebSocketFrame) {   // 科大讯飞的解析结果都是text类型（JSON）TextWebSocketFrame textFrame = (TextWebSocketFrame) frame;if (log.isDebugEnabled()) {log.debug("TextWebSocketFrame : " + textFrame.text());}dealWithText(textFrame.text());   // 处理解析结果，具体看下文} else if (frame instanceof BinaryWebSocketFrame) {  // 收到未知的数据包BinaryWebSocketFrame binFrame = (BinaryWebSocketFrame) frame;if (log.isDebugEnabled()) {log.debug("BinaryWebSocketFrame");}} else if (frame instanceof PongWebSocketFrame) {log.debug("WebSocket Client received pong");} else if (frame instanceof CloseWebSocketFrame) {log.debug("receive close frame");ch.close();}}}@Overridepublic void handlerAdded(ChannelHandlerContext ctx) {  // 由上层自动触发的回调this.handshakeFuture = ctx.newPromise();}/*** 处理讯飞返回的文本* * @param text*/private void dealWithText(String text) {try {JSONObject jsonObject = JSONObject.parseObject(text);   // 使用阿里的fastJSONint code = jsonObject.getIntValue("code");String message = jsonObject.getString("message");if (code != 0) {log.error("error! text : " + text);return;}JSONObject data = jsonObject.getJSONObject("data");JSONArray ws = data.getJSONObject("result").getJSONArray("ws");if (null != ws) {for (Object wObject : ws) {JSONArray cw = ((JSONObject) wObject).getJSONArray("cw");if (null != cw) {String word = ((JSONObject) cw.get(0)).getString("w");   // 只处理第一个词（识别结果中可能会有备选词语，简单起见无视之）if (StringUtils.isNoneBlank(word)) {resultBuffer.append(word);    // 拿到一个有效的词，拼接到返回结果中}}}}int status = data.getIntValue("status");if (2 == status) {// 结束帧，提交返回值... // 此处建议使用MQ将最终的结果返回给业务}} catch (Exception e) {log.error("unknown error" + text, e);}}
}