1:从http://pinyin.sogou.com/dict/下载选择的细胞词库

2:用深蓝词库转换工具提取出txt文本

3:用ultraedit将txt文本保存为无bom utf-8格式,dos换行

4:在solr的WEB-INF下创建classes目录

5:将utf-8格式的txt词库拷贝到solr的WEB-INF/classes目录

6:在WEB-INF/classes创建IKAnalyzer.cfg.xml,内容:

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
        <comment>IK Analyzer ????</comment>
        <!--????????????????
        <entry key="ext_dict">/mydict.dic;</entry>
        -->
         <!--???????????????????-->
        <entry key="ext_dict">/mydict.dic;</entry>
        <entry key="ext_stopwords">/ext_stopword.dic</entry>

</properties>

IK-analyzer添加搜狗词库相关推荐

  1. ibus添加搜狗词库

    安装方法:http://forum.ubuntu.org.cn/viewtopic.php?f=8&t=252407 词库地址:http://code.google.com/p/hslinux ...

  2. Ibus增加搜狗词库

    现在是12.04系统了.安装完系统,更新语言支持. ibus词库太小,可以使用搜狗词库: 搜狗词库下载地址:http://hslinuxextra.googlecode.com/files/andro ...

  3. 搜狗词库爬虫(2):基础爬虫框架的运行流程

    系列目录: 搜狗词库爬虫(1):基础爬虫架构和爬取词库分类 项目Github地址:github.com/padluo/sogo- 各模块对应的内容如下: getCategory.py,提取词库分类ID ...

  4. python读取文本两个数字的成语_只要2步!将搜狗词库(scel)转为Python可读的文本...

    该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 将搜狗词库(scel)转化为python可读的文本(text)的方法方法 1. 利用R语言(方法简单) ① 载入词库(R语言) library(Rword ...

  5. Python:文本分析必备—搜狗词库

    全文阅读:Python:文本分析必备-搜狗词库| 连享会主页 目录 1. 引言 2. 词典的妙用 3. 搜狗词库的下载 3.1 抓取12个页面链接 3.2 爬取所有词库名称和下载链接 3.3 下载细胞 ...

  6. 搜狗词库scel格式转为txt格式(python3版本)

    1.想用搜狗的词库来辅助jieba分词,需要把词库从scel转成txt格式. 在网上找到了大神的python2版本,https://blog.csdn.net/zhangzhenhu/article/ ...

  7. 将搜狗词库.scel格式转化为.txt格式

    [2020年5月28日更新:有一说一,这篇文章是我2017年底在新浪工作时处理家居.房产频道相关业务时的实践,代码是后来从自己代码库直接粘贴的,当然转码部分的代码是借鉴的,当时也是查阅了几种方法,一一 ...

  8. visual studio输入法打不了中文_目前比较满意的手机输入法方案:Gboard + 搜狗词库...

    输入法是手机必备的APP了,选择一款好的输入法能提高你的文字输入体验,雷锋哥从最开始用的是「谷歌拼音」简洁 UI 界面,支持 "滑行输入" 方式,用手指滑动键盘打字,比一个一个点击 ...

  9. PHP高性能输出UNICODE正则汉字列表 汉字转拼音多音字解决方案 搜索引擎分词细胞词库更新 搜狗词库提取TXT...

    为什么80%的码农都做不了架构师?>>>    目前现状 汉字转拼音 难度大就大在 多音字!行业上较准确的是基于词语.成语的识别.搜狗有1万多词库 每个词库又很大: 比如: 了 我们 ...

最新文章

  1. spark指定python版本_如何将正常的Python应用程序正确转换为PySpark版本
  2. CSS导航条菜单:带小三角形
  3. (视频+图文)机器学习入门系列-第1章 引言
  4. 将数字字符串转换成逗号分隔的数字串,即从右边开始每三个数字用逗号分隔
  5. 微信lbs开发 php,【LBS】基于地理位置的搜索之微信 附近的人 简单实现
  6. linux中su命令源码,Linux-命令-su
  7. 【51单片机快速入门指南】4.3.2: MPU6050:一阶互补滤波、二阶互补滤波和卡尔曼滤波获取欧拉角
  8. socket 请求Web服务器过程
  9. UI素材|网站404页面有什么用处
  10. 64位双系统Ubuntu 14.04 LTS + Caffe + CUDA 7.5 + Opencv 3.0 安装配置实战
  11. 从零开始的泡泡龙游戏
  12. FX5U程序框架模板(10轴) 程序采用梯形图+ST语言写的 RS485通信
  13. 三星矫情,重温Galaxy S5发布会收买人心
  14. 云平台短信验证码通知短信java/php/.net开发实现
  15. Python---第8天---字符串
  16. TF-IDF 算法详解及 Python 实现
  17. 微信公众号身份证OCR识别和验真|人证比对
  18. luogu P4961 小埋与扫雷
  19. 免费关键词挖掘工具-python关键词挖掘工具源码
  20. C# 自制OCR获取图片中的电子数字

热门文章

  1. 天干地支(python)
  2. JSP与JavaScript交互之(一)成绩信息输入的奖学金评定
  3. 光猫灯显示正常但是报651错误解决办法
  4. laravel阿里SDK对接
  5. 【笔经攒人品】上海农商银行
  6. 逻辑运算符(logical operator)
  7. 最有效防电脑辐射方法
  8. dom4j读取http xml文件
  9. AspectJ AOP的使用(@Before、@PointCut、@Around等)
  10. 外贸工具saas 关于外贸管理软件