面向中文自然语言处理的60余类系统开源实践项目与工业探索索引
项目介绍
面向中文自然语言处理的六十余类实践项目及学习索引,涵盖语言资源构建、社会计算、自然语言处理组件、知识图谱、事理图谱、知识抽取、情感分析、深度学习等几个学习主题。包括作者个人简介、学习心得、语言资源、工业落地系统等,是供自然语言处理入门学习者的一个较为全面的学习资源,欢迎大家使用,并提出批评意见。
项目地址: liuhuanyong.github.io
工业项目
项目类型 | 中文名称 | 技术点 |
---|---|---|
技术博客 | 技术落地与探索博客 | 技术博客、技术探索与应用实践 |
技术公众号 | 数地工场技术文章 | 面向事理图谱、知识库构建、社会计算等技术落地探索 |
现代打油诗集 | 现代诗集《听说》 | 65首现代诗集,打油诗 |
自然语言处理语义平台 | 数地工场 | 信息抽取、舆情分析、语义计算、信息采集类、问句解析类api |
7*24小时实时抽象事理学习、搜索与关联推理系统 | 学迹 | 实证学习,信息检索、问答搜索,知识推理 |
寻链系统 | 事理图谱Demo | 前因后果模式的搜索展示 |
全行业实例事理搜索与关联推理系统 | 数地搜搜 | 实时系统,事理应用,事件追踪,事件检索 |
在工业落地过程中与业界共享的图谱数据 | 开放知识图谱资源 | 知识库数据,知识图谱,开放共享 |
实践项目
学习心得
项目名称 | 中文名称 | 项目技术点 |
---|---|---|
KnowledgeGraphSlides | 知识图谱CCKS会议报告合集(2013-2018) | 知识图谱, 学习资源 |
CCKS2018Summary | CCKS2018会议总结 | 知识图谱,个人心得 |
CCL2018Summary | CCL2018参会总结 | 自然语言处理,心得 |
语言资源构建
项目名称 | 中文名称 | 项目技术点 |
---|---|---|
ChineseSemanticKB | 中文处理的12类、百万规模的语义常用词典 | 中文处理的12类、百万规模的语义常用词典,支持句子扩展、转写、事件抽象与泛化 |
MiningZhiDaoQACorpus | 知道类问答社区数据集 | 语言资源库,语料库,580万问题,983万问答对 |
CausalCollocation | 频繁因果词对库 | 语言资源库,因果对 |
ChineseNLPCorpus | 中文自然语言处理处理用语言资源 | 语言资源库,语义库,常用词典, 语言资源观, 语料库 |
SentimentWordExpansion | 情感词扩展 | SOPMI |
BaikeInfoExtraction | 百科信息抽取 | Urllib,xpath |
SougouWordCollector | 搜狗词库自动构建 | Urllib,Scrapy |
BaikeKnowledgeSchema | 百科知识体系构建 | Urllib,xpath,递归,知识库本体概念 |
自然语言处理基本组件
项目名称 | 中文名称 | 项目技术点 |
---|---|---|
WordSegment | 分词 | HMM, MAXCUT,Ngram |
HuanNLP | 自然语言处理组件 | HMM, maxent, CRF |
Pinyin2Chinese | 拼音转文字 | Trie树,HMM, bigram |
QueryCorrection | 查询纠错 | edit-distance |
ChineseCixing | 中文词形查询 | 字形,音形 |
ChineseAntiword | 中文反义词查询 | 反义词 |
信息抽取
项目名称 | 中文名称 | 项目技术点 |
---|---|---|
WordMultiSenseDisambiguation | 中文多义词词义消歧 | 百科知识库,词义语义表示,词义语义相似度计算 |
TextFeatureExtraction | 文本特征提取 | IG,CHI ,DF,MI |
WordCollocation | 搭配抽取 | MI |
KeyInfoExtraction | 关键信息提取 | TFIDF,TextRank |
EventTriplesExtraction | 事件三元组提取 | dependency parser |
知识图谱与事理图谱
项目名称 | 中文名称 | 项目技术点 |
---|---|---|
EventKGNELL | 学迹事理实时知识库终身学习 | 事件知识库,实时学习,事件概念,事理逻辑,语言资源 |
AbstractKnowledgeGrap | 抽象知识图谱 | 抽象知识图谱,抽象实体,抽象状态,抽象动作 |
GoodsKG | 电商商品概念与销售知识图谱 | 商品概念,商品类知识 |
ZhidaoChatbot | 基于问答社区的逻辑知识问答 | 问答社区,逻辑问答 |
EventPredictBasedOnEG | 基于事理图谱的未来事件预测 | 事理图谱,事件预测 |
QAonMilitaryKG | 军事知识图谱与问答项目 | 知识图谱,军事,基于模板问答方式 |
TravelKnowledgeGraph | 出行知识图谱 | 路径规划,推荐,知识模型 |
PersonRelationKnowledgeGraph | 中文人物关系图谱 | bootstrapping, 远程监督, 训练数据回标, 关系抽取 |
CrimeKgAssitant | 法律罪行智能助手 | 知识图谱, 智能预判, 自动问答 |
QASystemOnKG | 医疗知识图谱与自动问答 | 知识图谱构建及自动问答 |
ComplexEventExtraction | 复合事件图谱 | 复合事件,条件事件、反转事件抽取 |
CausalityEventExtraction | 因果事件图谱 | 因果图谱,因果事件抽取 |
SequentialEventExtration | 顺承事件图谱 | 动宾短语提取,事件图谱 |
LanguageKnowledgeGraph | 语言政策知识图谱 | Neo4j,Echarts,D3js |
HyponymyExtraction | 上下位关系图谱 | 模式匹配,上下位概念表示 |
MusicLyricChatbot | 歌词对对碰 | es搜索,歌词知识库 |
文本挖掘与社会计算
项目名称 | 中文名称 | 项目技术点 |
---|---|---|
IdealWordCloudKit | 自定义形状词云项目 | wordcloud, tfidf, 可视化 |
WeiboIndexSpyder | 微博指数采集 | selenium,xpath |
BaiduIndexSpyder | 百度指数采集 | xpath,selenium |
AliIndexSpyder | 阿里指数采集 | selenium,xpath |
DocSentimentAnalysis | 基于句法依存的情感分析 | Template, Dependencyparser |
LearningBasedSentiment | 基于深度学习的情感分析 | CNN,RNN,ML |
TextGrapher | 文本结构化图谱表示 | EventExtraction,知识表示 |
ImportantEventExtractor | 文本重要性计算 | textrank |
ZhuguanDetection | 文本主观性计算 | subjective knowledge base |
SentenceSimilarity | 句子相似度计算 | distance, hash, haiming ,eidtdistance |
TopicCluster | 文本话题聚类 | LDA,Kmeans |
EventMonitor | 特定事件追踪 | 新闻采集,事件监测架构,scrapy |
PoemMining | 中国古代诗词挖掘 | 语料库构建,文本挖掘 |
LawCrimeMining | 司法文本挖掘 | 语料库构建,文本挖掘 |
ChineseHumorSentiment | 中文幽默情绪计算 | 语料库构建,幽默分类与情绪计算 |
LanguagePlatform | 集成自然语言处理技术的语言平台 | Neo4j,Echarts,Django |
深度学习与语义表示
项目名称 | 中文名称 | 项目技术点 |
---|---|---|
ChineseTextualInference | 中文文本蕴含/推理 | Textual entailment, keras, 文本分类 |
SiameseSentenceSimilarity | siamese相似问句匹配 | siamese lstm network, keras, 文本分类 |
MedicalNamedEntityRecognition | 中文电子病例命名实体识别 | keras, bi-lstm-crf |
ChineseEmbedding | 中文向量大全(字符向量、词向量、拼音向量、依存向量、词性向量) | SKIP-GRAM,Co-Matrix |
Word2Vector | 词向量表示 | CBOW, SKIP-GRAM,Co-Matrix |
Sentence2Vector | 句子向量表示 | CBOW |
Seq2SeqTranslation | 端到端的翻译模型 | keras, lstm |
作者简介
刘焕勇, Liu Huanyong,2017年硕士毕业,目前就职于中国科学院软件研究所,专注金融、情报两大领域,从事事件抽取、事件演化、情感分析、事理(知识)图谱、常识推理、语言资源构建与应用等研发工作。目前主持研发自然语言处理技术开放平台数地工场、大规模实时事理知识学习系统学迹、全行业因果链查询与溯源项目寻链系统,并在智能金融、智能情报落地中负责实施了多个项目。致力于面向中文处理的基础知识库建设与理论技术开源共享,目前累计对外开放自然语言处理实践项目六十余个,在openkg开放知识图谱联盟中开放工业应用知识库七类,主笔数地工场技术类系列文章二十余篇。
邮箱:lhy_in_blcu@126.com
地址:北京市海淀区中关村南四街4号
github:https://github.com/liuhuanyong
相关文章:
- 爬取热门网站的热榜,集中展示
- Kubernetes 1.20 版本开始将弃用 Docker,是时候拥抱 Containerd 和 Podman 了!
- 科大讯飞2020完整事件抽取系统(bert+数据集)
- 数据稀疏、结构复杂,事件抽取面临的挑战该如何应对?
- 如何恢复在 PyCharm 中误删的整个项目文件
- pytorch-pretrained-bert的模型下载慢的问题
- 解决cuda版本与pytorch版本不兼容问题
- Github上有趣的100个python项
- logging.getLogger(logger)
- 【python】详解类class的继承、__init__初始化、super方法
- 关于python中带下划线的变量和函数 的意义,class类带一个下划线和带两个下划线的定义
- Pytorch与tensorflow模型转换
- 机器学习常用的算法整理:线性回归、逻辑回归、贝叶斯分类、支持向量机、K-means聚类、决策树、随机森林以及常用的应用场景整理
- from torchcrf import CRF
- Python 捕获异常
- 维多利亚的秘密 2005-2018年视频合集
- 超详细中文注释的GPT2新闻标题生成项目
- 事实感知的生成式文本摘要
- Python3中遇到UnicodeEncodeError: ‘ascii‘ codec can‘t encode characters in ordinal not in range(128)
- NLP事件抽取综述(上中下):中文事件抽取、开放域事件抽取、事件数据生成、跨语言事件抽取、小样本事件抽取、零样本事件抽取等类型
- NLP-美团技术团队(搜索-推荐-召回排序-Bert)
- 一文盘点PaddlePaddle官方九大自然语言处理模型
- bert模型简介、transformers中bert模型源码阅读、分类任务实战和难点总结
- PDFMiner:python 读取 pdf 内容
- python库Camelot从pdf抽取表格数据以及python库camelot安装及使用中的一些注意事项
- PDFPlumber使用入门+python实现PDF中表格转化为Excel的方法
- 阿里云开源EasyTransfer:业界首个面向NLP场景深度迁移学习框架
- 如何解决NLP分类任务的11个关键问题:类别不平衡低耗时计算小样本鲁棒性测试检验长文本分类 JayLou娄杰
- 百度一口气亮出NLP十年积累:完整技术布局全面披露,面向业界砸下11项七夕大礼
- python实现大批量pdf格式论文的重命名与目录制作功能
面向中文自然语言处理的60余类系统开源实践项目与工业探索索引相关推荐
- N-LTP:基于预训练模型的中文自然语言处理平台
2021-05-03 18:12:52 论文名称:N-LTP: A Open-source Neural Chinese Language Technology Platform with Pretr ...
- 【NLP】N-LTP:基于预训练模型的中文自然语言处理平台
论文名称:N-LTP: A Open-source Neural Chinese Language Technology Platform with Pretrained Models 论文作者:车万 ...
- 赛尔原创 | N-LTP:基于预训练模型的中文自然语言处理平台
论文名称:N-LTP: A Open-source Neural Chinese Language Technology Platform with Pretrained Models 论文作者:车万 ...
- 基于PaddleRec的用户点击率预测
基于PaddleRec的用户点击率预测 一.前言 推荐系统的痛点 二.推荐系统的数据获取 获取数据的三种方法 1.使用现成的数据集 2.网络爬虫 3.调查问卷 三.数据处理 PaddleRec推荐数据 ...
- 2020年8个效率最高的爬虫框架
一些较为高效的Python爬虫框架.分享给大家. 1.Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中 ...
- ChineseSemanticKB,面向中文处理的12类、百万规模的语义常用词库存
ChineseSemanticKB ChineseSemanticKB,chinese semantic knowledge base, 面向中文处理的12类.百万规模的语义常用词典,包括34万抽象语 ...
- 实在智能参与中文自然语言理解评价标准体系(CLUE)阶段性进展回顾
「实在智能」简介 「实在智能」(杭州实在智能科技有限公司)是一家人工智能科技公司,聚焦大规模复杂问题的智能决策领域,通过AI+RPA技术打造广泛应用于各行业的 智能软件机器人,即"数字员工& ...
- 技术动态 | TechKG:一个面向中文学术领域的大型知识图谱
作者:东北大学-知识图谱研究组 任飞亮 TechKG 是一个面向中文.面向学术.多领域的大型知识图谱知识库,知识库由"东北大学-知识图谱研究组"开发完成.和已有知识图谱如 Fre ...
- 介绍几个专门面向中文的命名实体识别和关系抽取工具
知识图谱已经在人工智能的各个领域发挥越来越重要的作用,例如视觉问答.对话系统.推荐系统等.知识图谱构建是应用这些知识图谱的基础,而面对生活和企业中数据的爆发式增长,自动化知识图谱构建显得越来越重要.从 ...
最新文章
- 基于Mixin Network的PHP比特币开发教程 之一:创建机器人
- asp.net MVC 过滤器使用案例:统一处理异常顺道精简代码
- 必看 | VLAN划分和网络配置实例
- 微信无法连接到服务器(110087)),110087无法连接网络是什么意思
- 高温保护_【美的空调维修案例】P2压缩机高温保护 不定时出现P1过欠压保护...
- 家乐福举报山姆涉嫌“二选一”背后 会员店需要的不是模仿能力
- Hadoop2.2.0 + HBase0.96 伪分布式安装
- python中的__file__、os.path.realpath(__file__)、os.path.dirname(os.path.realpath(__file__))
- 房地产项目成本管理系统包含的内容和价值!
- 什么是3D打印?游戏建模具体怎么做?哪个更有发展
- 服务器安装黑苹果系统,黑苹果 单系统安装教程
- 速记软考之木马和病毒
- 白鹭引擎 android9,【安卓】手把手教你Egret引擎一键发布华为快游戏
- 提升 Docker Desktop For macOS 磁盘使用率
- x86服务器与arm服务器
- UVA 1471 Defense Lines 单调队列优化
- 厦门这个隐藏的高逼格智慧园区终于被扒出来了
- 黑马程序员 面向对象总结2
- Scrapy问题总结
- 设置键盘一键打开网易云音乐
热门文章
- 工作项跟踪管理系统需求
- 在window下搭建TensorFlow
- Cortex M3 NVIC与中断控制
- C小项目——电子词典
- WritePrivateProfileString等读写.ini配置文件
- _一文让你透彻理解Linux的SOCKET编程(含实例解析)
- python 默认参数_有趣的 Python 特性 3 | 当心默认可变参数这个大猪蹄子。
- 指令系统 CISC和RISC(详解)
- Chapter1-6_Speech_Recognition(RNN-T Training)
- 天池 在线编程 数组游戏