已获 AI小白入门 授权

之前整理了一份自己的Rank 4的解决方案,并开源了部分代码,原文链接:“达观杯”文本智能处理挑战赛,季军带你飞。这次分享一下朋友(NLP幼儿园)整理的"达观杯"文本智能处理挑战赛冠军的解决方案。

本文已获作者NLP幼儿园授权

竞赛背景

  • 2018年人工智能的发展在运算智能和感知智能已经取得了很大的突破和优于人类的表现。而在以理解人类语言为入口的认知智能上,目前达观数据自然语言处理技术已经可以实现文档自动解析、关键信息提取、文本分类审核、文本智能纠错等一定基础性的文字处理工作,并在各行各业得到充分应用。

  • 自然语言处理一直是人工智能领域的重要话题,而人类语言的复杂性也给 NLP 布下了重重困难等待解决。长文本的智能解析就是颇具挑战性的任务,如何从纷繁多变、信息量庞杂的冗长文本中获取关键信息,一直是文本领域难题。随着深度学习的热潮来临,有许多新方法来到了 NLP 领域,给相关任务带来了更多优秀成果,也给大家带来了更多应用和想象的空间。

  • 此次比赛,达观数据提供了一批长文本数据和分类信息,希望选手动用自己的智慧,结合当下最先进的NLP和人工智能技术,深入分析文本内在结构和语义信息,构建文本分类模型,实现精准分类。未来文本自动化处理的技术突破和应用落地需要人工智能从业者和爱好者的共同努力,相信文本智能处理技术因为你的算法,变得更加智能!

比赛网址

http://www.dcjingsai.com/common/cmpt/%E2%80%9C%E8%BE%BE%E8%A7%82%E6%9D%AF%E2%80%9D%E6%96%87%E6%9C%AC%E6%99%BA%E8%83%BD%E5%A4%84%E7%90%86%E6%8C%91%E6%88%98%E8%B5%9B_%E7%AB%9E%E8%B5%9B%E4%BF%A1%E6%81%AF.html

解决方案

最后附上小伙伴的gayhub:
https://github.com/ShawnyXiao/2018-DC-DataGrand-TextIntelProcess

如果喜欢该文章,可以点击下面的bar关注呀

往期推荐:

一大批历史精彩文章啦

干货 | 那些高产的学者都是怎样工作的?

高校里的你值得关注的最强大脑

近年来NLP在法律领域的相关研究工作

有偿征稿!


好文!必须点赞

达观杯文本智能处理挑战赛冠军解决方案相关推荐

  1. 【数据竞赛】“达观杯”文本智能处理挑战赛1

    一.数据竞赛简介 "达观杯"文本智能处理挑战赛 1.任务 建立模型通过长文本数据正文(article),预测文本对应的类别(class) 2.数据 传送门:链接: https:// ...

  2. “达观杯”文本智能处理挑战赛代码示例

    达观杯介绍: 类似kaggle的数据科学比赛,任何人可以参加 网址:http://www.dcjingsai.com/ 可以用支付宝实名注册 项目名称: "达观杯"文本智能处理挑战 ...

  3. 达观杯”文本智能处理挑战赛

    竞赛信息 1.网址 http://www.dcjingsai.com/common/cmpt/"达观杯"文本智能处理挑战赛_竞赛信息.html 2.任务 建立模型通过长文本数据正文 ...

  4. “达观杯”文本智能处理挑战赛,季军带你飞

    来自AI小白入门 前段时间和朋友何从庆(AI算法之心)等队友一起组队参加了这个比赛,本来以为小比赛人少,没想到参加的人会有几千人.最后我们队伍取得季军(4st/3131),虽有些许遗憾,但是也很荣幸认 ...

  5. “达观杯”文本智能处理挑战赛

         (本内容转载自公众号"科技与Python") 2018年人工智能的发展在运算智能和感知智能已经取得了很大的突破和优于人类的表现.而在以理解人类语言为入口的认知智能上,目前 ...

  6. 【数据竞赛】“达观杯”文本智能处理挑战赛2

    文章目录 一.TF_IDF原理 1.TF(item frequency) 2.逆向文件频率IDF(inverse document frequency) 3.TF-IDF 二.TF-IDF算法实现 1 ...

  7. 【数据竞赛】“达观杯”文本智能处理挑战赛4

    一.逻辑回归 逻辑回归(Logistic Regression, LR)是一种常用的处理两类分类问题的线性模型. 1.概率估计 LR 模型计算输入特征的加权和(加上偏差项),之后将中间结果输入 log ...

  8. 【数据竞赛】“达观杯”文本智能处理挑战赛3

    一.语言模型 在统计自然语言处理中,语言模型指的是计算一个句子的概率模型. 传统的语言模型 词的表示是原始的.面向字符串的. 向量角度:更高维.更稀疏的向量.若词汇表大小为 NNN,每个字符串形式的词 ...

  9. 【数据竞赛】“达观杯”文本智能处理挑战赛6——模型优化

    文章目录 一.超参数 1.网格搜索 2.随机搜索 3.贝叶斯优化 二.Stacking 1.核心图解 (1)构建新的训练集 (2)构建新的测试集 (3)最终的训练与预测 2.示例 (1)构建新的训练集 ...

  10. 【数据竞赛】“达观杯”文本智能处理挑战赛5

    一.LightGBM模型 1.XGBoost缺点 每轮迭代时,都需要遍历整个训练数据多次.如果把整个训练数据装进内存则会限制训练数据的大小:如果不装进内存,反复地读写训练数据又会消耗非常大的时间. 预 ...

最新文章

  1. LeetCode简单题之分割平衡字符串
  2. CSDN付费专栏写作感悟及成长之路、兼论学习会员模式的创作者协同效应
  3. 数据库字典php样色,使用PHP一键生成MySQL数据库字典
  4. Mozilla 宣布引入二步认证
  5. 15、MySQL运算符的优先级
  6. 笔记-信息系统安全管理-信息系统安全等级保护基本要求
  7. Flyweight Pattern简单随笔
  8. 征战蓝桥 —— 2013年第四届 —— C/C++A组第5题——前缀判断
  9. 数据结构java语言kmp_数据结构(java语言描述)模式匹配——KMP算法
  10. iPhone/iOS图片相关(读取、保存、绘制、其它相关)
  11. WPF 基础控件之 DatePicker 样式
  12. 廖雪峰--python教程:笔记四-函数式编程
  13. 为什么要打jar_为什么海带要打一个结?
  14. php怎么做群聊,workerman实现群聊
  15. 三菱plc编程软件gx-developer在win10中无法使用及工程无法建立解决方法
  16. DHI Mike 后处理工具——污染带面积、长度、宽度统计工具
  17. windows 环境下 0x色彩对应表
  18. gamit 10.71更新包更新内容 incremental_updates.20200501.tar.gz
  19. Zynga 在韩国发布游戏《Harry Potter: Puzzles Spells》
  20. form表单回车会自动提交

热门文章

  1. 做一款仿映客的直播App
  2. 视频分享:做“有料”的计算机大学生
  3. 从研发角度谈存储技术的学习
  4. Win32Asm学习笔记[不断更新]
  5. java day07【Scanner类、Random类、ArrayList 类】
  6. SpringMVC源码阅读:定位Controller
  7. Lodop打印旋转180度 倒着打
  8. js如何在字符串里加变量
  9. CSblog的学习记录
  10. GDI+ is F**king unbelievable