问答社区的问题分类任务

最近在研究问答社区的问题分类任务。问答社区的问题文本一般比较短,很难用常规的文本分类算法来很好的归类。

做了一个新算法。主要考虑两个方面:

正确率和召回率。

计算量。

正确率和召回率:用微F测度来衡量。与传统分类算法的比较见下图:

之所以未同SVM比较,是因为在这个时刻,SVM还在训练过程中……当然我承认我选的数据有点变态,近90w条,并且有数万维的空间向量。希望SVM可以早点出结果LOL。事实上,据2001年TREC文本过滤比赛第一的DavidD.Lewis声称,他的比赛程序采用SVMLight作为分类器内核,对英文词汇进行了去词缀处理,但没有去停用词,因此估计特征项大约在20000维左右,用SUN的服务器运行了整整一周,才得到实验结果。OMG~

至于为何为何kNN比较……其实……基于类文档排名分类的算法就是kNN在语言模型下的一个特例……

计算量:在我的pc机上每秒可以分类近2w个问题文本;

一般的问答服务网站,针对用户的提问,会给出多个可能的类别供用户选择。在我们的系统中,如果为用户提供3个可能的选择类别,则有93%以上的概率正确的类别可以被包含。

我们的实验基于新浪问答中用爬虫得到的10个领域(汽车、电脑/互联网、教育、演艺娱乐、家庭生活、游戏、健康医学、买房装修、科学技术、运动爱好)的超过100w条数据。感谢新浪问答对爬虫的容忍……

问答社区的问题分类任务相关推荐

  1. mysql sns表,问答社区-分类 - 数据库设计 - 数据库表结构 - 果创云

    -- 数据库大全:问答社区-分类 -- 来源:YesApi.cn CREATE TABLE `yesapi_whatsns_category` ( `id` bigint(20) unsigned N ...

  2. 第十三届“华中杯”大学生数学建模挑战赛题目 B 题 技术问答社区重复问题识别

    B 题 技术问答社区重复问题识别 技术社区问答平台作为用户互相分享交流的社区平台,近年来逐步成为用户寻找技术类疑难解答的首要渠道. 各分类技术性问题的文本数据量不断攀升,给问答平台的日常运营维护带来了 ...

  3. 2021年华中杯数学建模挑战赛B题技术问答社区重复问题识别求解全过程文档及程序

    2021年华中杯数学建模 B题 技术问答社区重复问题识别 原题再现:   技术社区问答平台作为用户互相分享交流的社区平台,近年来逐步成为用户寻找技术类疑难解答的首要渠道. 各分类技术性问题的文本数据量 ...

  4. SegmentFault 思否发布开源问答社区软件 Answer

    ONES 旗下技术问答社区 SegmentFault 思否(下称"思否")今日宣布,正式对外开源其问答社区软件 Answer. 作为国内领先的新一代技术问答社区,思否始于「聚集体智 ...

  5. AMA(Ask Me Anything)新型问答社区模式研究

    马总前不久说过一句话: "腾讯在做的是社交,阿里未来发展是社区,社交和社区是有巨大差异,社交做得是分享,社区做得是共享,如果打造一个更广泛的社区活动,这是阿里期望的" 在逍遥子强调 ...

  6. springboot基于web的在线问答社区系统设计与实现毕业设计源码061628

    Springboot在线问答社区系统 摘 要 信息化社会内需要与之针对性的信息获取途径,但是途径的扩展基本上为人们所努力的方向,由于站在的角度存在偏差,人们经常能够获得不同类型信息,这也是技术最为难以 ...

  7. (附源码)springboot+mysql+基于web的在线问答社区系统设计与实现 毕业设计061628

    Springboot在线问答社区系统 摘要 信息化社会内需要与之针对性的信息获取途径,但是途径的扩展基本上为人们所努力的方向,由于站在的角度存在偏差,人们经常能够获得不同类型信息,这也是技术最为难以攻 ...

  8. (附源码)springbootBBS问答社区系统的设计与实现 毕业设计121007

    基于springboot的BBS问答社区系统 摘 要 随着科学技术的飞速发展,各行各业都在努力与现代先进技术接轨,通过科技手段提高自身的优势:对于BBS问答社区系统当然也不能排除在外,随着网络技术的不 ...

  9. (附源码)Springboot在线问答社区系统 毕业设计061628

    Springboot在线问答社区系统 摘要 信息化社会内需要与之针对性的信息获取途径,但是途径的扩展基本上为人们所努力的方向,由于站在的角度存在偏差,人们经常能够获得不同类型信息,这也是技术最为难以攻 ...

最新文章

  1. 假期只是玩就没意思了!告诉你一个学习麻省理工大学所有课程的好地方
  2. android运动轨迹rungps_android运动轨迹rungps_Android使用百度地图API实现GPS步行轨迹...
  3. X-UA-Compatible也无法解决的IE11兼容问题
  4. 为了成长,我所做的一些努力!
  5. PAT甲级1069 The Black Hole of Numbers:[C++题解]模拟、6174
  6. Windows和Linux下apache-artemis-2.10.0安装配置
  7. mysql f_MySQL
  8. 沃尔沃主动召回40万台车,只因一个罕见的问题
  9. SQL数据库语言基础之SqlServer视图的创建、修改与视图数据的增删改查
  10. 简单理解聚集索引和非聚集索引
  11. CFS任务放置代码详解
  12. 使用python的视频处理
  13. CS下载、安装以及简单使用
  14. 硅谷开始玩中国玩剩下的了?
  15. 基础实验 7-2.1 魔法优惠券(25 分)
  16. 计算机不能识别监控硬盘分区,MBR 分区电脑无法识别 3TB 及以上硬盘的原因!
  17. jquery如何根据id获取标签内的值,以及如何通过id赋值
  18. 单片机实现PT2262解码示例代码
  19. mac上的pdf编辑器怎么才能直接修改PDF文档上的字体大小
  20. Netty保姆级教程(一)IO 演变

热门文章

  1. python except用法与作用_Python中关于try-except用法的错误和异常处理详解
  2. Qt 之自定义搜索框
  3. Log4j输出到控制台顺利,写入文件失败 - Log4j和commons log的整合
  4. 企业人事管理源代码mysql_企业人事管理系统(源代码+数据库表)
  5. ELIC: Efficient Learned Image Compression...
  6. 【Flowable】Flowable流程设计器
  7. Arcgis api for Javascript中多图层查询(上)
  8. 《neural networks and deep learning》读书笔记
  9. 【JQuery Mobile移动应用开发实战】JQuery Mobile基础——JQuery Mobile的布局
  10. JAVA计算机毕业设计音乐资源分享网站系统Mybatis+源码+数据库+lw文档+系统+调试部署