新的启程

上周我正式加入了 CSDN 的 NLP 团队。感谢组织给了这样一个机会,可以和志同道合的同事一起做喜欢的事情。在数理统计专业毕业21年后 ,开始进入 AI 方向,大概也可以算是人生的一种螺旋上升吧。

博客标题质量评估

我的第一个开发任务,是内容质量分。这里的质量,并不是严格遵循主观上的内容质量,而仅仅是一个排序依据,可以说是推荐系统的一部分,我们旨在于基于统计算法而非人工干涉,尽可能在统计上将更优质的内容推荐给用户。
这个结果通常并不能保证对每个读者都是最好的,只能尽可能的向这个目标去接近,关于这一点,算是推荐系统的一个永远的遗憾吧。
对博客标题的评估,是其中一个特殊的子项。标题有其特殊性,它不需要是完整的句子,而应该是尽可能清晰的说明文章内容的要点。而对于标题推荐,主要目标是两个,一个是标题应该符合专栏题材或搜索关键字,这方面要重点对抗通过标题堆砌关键字来提高命中率的行为;一个是标题要能符合文章本身的内容,要对抗“标题党”行为。
我手工采集了一万多篇博客的标题,人工阅读了一遍,感觉 CSDN 博客的质量还是很高的,标题绝大部分都是非常有诚意的。
标题党最喜欢的是通过一些“抓眼球”的文字和标点,吸引读者点击,所以我第一个想法是找出共性最大的标题子集,或许就是一个现成的标题党集合。但是阅读了这一万五千多标题后,我感觉这个方向走不通,因为技术博客是一个特殊的垂直领域,好的标题也会因为在讨论类似的内容而非常相似。相反,对标题的词汇做聚合,可能得到的最大的子集是技术术语集合。
初步来看,对于技术博客,标题质量应尽量靠拢以下目标:

  • 符合自然语言语法的主谓/动宾结构

    • 部分词汇在术语词典中,重点是主语和宾语
    • 如果一个标题只有术语词典中的词,做一定的降权
    • 标题的情感分析结果应趋向于中立,情绪激烈的予以降权
    • 对包含负分数词汇的标题降权

要更完整的评估一篇文章的质量,除了标题,还需要对内容做分析。下一篇文章我们讨论博客文章的内容质量: https://blog.csdn.net/ccat/article/details/123911429

博客质量分计算(一)相关推荐

  1. 博客质量分计算(二)

    前一篇文章(博客质量分计算(一)_ccat的博客-CSDN博客),我们重点讨论了标题质量分,标题质量分的计算相对来说更简单,也更容易深入,但是标题的质量显然不能决定一篇文章的质量,对于文章内容的质量平 ...

  2. 【随笔】博客质量分计算,如何让自己的博客脱颖而出,也许文章能够给你答案

    官方质量分查询地址:www.csdn.net/qc 1.标题质量 1.1.标题质量应该做到以下几点 符合自然语言语法的主谓/动宾结构 1 部分词汇在术语词典中,重点是主语和宾语 2 如果一个标题只有术 ...

  3. CSDN博客运营团队2022年H2总结

    前言 在2022年的年中,我们对外公布了我们的年中盘点:2022年上半年部分团队的总结 我们希望尽可能的公开我们的工作内容,让更多人可以了解CSDN的变化,同时也希望收到大家的真实反馈:你期待的新功能 ...

  4. 【创作赢红包】CSDN博客创作灵感

    <CSDN博客创作灵感> 现在,解决CSDN博客创作灵感的问题,是非常非常重要的. 所以, CSDN博客创作灵感,到底应该如何实现. 这种事实对本人来说意义重大,相信对这个世界也是有一定意 ...

  5. 怎么在 CSDN 写好技术博客

    大家在 CSDN 写博客,一定有机会碰到 "发文助手" 给你的提示.提醒你注意 「创作规范」, 「了解规则」 等等. 这篇文章就是从我的角度,谈谈怎么写一个好的 CSDN 技术博客 ...

  6. CSDN的博客积分规则及博客排名规则

    最近对CSDN博客积分的计算规则比较疑惑,并看到CSDN的一篇博客<csdn博客积分如何计算>: 博客排行榜排名分值=个人Blog所有随笔与文章的阅读数之和+个人Blog所有评论数之和*1 ...

  7. CSDN的博客积分计算规则及博客排名规则

    最近对CSDN博客积分的计算规则比较疑惑,并看到CSDN的一篇博客<csdn博客积分如何计算>: 博客排行榜排名分值=个人Blog所有随笔与文章的阅读数之和+个人Blog所有评论数之和*1 ...

  8. 软件工程(QLGY2015)博客点评总结

    目录 第一次作业(2015.5.9) 第二次作业(2015.5.21) 第一次作业(2015.5.9) 存在主要问题 1)书写这种练习博客的步骤几乎都不对,建议按照以下步骤: 题目介绍(简单介绍题目内 ...

  9. python博客访问量_史诗级干货-python爬虫之增加CSDN访问量

    AI 人工智能 史诗级干货-python爬虫之增加CSDN访问量 史诗级干货-python爬虫之增加CSDN访问量 搜索微信公众号:'AI-ming3526'或者'计算机视觉这件小事' 获取更多算法. ...

最新文章

  1. 选择最合适的预测性维护传感器
  2. 电脑显示服务器地址无法ping通,网关无法Ping通故障及解决方法
  3. CMakeLists
  4. BZOJ 1874: [BeiJing2009 WinterCamp]取石子游戏(SG函数)
  5. 074_JSON.stringify()
  6. Swift UITableView嵌套UICollectionView点击事件冲突(点击事件穿透)
  7. hadoop datajoin
  8. spring boot同时启动多个服务副本(同一服务启动在不同端口)配置方法
  9. 银华基金:用小型机的群狼战术保驾护航!
  10. AUTOSAR从入门到精通100讲(四十六)-CANoe工具使用-实现CAN通道的收、发、录、回放报文
  11. 【Dreamweaver】前端初学者开发利器Dreamweaver快捷键大全
  12. 解决Ssh/Scp报错:Someone Could Be Eavesdropping On You Right Now (Man-In-The-Middle Attack)!
  13. 堆积柱形图显示总数_送你一份堆积柱形图小点心,请收下~
  14. HDU1505(HDU1506的加强版)
  15. Kali Linux 软件源与更新源和更新命令
  16. mq消息队列到底是什么
  17. linux rm rf 无法删除文件夹,linux下的文件用root用户rm -rf命令无法删除解决方案
  18. 新建 umi 项目,Error: Rendered more hooks 或者 Rendered fewer hooks
  19. 完结撒花!吴恩达DeepLearning.ai《深度学习》课程笔记目录总集
  20. 教育培训行业的一些专有名词简称

热门文章

  1. navicat表栏上移下移_利用jqgrid实现上移下移单元格功能
  2. 考试系统服务器架构,系统架构师考试浏览器/服务器风格
  3. AGM脱机烧录器的使用入门
  4. 女老板让男员工陪同出差咋办?切记“做三不做四”,莫被弃用
  5. 输入一个数字n 如果n为偶数则除以2,若为奇数则加1或者减1,直到n为1,求最少次数 写出一个函数
  6. 地砖中间高四边低_贴地漏旁的瓷砖应注意哪些误区?
  7. h5 Canvas实现圆形时间倒计时进度条
  8. 短信接口攻击事件(一)紧张的遭遇战险胜
  9. arguments.callee的用法
  10. Pytorch安装CV2