作者|Adrian Raudaschl 编译|VK 来源|Towards Data Science

尽管目前正在蔓延的冠状病毒疫情已经很可怕,但观察世界各地的学术界和研究界是多么迅速地开始了解这种病毒及其潜在影响,还是很有意思的。

正因为如此,很多有趣的学术论文都很快就出来了。我鼓励你仔细阅读预印本,因为所作的声明是未经核实的,但我想看看这些文件所讨论的主题和结论中是否有任何明显的模式。

因此,我从Elsevier新型冠状病毒信息中心的列表中,手工抓取了这些预打印论文的结果和见解部分,并使用流行的Gensim库使用LDA进行了一些主题建模。如果你想亲自尝试的话,我在这篇文章的底部提供了GitHub链接。

在75份预印本上训练多个LDA模型后,32个主题看起来是最佳的(也许20个主题也可以),一致性值为0.54。然后,我选择了最突出的主题关键字集合,推断出中心观点,并为每一个找到了最具代表性的文章。

这篇文章绝不是一篇科学评论,而是一个我想分享的小实验。也许我们可以使用这样的工具更快地从多个来源识别模式。

9个重要的冠状病毒主题及其最具代表性的论文

1. CT扫描似乎有希望筛选COVID-19

关键词:肺炎,确诊,证据,死亡,北京,聚焦,大,预测,努力,传播

尽管该病毒已证明具有高度传染性,可在两肺自然感染,但临床证据表明,武汉病毒性肺炎病死率较低。CT对武汉市病毒性肺炎的筛查、诊断、隔离方案、治疗、处理及预后有重要意义。

最具代表性的论文:Clinical and Imaging Evidence of Wuhan-Viral Pneumonia: A Large-Scale Prospective Cohort Study

该主题的文档百分比:8%

2.应用人工智能筛选COVID-19患者

关键词:临床、诊断、显著、高度、特征、症状、目的、指标、嗜酸性粒细胞、入院

利用人工智能技术筛选患者的白细胞、嗜酸性粒细胞计数、嗜酸性粒细胞率、2019年新型冠状病毒RNA(2019n-CoV)和淀粉样蛋白A等属性,该团队开发了一种更快的方法,以实现COVID-19的诊断,提高了临床确诊率。

最具代表性的论文:Artificial Intelligence Application in COVID-19 Diagnosis and Prediction

该主题的文档百分比:7%

3.各国还没有准备好迎接2019年的nCoV

关键词:预防、健康、能力、有效、紧急、管理、加强、支持、准备、存在

各国在预防、发现和控制疫情方面的能力差异很大,这是由全球卫生系统管理卫生紧急情况的能力差异所支撑的。我们需要加强全球准备,遏制现有疫情,包括2019年nCoV的国际上的持续传播。

最具代表性的论文:Review of Health Security Capacities in Light of 2019-nCoV Outbreak — Opportunities for Strengthening IHR (2005) Implementation

该主题文档百分比:7%

4.医务人员失眠、心理问题和COVID-19

关键词:心理、因素、发现、疾病、社交、孤立、员工、识别、抑郁

一项研究发现,超过三分之一的医务人员在COVID-19爆发期间出现失眠症状。相关因素包括文化程度、隔离环境、对COVID-19爆发的社会心理担忧、医生职业等。针对不同的社会心理因素,对医务人员进行失眠的干预。

最具代表性论文:Survey of Insomnia and Related Social Psychological Factors Among Medical Staffs Involved with the 2019 Novel Coronavirus Disease Outbreak

该主题的文档百分比:7%

5.我们应该采取强有力的预防措施来控制这种流行病吗?

关键词:措施、预防、城市、坚强、严格、个体、期待、维护、揭露、制止

在冠状病毒疫情结束之前,我们一直鼓励采取强有力的预防措施。国内外其他地方已证实,应效仿中国,立即采取有力干预措施。早期强有力的预防措施可以有效阻止全球其他城市独立、自我维持的疫情爆发。

最具代表性的论文:Simulating the Infected Population and Spread Trend of 2019-nCov Under Different Policy by EIR Model

该主题的文档百分比:7%

6.COVID-19新的快速基因诊断试验

关键词:检测、pcr、样品、rt、lamp、诊断、反向、核酸、拭子、筛选

定量反转录聚合酶链反应(qRT-PCR)是目前COVID-19检测的标准;然而,反转录环介导的等温扩增(RT-LAMP)可以在风险点进行更快、更实惠的进行现场检测。本研究的目的是开发一种快速筛查诊断试验,可在30分钟内完成。

最具代表性的论文:Rapid Detection of Novel Coronavirus (COVID19) by Reverse Transcription-Loop-Mediated Isothermal Amplification

该主题的文档百分比:5%

7.快速鉴别COVID-19和其他感染

关键词:低,病人,酸,发热,肺,混浊,地面,过程,特征,图像

在发热门诊中,COVID-19和核酸阴性患者之间的区别临床特征鲜为人知。2019年nCoV感染的核酸检测率最高的是肌肉疼痛患者,其次是呼吸困难患者。发热、嗜酸性粒细胞计数降低和双肺磨玻璃样混浊的影像学特征可能是2019年nCoV感染的一个有价值的指标。

最具代表性论文:Analysis of 2019-nCoV Infection and Clinical Manifestations of Outpatients: An Epidemiological Study from the Fever Clinic in Wuhan, China

该主题的文档百分比:5%

8.谁最容易感染COVID-19?

关键词:患者、症状、系统、政府、人群、年龄、人群、显著改善、肾脏

调查证实,该人群的传染性没有明显的年龄限制,但老年人仍然是脆弱群体。糖尿病患者更易发展为重症患者,进入ICU的概率明显增加。

最具代表性的论文:Epidemiological and Clinical Features of 197 Patients Infected with 2019 Novel Coronavirus in Chongqing, China: A Single Center Descriptive Study

该主题的文档百分比:4%

9.COVID-19的重症患者治疗

关键词:严重,呼吸,治疗,急性,方法,综合征,相似,水平,起源,发生

COVID-19感染引起严重呼吸系统疾病,类似于严重急性呼吸综合征冠状病毒,与ICU的进入和高死亡率有关。我们从病因、流行病学、治疗方法等方面进行了研究,根据武汉协和医院制定的治疗方案,经卫生部批准,希望能开发出有效的治疗方法,降低该病的死亡率。

最具代表性的论文:Clinical Characteristics and Treatment of Patients Infected with COVID-19 in Shishou, China

该主题的文档百分比:4%

结论

这是在论文领域应用NLP技能的一次尝试。这个方法应该会出现问题,但这个想法很有趣。

GitHub仓库

GitHub地址:https://github.com/Raudaschl/coronvavirus_preprint_research_nlp

原文链接:https://towardsdatascience.com/summarising-the-latest-research-on-coronavirus-with-nlp-and-topic-modelling-28b867ad9860

欢迎关注磐创AI博客站: http://panchuang.net/

sklearn机器学习中文官方文档: http://sklearn123.com/

欢迎关注磐创博客资源汇总站: http://docs.panchuang.net/

利用LDA和主题模型发现9种冠状病毒研究趋势相关推荐

  1. LDA文本主题模型的学习笔记

    引言 我们经常会听到LDA文本主题模型,经常用于文本分类.LDA由Blei, David M..Ng, Andrew Y..Jordan于2003年提出,用来推测文档的主题分布.它可以将文档集中每篇文 ...

  2. 如何利用计算机做主题模型,利用概率主题模型的微博热点话题发现方法-计算机系统应用.PDF...

    利用概率主题模型的微博热点话题发现方法-计算机系统应用 2014 年 第 23 卷 第 8 期 计 算 机 系 统 应 用 ① 利用概率主题模型的微博热点话题发现方法 1 2 米文丽 , 孙曰昕 1( ...

  3. lda plda主题模型

    主题模型LDA 转自http://blog.csdn.net/v_JULY_v/article/details/41209515?locationNum=1&fps=1 通俗理解LDA主题模型 ...

  4. lda php,主题模型︱几款新主题模型——SentenceLDA、CopulaLDA、TWE简析与实现

    [导读]百度最近开源了一个新的关于主题模型的项目.文档主题推断工具.语义匹配计算工具以及基于工业级语料训练的三种主题模型:Latent Dirichlet Allocation(LDA).Senten ...

  5. LDA等主题模型实战(一)

    文章目录 前言 正文 评估方式 LDA模型 LDA之gibbs采样算法 LDA之EM算法 Biterm Topic Model Topic Modeling with Minimal Domain K ...

  6. 28 篇论文、6 大主题带你一览 CVPR 2020 研究趋势

    关注"迈微AI研习社",内容首发于公众号 转自 | AI科技评论 首度于线上召开的CVPR 2020 会议已经落下帷幕.今年,大会共有1467篇论文被接收,共举办了29个Tutor ...

  7. python安装lda_python 安装 lda topic主题模型

    python 安装 lda 出现错误 C:\Users\ch>pip install lda Collecting lda Downloading lda-1.0.5.tar.gz (303kB ...

  8. 30 篇亮点论文、5 大主题带你一览 ECCV 2020研究趋势

    编译 | 陈彩娴.Barack 编辑 | 陈彩娴 转自 | AI科技评论 ECCV 2020已圆满落幕.会议收到了1360篇论文投稿,其中包含104篇Oral论文.160篇Spotlight论文和10 ...

  9. 【机器学习】基于LDA主题模型的人脸识别专利分析

    作者 | Soren Gran 编译 | VK 来源 | Towards Data Science 介绍 作为一名数据科学家,文本数据提出了一个独特的挑战:虽然金融.年龄和温度数据可以立即被注入线性回 ...

最新文章

  1. 【svn】svn报错:“Previous operation has not finished; run ‘cleanup‘ if it was interrupted“ 的解决方法
  2. 解决两台centos虚拟机Telnet服务无法联机的问题
  3. 输入法图标也会莫名其妙地丢失?
  4. linux如何使用物理内存_10 张图解再谈 Linux 物理内存和虚拟内存
  5. C语言经典算法100例
  6. SAP Spartacus buildCmsStructure 构建逻辑
  7. hdu 2112 ——HDU Today
  8. signature=fa342ee2b7c3e3e9cba3f194df2d59ca,Date of Signature
  9. SSM学习系列(五) Spring MVC 几种跳转方式
  10. 报复性充值?《和平精英》iOS版上线三天 收入近1亿元
  11. Linux学习笔记---移植官方uboot步骤(二)
  12. 计算机vfp程序设计题,2012年计算机级VFP程序设计基础习题及答案.doc
  13. 【MySQL部署与安装】
  14. 《精进:如何成为一个很厉害的人》
  15. 【爬虫】爬取当当网的图书信息
  16. 5G仿真-蒙特卡洛仿真方法
  17. %appdata% 代表什么?
  18. mpl代表什么_西方经济学中MPL,APL,MPK分别是什么意思
  19. 【go1.18】error obtaining VCS status: exit status
  20. 智能车浅谈——抗干扰技术硬件篇

热门文章

  1. leetcode 421. Maximum XOR of Two Numbers in an Array
  2. 记录一个有关QT生成PDF的过程
  3. 小明发布_LPL官方纪录片《来者何人》发布,比起FPX,RNG问题要严重多得多
  4. 【目标检测】小目标检测问题及解决方法
  5. 安装tesseract时Status of chi_tra: sendrequest error什么意思
  6. 【人工智能项目】Fashion Mnist识别实验
  7. arduinopn532模块_Arduino 开源 NFC近场通讯模块 PN532
  8. 技能梳理23@语音模块+stm32+nfc
  9. C语言整人的无限循环,让对方电脑自动关机的整人程序和无限循环程序-win7自动关机软件...
  10. POJ 2395 Out of Hay 最小生成树(prime算法)