点击上方蓝字关注我们

《大数据》

第7卷第6期 2021年11月

大数据2021年第6期

(点击原文链接在官网阅读完整文章)

目次

01 专题导读:大数据支撑的智能应用

周斌, 秦永彬

02 基于材料数值计算大数据的材料辐照机理发现

任帅, 陈丹丹, 储根深, 白鹤, 李慧昭, 何远杰, 胡长军

03 基于BERT阅读理解框架的司法要素抽取方法

黄辉, 秦永彬, 陈艳平, 黄瑞章

04 结合案件要素序列的罪名预测方法

孙倩, 秦永彬, 黄瑞章, 刘丽娟, 陈艳平

05 基于多输入模型及句法结构的中文评论情感分析方法

张宝华, 张华平, 厉铁帅, 商建云

06 大数据认知计算在内容安全管控中的应用

杜雪涛

07 基于特征选择的局部敏感哈希位选择算法

周文桦, 刘华文, 李恩慧

08 面向非易失性内存的持久索引数据结构研究综述

王永锋, 陈志广

09 大数据定价方法的国内外研究综述及对比分析

刘枬, 郝雪镜, 陈俞宏

10 水环境模型与大数据技术融合研究

马金锋, 饶凯锋, 李若男, 张京, 郑华

11 时间频率科学数据管理控制与应用

章宇, 袁海波, 王燕平, 董绍武, 张继海

12 基于ISM的大数据在建筑领域中的应用障碍分析

纪颖波, 赵子豪, 姚福义

13 企业电力征信大数据价值挖掘与应用

辛保江, 李德文, 王兰兰

摘要

专题:大数据支撑的智能应用

专题导读:大数据支撑的智能应用

作者:周斌, 秦永彬

摘要:信息技术的发展使得数据采集、存储、管理等成本下降,同时也给机器学习等人工智能方法提供了足够的训练样本,使大数据成为人工智能发展的三大重要基础(数据、算法和算力)。在近年来大数据技术发展的基础上,人工智能在技术发展和落地应用等方面都获得了诸多突破。在当前大数据产业链日趋成熟的背景下,大数据与人工智能的结合也在向更全面的方向发展,跨越了棋类游戏、网页搜索、语音合成、人脸识别等单点应用,逐步发展到无人驾驶、智慧交通、智能司法、工控机器人、智能网络应用等更复杂的应用形态。本专题选取了材料科学、智能司法、内容分析等多个领域中的一些成功案例,探讨了大数据技术如何支撑人工智能中的知识表示、推理预测、智能算法、认知计算等方面和环节,达到支撑整个领域智能应用的目标。

原文链接:http://www.infocomm-journal.com/bdr/article/2021/2096-0271/2096-0271-7-6-00001.shtml

基于材料数值计算大数据的材料辐照机理发现

作者:任帅, 陈丹丹, 储根深, 白鹤, 李慧昭, 何远杰, 胡长军

摘要:材料辐照效应的数值模拟计算是认识核材料服役性能的重要手段,基于超级计算机的大规模、高保真材料数值模拟计算会产生海量数值计算数据,如何针对数值计算大数据的特点,在实现其高效存储的基础上,通过挖掘总结辐照损伤机理和性能演化规律,对于核材料设计研发、核安全等具有重要意义。论述了材料数值计算大数据的定义及其本质特征,综述了近年来的相关工作。以自主研发的材料辐照效应分子动力学软件MISA-MD和随机团簇动力学软件MISA-SCD在国产超级计算机上的实际算例为基础,提出了一种适用于材料数值计算大数据的、多尺度关联与耦合的分布式数值计算大数据存储体系(NDSA);采用XGBoost算法实现了MD中Frenkel缺陷对数的精确预测,基于并查集算法实现了级联碰撞团簇的划分;基于密度聚类的方法对KMC数值计算大数据进行挖掘,发现了类环状团簇,实现了原子团簇的识别与分类;基于第一性原理数值计算大数据库对现有的势函数模型进行了改进,提出了新的势函数模型构建方法AIPM。最后对材料数值计算大数据的应用前景进行了展望。

原文链接:http://www.infocomm-journal.com/bdr/article/2021/2096-0271/2096-0271-7-6-00003.shtml

基于BERT阅读理解框架的司法要素抽取方法

作者:黄辉, 秦永彬, 陈艳平, 黄瑞章

摘要:司法要素抽取是司法智能化辅助应用的重要基础,其目的是判别裁判文书涉及的关键案情要素。以往司法要素抽取通常采用多标签分类方法进行建模,模型主要依赖于裁判文书文本特征,忽略了要素标签的语义信息。同时,由于司法数据集存在样本分布不均衡的情况,分类方法会因负例过多而导致模型性能不佳。针对上述问题,提出基于BERT阅读理解框架的司法要素抽取方法。该方法引入标签信息和法律先验知识构造辅助问句,利用BERT机器阅读理解模型建立辅助问句和裁判文书之间的语义联系。同时,在问句中标签所在位置前后增加特殊标识符以增强模型的学习能力。实验结果表明,该方法在CAIL2019要素抽取公开数据集上性能得到显著提升,在婚姻家庭、劳动争议、借款合同3种案由上分别提升F1值2.7%、11.3%、5.6%。

原文链接:http://www.infocomm-journal.com/bdr/article/2021/2096-0271/2096-0271-7-6-00019.shtml

结合案件要素序列的罪名预测方法

作者:孙倩, 秦永彬, 黄瑞章, 刘丽娟, 陈艳平

摘要:罪名预测指根据给定的案情事实找到适用罪名。现有罪名预测方法主要使用文本内容进行分类,但无法有效地利用文本中的案件要素。针对现有方法的不足,提出了一种结合案件要素序列的罪名预测方法。该方法将案情事实过程表示为一系列以“行为”为核心且具有时序关系的案件要素序列,然后利用图卷积神经网络进行表示,最后融合文本语义特征来预测案件罪名。实验表明,该方法比现有方法具有更好的预测性能。同时,该方法在对易混淆罪名的区分方面也有较好的表现。

原文链接:http://www.infocomm-journal.com/bdr/article/2021/2096-0271/2096-0271-7-6-00030.shtml

基于多输入模型及句法结构的中文评论情感分析方法

作者:张宝华, 张华平, 厉铁帅, 商建云

摘要:海量的网络文本给情感分析任务带来了巨大的机遇和挑战,传统基于规则的方法已经很难胜任这类文本的分析工作,现有的深度学习方法存在一些不足,一方面模型的输入只包括文本嵌入矩阵,缺乏其他特征的使用;另一方面,词嵌入算法会导致文本结构信息缺失,进而影响分析效果。在对基于规则的情感分析方法中的句法规则进行研究的基础上,提出了一种结合MCNN、LSTM和全连接神经网络的多输入模型。同时在深度学习模型中构建了句法特征提取器来提取句法特征。在3个公开数据集上进行了实验,结果表明,构建的模型较其他模型拥有更好的分类性能,且句法规则特征的引入对模型的分类效果有一定的提升。

原文链接:http://www.infocomm-journal.com/bdr/article/2021/2096-0271/2096-0271-7-6-00041.shtml

大数据认知计算在内容安全管控中的应用

作者:杜雪涛

摘要:通信网络中存在海量垃圾和不良信息,这些信息需要被阅读和理解,以便对其进行有效的特征提取和拦截封堵。基于人工分析的方法已经无法达到目的,需要使用基于大数据的认知计算技术代替人工进行海量的数据分析和理解,帮助人们制订内容安全管控策略。针对电信诈骗治理、不良消息治理、变体消息治理和不良网站治理4个方面遇到的实际问题,分别提出了大数据认知计算的解决方案,并给出了创新性实践的效果。实践表明,提出的解决方案能够快速发现不良信息,有效地提升内容管控质量。

原文链接:http://www.infocomm-journal.com/bdr/article/2021/2096-0271/2096-0271-7-6-00053.shtml

研究

基于特征选择的局部敏感哈希位选择算法

作者:周文桦, 刘华文, 李恩慧

摘要:作为主流的信息检索方法,局部敏感哈希往往需要生成较长的哈希码才能达到检索要求。然而,长哈希码需要消耗巨大的存储空间且携带大量的冗余哈希位。为了解决此问题,采用特征工程中10种简单高效的选择算法从长局部敏感哈希码中选择信息量丰富的哈希位,去除冗余、无效的哈希位。这10种选择算法使用不同的方式来刻画每一个哈希位的性能或两个哈希位之间的相关性,如方差、汉明距离等。通过去除长哈希码中性能较差或具有高相关性的哈希位进行哈希位的选择。将选择后的哈希码与原哈希码的性能进行比较。在4个常用数据集上的实验结果表明,去除冗余哈希位后的哈希码与原哈希码的性能几乎相同,且其哈希位的去除比率能达到30%~70%。

原文链接:http://www.infocomm-journal.com/bdr/article/2021/2096-0271/2096-0271-7-6-00067.shtml

面向非易失性内存的持久索引数据结构研究综述

作者:王永锋, 陈志广

摘要:随着非易失性内存从理论走向实用,现代存储系统的设计与实现将迎来颠覆性变革。针对传统存储设备设计的存储系统并不能充分利用非易失性内存带来的性能红利。为了构建高吞吐、低时延、大规模的存储系统,迫切需要设计与非易失性内存硬件特性相匹配的持久索引数据结构,从而进一步提升性能。从持久索引数据结构出发,分别对B+-Tree和哈希表在非易失性内存上的设计和优化进行分析,比较其优缺点,并展望了该方向的机遇与面临的挑战。

原文链接:http://www.infocomm-journal.com/bdr/article/2021/2096-0271/2096-0271-7-6-00078.shtml

大数据定价方法的国内外研究综述及对比分析

作者:刘枬, 郝雪镜, 陈俞宏

摘要:大数据独特的价值特征导致数据定价问题复杂,尽管研究者对此展开了大量研究,但大多角度单一且缺乏实际应用性。鉴于此,对大数据定价方法进行了综述,梳理出成本导向、市场导向、需求导向、利润导向以及基于生命周期定价的5种定价类型,对比了成本法、协议定价、市场法、收益法、基于质量以及基于查询的定价6种主流定价方法的优劣势;最后通过大数据定价流程分析进一步展现了不同定价方法各自的特点,并对数据定价方向进行了展望,以期为今后的相关研究提供一定的参考。

原文链接:http://www.infocomm-journal.com/bdr/article/2021/2096-0271/2096-0271-7-6-00089.shtml

水环境模型与大数据技术融合研究

作者:马金锋, 饶凯锋, 李若男, 张京, 郑华

摘要:水环境模型内部结构复杂且计算耗时,造成参数率定、多情景分析及决策优化过程中面临高负荷计算难题,这极大地限制了其应用价值的发挥。如何融合水环境模型和大数据技术,深入挖掘模型应用潜力和充分发挥其应用价值是一个研究热点。总结了水环境模型在实际应用过程中面临的瓶颈,分析了大数据技术在解决这些问题上具有的潜力。基于现有成熟的大数据技术,提出了水环境模型与大数据技术融合框架,解决了水环境模型规模计算、规模存储和应用分析问题。阐述了模型与大数据技术融合过程中面临的问题,提出了具体的实现技术思路。通过SWAT模型率定应用案例,证明融合框架的可行性。最后探讨了大数据背景下水环境模型的未来研究方向,指出开展复杂水环境模型的代理模型研究和水环境模拟优化框架研究是未来的发展趋势。

原文链接:http://www.infocomm-journal.com/bdr/article/2021/2096-0271/2096-0271-7-6-00103.shtml

应用

时间频率科学数据管理控制与应用

作者:章宇, 袁海波, 王燕平, 董绍武, 张继海

摘要:时间频率系统已经成为国家的战略资源,时间频率科学数据的应用涉及通信、电力、交通、战事等方面,因此时间频率科学数据的统筹梳理、管理控制、应用分析具有重要的现实意义。首先对时间频率科学数据进行分类分级,同时制定数据共享策略,详述时间频率科学数据管理系统的组成架构以及时间频率科学数据的质量控制方法;然后分析时间频率科学数据开放共享面临的问题,给出解决方案;最后阐述时间频率科学数据的若干应用方向,对时间频率科学数据的管理控制进行总结并展望。

原文链接:http://www.infocomm-journal.com/bdr/article/2021/2096-0271/2096-0271-7-6-00120.shtml

基于ISM的大数据在建筑领域中的应用障碍分析

作者:纪颖波, 赵子豪, 姚福义

摘要:大数据在建筑领域的应用程度低、推广缓慢。准确识别大数据在建筑领域中的应用障碍因素,探索因素间的相互影响关系具有重大意义。通过对相关研究工作进行梳理,识别了12个障碍因素。使用解释结构模型(ISM)确定了因素间的相互关系并将其转化为邻接矩阵。通过幂迭代分析建立了可达矩阵,确定了因素的层级关系。最后对因素间的影响传递路径进行研究分析,给出了相应的应对建议,为我国建筑领域的大数据应用推广提供了研究支持。

原文链接:http://www.infocomm-journal.com/bdr/article/2021/2096-0271/2096-0271-7-6-00128.shtml

企业电力征信大数据价值挖掘与应用

作者:辛保江, 李德文, 王兰兰

摘要:针对传统电力征信平台稳定性不足、测试准确性低等缺点,研究设计了一个电力征信大数据平台。使用联机分析法对电力大数据进行分析,并将其分为用户行为、费用细则、用户价值与个人信用四大类。以模块化结构为基础,分别对数据采集模块、数据分析模块、用户交互模块进行优化设计,采用KNN算法和交叉验证法对用电数据进行分类与决策处理,得出区域的用电规律,以此设计和调整配电方案。最后将提出的平台与传统电力征信平台进行对比,实验结果表明,提出的平台的稳定性和准确性都有所提升,在测试过程中准确性高达98.9%。

原文链接:http://www.infocomm-journal.com/bdr/article/2021/2096-0271/2096-0271-7-6-00138.shtml

联系我们:

Tel:010-81055448

010-81055490

010-81055534

E-mail:bdr@bjxintong.com.cn

http://www.infocomm-journal.com/bdr

http://www.j-bigdataresearch.com.cn/

大数据期刊

《大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出版的期刊,已成功入选中文科技核心期刊、中国计算机学会会刊、中国计算机学会推荐中文科技期刊,并被评为2018年国家哲学社会科学文献中心学术期刊数据库“综合性人文社会科学”学科最受欢迎期刊。

关注《大数据》期刊微信公众号,获取更多内容

《大数据》2021年第6期目次摘要相关推荐

  1. 《大数据》2021年第5期目次摘要

    点击上方蓝字关注我们 <大数据> 第7卷第5期 2021年9月 大数据2021年第5期 (点击原文链接在官网阅读完整文章) 目次 01 专题导读:国产环境下的大数据处理系统 陈刚 02 面 ...

  2. 《大数据》2021年第4期目次摘要

    点击上方蓝字关注我们 <大数据> 第7卷第4期 2021年7月 大数据2021年第4期 (点击原文链接在官网阅读完整文章) 目次 01 专题导读 马礼 02 数据权属界定面临的问题困境与破 ...

  3. 《大数据》2021年第3期目次摘要

    点击上方蓝字关注我们 <大数据> 第7卷第3期 2021年5月 大数据2021年第3期 (点击原文链接在官网阅读完整文章) 目次 01 专题导读:基于大数据的知识图谱及其应用 靳小龙, 阮 ...

  4. 《大数据》2021年第2期目次摘要

    点击上方蓝字关注我们 <大数据> 第7卷第2期 2021年3月 大数据2021年第2期 (点击原文链接在官网阅读完整文章) 目次 01 专题导读:大数据可视分析应用 袁晓如 02 大数据可 ...

  5. 《大数据》2022年第1期目次摘要

    点击上方蓝字关注我们 <大数据> 第8卷第1期 2022年1月 大数据2022年第1期 (点击原文链接在官网阅读完整文章) 目次 01 专题导读:科学数据治理 陈刚 02 高能同步辐射光源 ...

  6. 《大数据》2020年第6期目次摘要

    点击上方蓝字关注我们 <大数据> 第6卷第6期 2020年11月 大数据2020年第6期 (点击原文链接在官网阅读完整文章) 目次 01 专题导读:教育大数据 刘三女牙 02 面向数据共享 ...

  7. 《大数据》2020年第4期目次摘要

    点击上方蓝字关注我们 <大数据> 第6卷第4期 2020年7月 大数据2020年第4期 (点击原文链接在官网阅读完整文章) 目次 01 专题导读:大数据异构并行系统 陈海波 02 GPU事 ...

  8. 《大数据》2020年第3期目次摘要

    点击上方蓝字关注我们 <大数据> 第6卷第3期 2020年5月 大数据2020年第3期 (点击原文链接在官网阅读完整文章) 目次 01 专题导读:数据资产化探索 朱扬勇,陈贵海 02 数据 ...

  9. 《大数据》2020年第5期目次摘要

    点击上方蓝字关注我们 <大数据> 第6卷第5期 2020年9月 大数据2020年第5期 (点击原文链接在官网阅读完整文章) 目次 01 专题导读:医学大数据 邹北骥 02 一种基于深度神经 ...

最新文章

  1. hadoop: Shuffle过程详解 (转载)
  2. 微服务化之缓存的设计
  3. 【SIS-OAS 1.52.0】【C03-测试报告】常规版本回归测试报告-------回归测试报告模板...
  4. python程序结构框架_Python——Flask框架——程序的基本结构
  5. 封装动态数组类Array
  6. Delphi的子类化控件消息, 消息子类化
  7. go interface转int_Go 中 slice 的 In 功能实现探索
  8. 构造函数为什么不能是虚函数
  9. springcloud分布式事务处理方案
  10. MySQL 语句使用到的关键字 函数 记录
  11. Ajax无刷新数据绑定
  12. 模二运算,模二加减乘除
  13. 计算机报考电子邮箱格式,电子邮箱格式怎么写
  14. Java的中文转换拼音、五笔简码
  15. 域用户登陆显示计算机图标,PC用户或域用户登陆后任务栏无显示桌面的小图标...
  16. 直链文件上传下载网站分享(一)
  17. 实时频谱分析仪作下变频器的技术实现
  18. 合肥工业大学计算机信息检索报告,合肥工业大学计算机信息检索(图书馆资源利用)作业.doc...
  19. 【数字信号处理】线性常系数差分方程 ( 使用递推解法求解 “ 线性常系数差分方程 “ | “ 线性常系数差分方程 “ 初始条件的重要性 )
  20. 干货 | Trip.com APP QUIC应用和优化实践

热门文章

  1. STL9-vector容器
  2. 求最大公约数——辗转相除法
  3. 怎样在半个月内迅速提升技能,搞定面试进 大厂?
  4. 每个线程只对一个数据操作就不会出现线程安全问题-------------成员变量,用来计算累加的和...
  5. Hibernate常用的Java数据类型映射到mysql和Oracle
  6. php 验证码需开启gd2
  7. VB.NET Visual Basic
  8. Vue入门 ---- vuex
  9. Python基础学习数值运算之内建函数
  10. java 图片组合 分解_切分和组合图片(二)