大数据时代产生了海量的数据,但是数据类型多元异构、网页发布不规范等因素导致数据价值密度低,信息造价昂贵。大数据分析和数据挖掘是基于统计分析学的从数据中获取知识的一种研究方法,在互联网、金融、医疗等多个行业都有很好的发展与应用。语料库分析法在国外已有三十年以上的研究历史,目前服装领域内多使用学术文献作为研究语料库进行行业信息发现和预测,缺乏对其他行业数据的探索与使用;为了提高服装行业对开源数据的利用率,构建行业语料库、通过合理的数据分析工具对行业数据进行知识挖掘,对行业知识工程的建设具有重要的实践意义。

1服装品牌研究语料库构建

1.1数据渠道选择

为保证语料库中服装品牌数据的多样性和全面性需对采集渠道进行评估筛选,最终确定的数据源类型如下:(1)服装专业平台和品牌网站:如WGSN、POP流行趋势平台,中国时尚网、中国报告大厅等网站。(2)学术资源平台:CNKI数据库。(3)通用知识网站:如百度百科知识库。

1.2研究样本选择

进行品牌调研,围绕“服装品牌排行”检索知名度较高、数据信息分布较多的服装品牌。共选择了60个服装品牌,主要可分为以下几种类型。(1)国际奢侈品牌。如阿玛尼、巴宝莉等共32个。(2)国内具有一定创建历史与知名度的服装品牌。如劲霸、七匹狼等共10个中国品牌。(3)潮牌与户外品牌。如LARGE、SUPREME、户外品牌始祖鸟、哥伦比亚等共18个。

1.3数据采集与整理

网络爬虫是进行大数据收集的主要技术手段。采集过程以爬虫(后裔采集器)采集为主,人工采集为辅。通用类数据平台结构简单,先用采集器进行数据爬取,再对结果进行人工筛选降重,以减少数据噪音;专业类平台,如WGSN、POP,CNKI有权限限制,平台结构复杂,采集过程主要依赖人工。采集过程中总结出如下数据分布特点:通用网络平台如百度百科、品牌、服装网,数据重复率高类型单一;学术平台的数据语料,类型丰富但噪音大。通用网络上国际服装品牌的数据量和信息价值多于国内的服装品牌,学术平台数据则呈现相反趋势。奢侈等级越高,其受众群体小,数据缺乏,如定制类品牌Brioni。

2服装品牌数据挖掘

2.1数据预处理

数据研究过程使用的是定量内容分析和数据挖掘软件KHCoder,该软件有特征抽取、语义共现、文本聚类、主题分析等功能,适用于大量型非结构化文本的分析。为提高数据挖掘的效率和质量,数据预处理步骤如下:(1)数据集成与格式规范:数据格式整理为单个CSV/Excel表格或批量TXT文本。以品牌为例,每一个品牌数据合并在一个TXT文档里,以品牌名称和定义的序号命名,汇总在文件夹下。CSV文件中,第一列为分析数据,第二列第三列可设置外部变量。(2)词类筛选与定义:选择跟分析目的相关的词性,排除无意义词汇对数据结果的影响。一般主要选择名词、专业用词、形容词、标签。(3)编码规则编写:KH编码器可以自定义编码规则,执行编码。如“*博柏利Burberry|博宝利/巴宝莉”表示只要出现这些词汇则认为该文档与品牌“博柏利”有关,借助编码可协助品牌语料识别。

2.2关键词共现网络分析

语义网络是全局性的数据结构观察方法。在KHcoder设置不同的分析系数与变量因素,执行共现网络分析可发现隐形关联,从不同的角度进行数据特征挖掘,发现语料库的数据特征和隐藏的知识结构。共现分析是按照关键词在每篇文章中的共同出现的情况生成的语义网络。设置参数时将共现网络设置为无向网,共现结果(图1~图3)中圈的大小代表频次,颜色代表聚类情况。语义网络呈现的共现关系可以是词汇与外部变量之间的。以图1为例,该图是以品牌语料作为分析文本,以“品牌名称”作为外部变量,基于语义相似度计算的语义网络。品牌间由特征词关联起来形成不同的远近关系,其关联与人工划分的品牌类型相符;由品牌的共现相似性可对竞争关系展开知识推理。语义网络呈现的共现关系也可以是词汇与词汇之间的。图2是没有设置外部变量,由服装综合性语料分析后展开的语义网络,可借此知道文本中存在较多的信息类型。由图可知,分析文本中包含较多的“市场”“色彩”“元素”“造型”“图案”等信息类型。图3是以“雅格狮丹”的品牌语料为分析文本导出的语义网络。雅格狮丹是英国伦敦的御用皇家品牌,战争期间为军队设计的防水大衣是品牌的经典设计。在共现结果中,与雅格狮丹品牌相关的关键词和信息点在语义网络中都有明显表现。通过语义网络,可观察到每个品牌的数据特征词;得到基于大数据文本的“品牌数据画像”。语义网络中的共现词汇在一定程度上体现了数据的主题,可挖掘语料库的行业信息,实现行业的知识发现。

2.3集群聚类与KWIC检索

通过聚类分析和KWIC检索可在词汇语境下进行数据的分析观察。集群就是把相似的个体(样本语料)归于一群。通过集群聚类,可以得到不同场景的文本集群,并可得到不同集群下的特征词汇表(表2,表3)。Jaccard数值越高证明该词在这一集群中的权重越大。如表2所示,由特征词可知该集群的文本语料与“颜色”密切相关;如表3所示,该集群的语料与户外运动密切相关。以此为依据可进行语料分类和行业术语抽取。KWIC检索也是基于语义相似度计算的统计分析,可输入关键词(研究对象)直接查询该词的上下文语境。分数越高意味着在分析样本中该词与风格搭配越频繁。由上述结果可知,在KHcoder中执行集群聚类可对文本语料进行分类;借助集群聚类和KWIC检索还可获取特征词汇,“品牌”“颜色”“单品”“图案”、“面料”“风格”“功能”“场景”等服装行业的知识信息都可借此进行聚类、提炼。

3结论

文章借助爬虫技术和文本挖掘工具,对60个服装品牌进行了数据采集与语料库构建,发现了不同服装品牌的数据分布特征。在语料库基础上进行数据挖掘,从不同角度绘制了语料文本的语义网络,并获取了基于语料库的服装品牌知识集群。结果表明,运用大数据技术在服装品牌开源数据上进行知识抽取具备科学性和可行性。实验结果对知识工程建设者或数据分析人员具有一定的借鉴或参考价值。

大数据下服装品牌知识挖掘浅析相关推荐

  1. 大数据下的BI新特性

    大数据下的BI新特性 大数据BI的新需求包括大量化(多个大数据集并行分析).多样化(结构化.半结构化.非结构化).快速化(Velocity)和价值(易用性).而计算分层(流计算.块计算.全局计算).快 ...

  2. 大数据建模、分析、挖掘技术应用研修班的通知

    --- 关于举办 2021年数字信息化培训项目系列 --- 大数据建模.分析.挖掘技术应用研修班的通知 各企事业单位: 随着2015年9月国务院发布了<关于印发促进大数据发展行动纲要的通知> ...

  3. 大数据下的精准营销,媒介们将何去何从

    大数据下的精准营销,媒介们将何去何从 现在很多头部的自媒体账号,百万粉丝开价都要几十万的广告费了,有人和某大号合作,要提前一个月预约,最后投放完有一个"10万+"的阅读,之后就没有 ...

  4. 人力资源数据分析师前景_人力资源数据分析师——大数据下的精英岗位

    人力资源数据分析师的工作而是通过横截面上数据的整体性分析,和纵向数据的历史演变和未来趋势,对公司人力资源情况有一个宏观的把握. 劳人研究生会,公众号:劳人研究生会劳有所学-职业介绍|人力资源数据分析师 ...

  5. 大数据下的小媒体——访新蓝网副总监洪永和

    [文章概述] <大数据下的小媒体>作者洪永和先生认为,新媒体在广播电视构架内,目前依旧处于始发阶段,一个比较边缘的地位,并未真正进入主流布局.更多只是作为战略布点的需要存在,作为平台延伸的 ...

  6. 大数据下的精准营销模式

    大数据在精确营销中的应用是在大数据的支持下,尽可能地获取消费者的信息,分析和挖掘消费者的潜在需求,并利用数据技术进行准确的实施,从而使营销更具针对性. 大数据下的精准营销模式 1.受众精准 大数据技术 ...

  7. 浅谈大数据下的机器学习

    大数据和机器学习是目前信息行业快速增长的两大热门领域.从过去的信息闭塞发展到现在数据爆炸,各个领域的数据量和数据规模增长速度都以惊人的速度增长.根据美国国家安全局的统计,互联网每天处理1826PB字节 ...

  8. 云计算&大数据 “下一幕”智能变革之力

    2019独角兽企业重金招聘Python工程师标准>>> 2016年的互联网科技领域,云计算.大数据.人工智能成为最热词汇.阿里云"为了无法估算的价值"将中国的计算 ...

  9. 2020 高考大数据下,数据可视化告诉你如何填志愿、选学校?

    高考分数是决定考生选择大学的基准,在填报志愿时,每个考生都想以最低的分数考入最好的大学,发挥分数的最大效能,即"把分数用足".那么,以博弈论的观点,就是要研究其间的相互作用,做出优 ...

最新文章

  1. 9开头的两位数相乘速算法
  2. Java 8 Friday Goodies:本地交易范围
  3. JavaScript中的数组创建
  4. spring boot mybatis 整合_Spring、MyBatis和SpringMVC的整合
  5. Flutter布局锦囊---绑定手机页
  6. 用纯JSP实现按条件查询数据库
  7. python 和 iphone 通过socket传数据注意
  8. 互联网信息安全与加密技术
  9. 企业协作工具竞品分析
  10. FreeRTOS 遇坑(1)
  11. 测评Mimick模型对词向量重构效果
  12. 为什么人人都是颜值控?
  13. linux mysql编译参数,Mysql 编译参数详解
  14. Pytorch入门实战 | 第P2周:彩色图片识别
  15. 什么专业的人适合学嵌入式?
  16. NIMK博弈游戏,POJ-2315 Football Game
  17. 以太网_什么是以太网
  18. Hadoop学习笔记(16)Hive的基本概念、Hive的下载与安装、MySQL数据库下载与安装
  19. 计算机的典型应用及事例,计算机网络典型应用案例精选
  20. 不忘初心,TCL冰箱洗衣机20周年从心出发

热门文章

  1. Android 自定义播放器旋转角度及手势调整声音亮度
  2. 《让一切随风》【钟镇涛】
  3. EAS BOS f7弹出指定窗体的操作方法
  4. 【陈工笔记】# 使用U盘进行WIN10 系统重装 #
  5. 重装系统大师计算机硬件不兼容,电脑重装系统能解决哪些问题?电脑重装系统后常见问题解决方法...
  6. pancakeswap薄饼添加流动性后实现永久锁仓
  7. RESTful接口架构是什么
  8. 网络安全专家,这5本入门秘籍人手一套
  9. 超级简单的3D slicer使用教程(一)
  10. python把一堆图片分成n份_用Python实现将一张图片分成9宫格的示例