本年度以大数据和数据科学为主题,开展了一系列的理论、方法与应用的研究,取得了一些重要的研究成果。研究室承担着多项国家级项目,包括国家自然科学基金重点项目和国际重大合作项目等,并与企业合作将研究成果得以应用。完成“1号店客户及入驻店铺价值及信用评分项目研究”,为中国最具代表性的电子商务企业提供在客户和入驻店铺价值评分方面系统、全面、可操作的评价体系和方法论指导,使1号店完成了由数据资源到客户价值的量化评估。在“新华08”数据标准规范体系研究项目中,针对金融财经数据服务特点建立一系列数据规范标准以及数据规范标准的维护更新体系,为用户提供一个了稳定、统一、规范、方便、高效的数据服务平台。研究室还成功举办第一届国际数据科学大会和第二届信息技术与量化管理国际会议,组织召开2014年大数据与数据科学进展主题论坛。出版了英文专著《Intelligent Knowledge-A study beyond Data Mining》(石勇,张玲玲,田英杰,李兴森),研究室创建的数据科学国际学术期刊《Annals of Data Science》,已经出版了2014年第一卷的三期内容。以研究室为主体申请的中国科学院大数据挖掘与知识管理重点实验室获批。研究室还发表了包括顶级期刊IEEE TNNLS在内的多篇学术论文。
关联分析与建模是网络异构媒体数据分析的重要技术之一。基于异构媒体的自然属性和社会属性,融合多源信息对其中蕴含的复杂关联进行建模分析,建立了特征表示层、中层属性层和语义层的跨媒体复杂关联分析框架,取得了较为丰富的研究成果。所提出的“基于层次化语义跨模态局部子空间融合学习方法”,具体内容见(二)中对应部分,是基于异构媒体数据内在语义的层次化特性,针对跨媒体单一模态的语义学习和特征学习协同机制,构建具有语义一致性的跨模态子空间学习和语义融合机制,从而对跨模态内容进行统一表示。本部分研究成果相继发表在国际会议ICIP 2014和ICDM 2014上(Regular paper,录用率9.5%,为数据挖掘高水平国际会议)。此外,基于跨模态关联分析的成果,构建了跨模态关联与检索排序的演示系统。刘莹的基于GPU并行计算的推荐算法获得了千倍以上的加速比,使得协同过滤算法可以在大规模的真实应用中使用,并发表在Journal of Supercomputing。