计算机应用

• 人工智能与仿真 •    下一篇

Bigdata 184:基于 Consume2Vec模型的校园一卡通大数据分析

韩泽峰1,杨涛2,侯琳琳3,田强4,刘良金2,吴偶1   

  1. 1. 天津大学应用数学中心
    2. 杭州知乎者也科技有限公司教育大数据研发中心
    3. 南开大学组合数学中心
    4. 天津师范大学
  • 收稿日期:2019-09-26 发布日期:2019-09-26 出版日期:2020-05-12
  • 通讯作者: 吴偶
  • 作者简介:韩泽峰(1995—),男,河北沧州人,硕士研究生,主要研究方向:机器学习、自然语言处理; 杨涛(1994—),男,湖南邵阳人,硕士研 究生,主要研究方向:教育大数据挖掘、深度学习、自然语言处理; 侯琳琳(1994—),女,吉林通化人,博士研究生,主要研究方向:自然语言处理、 机器学习; 田强(1982—),男,天津人,博士研究生,主要研究方向:人类行为动力学、复杂网络、风险计算; 刘良金(1986—),男,安徽合肥人, 硕士研究生,主要研究方向:教育信息管理; 吴偶(1982—),男,湖北大悟人,教授,博士研究生,CCF会员,主要研究方向:数据挖掘、机器学习。
  • 基金资助:
    国家自然科学基金资助项目(61673377);天津人工智能专项(17ZXRGGX00150)。

Consume2Vec model-based analysis of campus card big data

HAN Zefeng,YANG Tao,HOU Linlin,TIAN Qiang,LIU Liangjin,WU Ou   

  • Received:2019-09-26 Online:2019-09-26 Published:2020-05-12

摘要: 现有的一卡通数据挖掘方法大多采用统计、聚类、关联规则等浅层机器学习和数据挖掘方法,忽略了消费数据的时序性,缺乏对数据的深度表达。基于深度神经网络,提出了能够对消费数据时序性和关联性进行深度挖掘的 Consume2Vec模型,并在此模型的基础上构建消费异常检测模型。通过在大规模一卡通消费数据上进行实验,验证了两个具体 Consume2Vec模型的性能,并从不同维度将学生划分为不同群体进行对比分析,发现学生的消费规律和特点。

关键词: 校园一卡通大数据, Transformer, 长短期记忆, 局部异常因子算法, 消费异常检测

Abstract: Most of the existing campus card data mining methods use shallow machine learning and data mining methods such as statistics,clustering,and association rules,ignoring the timing of consumption data and lacking deep expression of data. This paper proposed a Consume2Vec model based on deep neural network,which can deeply mine the timing and correlation among consumption data,and build a consumption anomaly detection model based on Consume2Vec model. Experiments were conducted on a large-scale card consumption data,verify the performance of two specific Consume2Vec models,and divide the students into different groups from different dimensions for comparative analysis,and find some consumption rules and characteristics of students.

Key words: campus card big data, Transformer, Long Short-Term Memory (LSTM), Local Outliner Factor (LOF) algorithm, consumption anomaly detection

中图分类号: