栏目文章信息

    第七届CCF大数据学术会议 栏目所有文章列表
    (按年度、期号倒序)
        一年内发表的文章 |  两年内 |  三年内 |  全部
    Please wait a minute...
    选择: 显示/隐藏图片
    1. 多维数值型敏感属性数据的个性化隐私保护方法
    张梅舒, 徐雅斌
    《计算机应用》唯一官方网站    2020, 40 (2): 491-496.   DOI: 10.11772/j.issn.1001-9081.2019091639
    摘要406)   HTML0)    PDF (588KB)(374)    收藏

    为了解决多维数值型敏感属性数据隐私保护方法中存在的准标识符属性信息损失大,以及不能满足用户对数值型敏感属性重要性排序的个性化需求问题,提出一种基于聚类和加权多维桶分组(MSB)的个性化隐私保护方法。首先,根据准标识符的相似程度,将数据集划分成若干准标识符属性值相近的子集;然后,考虑到用户对敏感属性的敏感程度不同,将敏感程度和多维桶的桶容量用于计算加权选择度和构建加权多维桶;最后,依此对数据进行分组和匿名化处理。选用UCI的标准Adult数据集中的8个属性进行实验,并与基于聚类和多维桶的数据隐私保护方法MNSACM和基于聚类和加权多维桶分组的个性化隐私保护方法WMNSAPM进行对比。实验结果表明,所提方法整体较优,并且在减少信息损失和运行时间方面明显优于对比方法,提高了数据质量和运行效率。

    图表 | 参考文献 | 相关文章 | 多维度评价
    2. 基于属性加密的多用户共享ORAM方案
    付伟, 顾晨阳, 高强
    《计算机应用》唯一官方网站    2020, 40 (2): 497-502.   DOI: 10.11772/j.issn.1001-9081.2019091634
    摘要396)   HTML1)    PDF (550KB)(210)    收藏

    不经意随机访问机(ORAM)是保护用户访问行为隐私安全的关键技术之一,但现有ORAM方案主要针对单用户访问需求,不支持多用户之间的数据共享。结合Ring ORAM方案和属性加密(ABE)技术,设计并实现了一种基于属性加密的多用户共享ORAM方案ABE-M-ORAM。该方案利用属性加密实现了细粒度的访问控制,既保护了用户访问行为的安全,又实现了用户之间便捷的数据共享。理论分析和仿真实验证明该方案具有较高的安全性、实用性以及较好的访问性能。

    图表 | 参考文献 | 相关文章 | 多维度评价
    3. 基于专家特征的条件互信息多标记特征选择算法
    程玉胜, 宋帆, 王一宾, 钱坤
    《计算机应用》唯一官方网站    2020, 40 (2): 503-509.   DOI: 10.11772/j.issn.1001-9081.2019091626
    摘要458)   HTML0)    PDF (818KB)(282)    收藏

    特征选择对于分类器的分类精度和泛化性能起重要作用。目前的多标记特征选择算法主要利用最大相关性最小冗余性准则在全部特征集中进行特征选择,没有考虑专家特征,因此多标记特征选择算法的运行时间较长、复杂度较高。实际上,在现实生活中专家依据几个或者多个关键特征就能够直接决定整体的预测方向。如果提取关注这些信息,必将减少特征选择的计算时间,甚至提升分类器性能。基于此,提出一种基于专家特征的条件互信息多标记特征选择算法。首先将专家特征与剩余的特征相联合,再利用条件互信息得出一个与标记集合相关性由强到弱的特征序列,最后通过划分子空间去除冗余性较大的特征。该算法在7个多标记数据集上进行了实验对比,结果表明该算法较其他特征选择算法有一定优势,统计假设检验与稳定性分析进一步证明了所提出算法的有效性和合理性。

    图表 | 参考文献 | 相关文章 | 多维度评价
    4. 低冗余计算的可达性查询保持图压缩策略
    赵丹枫, 林俊辰, 宋巍, 王建, 黄冬梅
    《计算机应用》唯一官方网站    2020, 40 (2): 510-517.   DOI: 10.11772/j.issn.1001-9081.2019091666
    摘要419)   HTML0)    PDF (634KB)(271)    收藏

    针对可达性查询保持图压缩(QPGC)算法存在冗余计算的问题,提出了一种高性能压缩策略。在求解顶点的祖先后代集阶段,针对普通图数据,提出一种基于拓扑排序的求解算法TSB,首先将图数据顶点拓扑排序,然后沿拓扑序列顺序(逆序)求解顶点的祖先(后代)集,避免了求解顺序不明确导致的冗余计算;针对最长路径较短的图数据,提出一种基于图聚合运算的求解算法AGGB,可在确定次数的聚合运算内完成顶点的祖先和后代集的求解。在求解可达性等价类阶段,提出一种分段统计剪枝算法PSP,先对祖先后代集分段统计,再比较统计值以实现粗匹配,剪除了部分不必要的精细匹配。实验结果表明,与QPGC算法相比:在祖先后代集求解阶段,TSB和AGGB在不同数据集上的性能平均提升94.22%和90.00%;在求解可达性等价类阶段,PSP算法在大部分数据集上性能提升超过70%;随着数据集的增大,TSB和AGGB配合PSP算法,性能提升了近28倍。理论分析和模拟实验表明,该策略与QPGC算法相比冗余计算更少、压缩速度更快。

    图表 | 参考文献 | 相关文章 | 多维度评价
    5. Spark下的分布式粗糙集属性约简算法
    章夏杰, 朱敬华, 陈杨
    《计算机应用》唯一官方网站    2020, 40 (2): 518-523.   DOI: 10.11772/j.issn.1001-9081.2019091642
    摘要426)   HTML3)    PDF (560KB)(290)    收藏

    属性约简(特征选择)作为数据预处理的重要环节,大多以属性依赖作为筛选属性子集的标准。设计了一种快速依赖计算方法FDC,通过直接寻找基于相对正域的对象来计算依赖度,而不需要预先求出相对正域,相比传统方法在速度上有明显的性能提升。另外,改进鲸鱼优化算法(WOA)使其能够有效应用于粗糙集属性约简。结合上述两个方法,提出一种基于Spark的分布式粗糙集属性约简算法SP-WOFRST,并在两组人工合成的大数据集上与另一种基于Spark的粗糙集属性约简算法SP-RST进行对比实验。实验结果表明所提出的SP-WOFRST算法在精度和速度上均优于SP-RST。

    图表 | 参考文献 | 相关文章 | 多维度评价
    6. 面向重大突发社会安全事件的新闻媒体国际影响力分析
    陈晨, 张绍武, 杨亮, 张冬瑜, 林鸿飞
    《计算机应用》唯一官方网站    2020, 40 (2): 524-529.   DOI: 10.11772/j.issn.1001-9081.2019091629
    摘要542)   HTML2)    PDF (1388KB)(260)    收藏

    大数据时代下重大突发社会安全事件的舆情主要通过媒体快速传播,但现有研究大都没有考虑新闻媒体这一特殊群体以及在某一类特定事件中新闻媒体的影响力。为了研究上述问题,提出一种综合用户间的网络结构与行为关系来评价影响力的方法,并以新疆暴恐和巴黎暴恐事件为例,得出在Twitter平台中各国新闻媒体在此类事件中的国际影响力。该评价方法可以更好地得出各新闻媒体在事件层面上的影响力。通过使用该评价方法对新疆暴恐事件和巴黎暴恐事件中新闻媒体影响力进行计算,实验结果显示,各国新闻媒体在新疆暴恐事件和巴黎暴恐事件中的影响力存在差异,说明这两起同类型事件的影响范围不同,同时也从侧面反映了各国政治立场的差异。

    图表 | 参考文献 | 相关文章 | 多维度评价
    7. 基于物品的统一推荐模型
    邓凯, 黄佳进, 秦进
    《计算机应用》唯一官方网站    2020, 40 (2): 530-534.   DOI: 10.11772/j.issn.1001-9081.2019101791
    摘要424)   HTML2)    PDF (565KB)(322)    收藏

    用户-物品交互模式建模是个性化推荐的一项重要任务,许多推荐系统都基于用户与商品之间存在线性关系的假设,忽略了现实物品与历史物品之间交互的复杂性和非线性,导致这些系统不足以捕捉到用户的复杂决策过程。为此,将一个更有表现力的Top-N推荐系统的物品相似性因子模型解决方法与多层感知机方法相结合,以有效地建模物品之间的高阶关系,捕获更复杂的用户决策。分别在三个数据集MovieLens、Foursquare和ratings_Digital_Music上验证了结合后的效果,并与基准方法MLP、分解物品相似度模型(FISM)、DeepICF和ItemKNN进行对比,结果表明,所提出的方法在推荐性能上有明显的提高。

    图表 | 参考文献 | 相关文章 | 多维度评价
    8. 基于BERT的警情文本命名实体识别
    王月, 王孟轩, 张胜, 杜渂
    《计算机应用》唯一官方网站    2020, 40 (2): 535-540.   DOI: 10.11772/j.issn.1001-9081.2019101717
    摘要867)   HTML12)    PDF (642KB)(841)    收藏

    针对警情领域关键实体信息难以识别的问题,提出一种基于BERT的神经网络模型BERT-BiLSTM-Attention-CRF用于识别和提取相关命名实体,且针对不同案由设计了相应的实体标记注规范。该模型使用BERT预训练词向量代替传统Skip-gram和CBOW等方式训练的静态词向量,提升了词向量的表证能力,同时解决了中文语料采用字向量训练时词语边界的划分问题;还使用注意力机制改进经典的命名实体识别(NER)模型架构BiLSTM-CRF。BERT-BiLSTM-Attention-CRF模型在测试集上的准确率达91%,较CRF++的基准模型提高7%,也高于BiLSTM-CRF模型86%的准确率,其中相关人名、损失金额、处理方式等实体的F1值均高于0.87。

    图表 | 参考文献 | 相关文章 | 多维度评价
    9. 面向NVM存储系统的快速文件访问系统
    贺庆建, 蔡涛, 王杰, 牛德姣
    《计算机应用》唯一官方网站    2020, 40 (2): 541-546.   DOI: 10.11772/j.issn.1001-9081.2019091655
    摘要437)   HTML0)    PDF (602KB)(208)    收藏

    NVM存储设备系统具备提供高吞吐的潜质,包括接近内存的读写速度、字节寻址特性和支持多路转发等优势。但现有的系统软件栈并没有针对NVM去设计,使得系统软件栈存在许多影响系统访问性能的因素。通过分析发现文件系统的锁机制具有较大的开销,这使得数据的并发访问在多核心环境下成为一个难题。为了缓解这些问题,设计了无锁的文件读写机制以及基于字节的读写接口。通过取消基于文件的锁机制改变了粗粒度的访问控制,利用自主管理请求提高了进程的并发度;在设计能够利用字节寻址的新的文件访问接口时,不仅考虑了NVM存储设备的读写非对称,还考虑了其读写操作的不同特性。这些设计减少了软件栈的开销,有利于发挥NVM特性来提供一个高并发、高吞吐和耐久的存储系统。最后利用开源NVM模拟器PMEM实现了FPMRW原型系统,使用Filebench通用测试工具对FPMRW进行测试与分析,结果显示,FPMRW相对EXT+PMEM和XFS+PMEM能提高3%~40%的系统吞吐率。

    图表 | 参考文献 | 相关文章 | 多维度评价
    10. 基于Kubernetes的云原生海量数据存储系统设计与实现
    刘福鑫, 李劲巍, 王熠弘, 李琳
    《计算机应用》唯一官方网站    2020, 40 (2): 547-552.   DOI: 10.11772/j.issn.1001-9081.2019101732
    摘要734)   HTML20)    PDF (560KB)(565)    收藏

    为应对云原生技术的日益发展与普及伴随的云上数据量的激增及该技术在性能与稳定性等方面所出现的瓶颈,提出了一种基于Haystack的存储系统。该存储系统在服务发现、自动容错与缓存方面进行了优化,更适用于云原生业务,以满足数据采集、存储与分析行业不断增长且频次较高的文件存储与读写需求。该存储系统使用对象存储模型来满足高频海量的文件存储,为使用该存储系统的业务提供简单而统一的应用程序接口,应用了文件缓存策略提升资源利用率,同时利用Kubernetes丰富的自动化工具链使该存储系统比其他存储系统更容易部署和扩展且更稳定。实验结果表明,该存储系统在读多于写的大规模碎片数据存储情境下相比目前主流的对象存储与文件系统均有一定的性能与稳定性提升。

    图表 | 参考文献 | 相关文章 | 多维度评价
    11. 面向特定目标自识别的交通图像语义检索方法
    赵一, 段兴, 谢仕义, 梁春林
    《计算机应用》唯一官方网站    2020, 40 (2): 553-560.   DOI: 10.11772/j.issn.1001-9081.2019101795
    摘要353)   HTML0)    PDF (1320KB)(426)    收藏

    为了从海量的道路交通图像中检索出违反交通法规的图像,提出了一种特定目标自识别的语义图像检索方法。首先,通过交通领域专家建立交通领域本体及道路交通规则描述;然后,通过卷积神经网络(CNN)对交通图像的特征进行提取,并结合改进的支持向量机决策树(SVM-DT)算法对图像特征进行分类的策略,对交通图像中的特定目标及目标间空间位置关系进行自动识别,并映射成为相应的本体实例及其对象之间的关联关系(规则实例);最后,利用本体实例和规则实例,通过推理得到语义检索结果。实验结果表明,相比关键字和本体交通图像语义检索方法,所提方法具有更高的准确率、召回率和检索效率。

    图表 | 参考文献 | 相关文章 | 多维度评价
    12. 基于多尺度卷积特征融合的肺结节图像检索方法
    顾军华, 王锋, 戚永军, 孙哲然, 田泽培, 张亚娟
    《计算机应用》唯一官方网站    2020, 40 (2): 561-565.   DOI: 10.11772/j.issn.1001-9081.2019091641
    摘要507)   HTML1)    PDF (644KB)(298)    收藏

    为了解决肺结节图像检索中特征提取难度大、检索精度低下的问题,提出了一种深度网络模型——LMSCRnet用于提取图像特征。首先采用多种不同尺寸滤波器卷积的特征融合方法以解决肺结节大小不一引起的局部特征难以获取的问题,然后引入SE-ResNeXt块来得到更高级的语义特征同时减少网络退化,最后得到肺结节图像的高级语义特征表示。为满足现实中大数据量检索任务的需求,将距离计算及排序过程部署到Spark分布式平台上。实验结果表明,基于LMSCRnet的特征提取方法能够更好地提取图像高级语义信息,在肺结节预处理数据集LIDC上能够达到84.48%的准确率,检索精度高于其他检索方法,而且使用Spark分布式平台完成相似度匹配及排序过程使得检索方法能够满足大数据量检索任务需求。

    图表 | 参考文献 | 相关文章 | 多维度评价
    13. 基于循环一致性对抗网络的数码迷彩伪装生成方法
    滕旭, 张晖, 杨春明, 赵旭剑, 李波
    《计算机应用》唯一官方网站    2020, 40 (2): 566-570.   DOI: 10.11772/j.issn.1001-9081.2019091625
    摘要600)   HTML8)    PDF (5080KB)(421)    收藏

    针对传统的数码迷彩生成方法无法根据背景实时生成数码迷彩的问题,提出一种基于循环一致性对抗网络的数码迷彩生成方法。首先,使用密集连接卷积网络提取图像特征,将学习到的数码迷彩特征映射到背景图像中;其次,加入颜色保持损失来提高数码迷彩的生成质量,保证生成的数码迷彩与周围的背景颜色相一致;最后,在判别器中加入自归一化神经网络以提高模型对噪声的鲁棒性。由于缺乏数码迷彩伪装效果的客观评价标准,采用边缘检测算法与结构相似性(SSIM)算法对生成的数码迷彩的伪装效果进行评估。实验结果表明,该方法在自制数据集上生成的数码迷彩伪装的SSIM得分比已有算法的得分降低了30%以上,验证了它在数码迷彩生成任务上的有效性。

    图表 | 参考文献 | 相关文章 | 多维度评价
2024年 44卷 3期
刊出日期: 2024-03-10
文章目录
过刊浏览
荣誉主编:张景中
主  编:徐宗本
副主编
:申恒涛 夏朝晖

国内邮发代号:62-110
国外发行代号:M4616
地址:四川成都双流区四川天府新区
   兴隆街道科智路1369号
   中科信息(科学城园区) B213
   (计算机应用编辑部)
电话:028-85224283-803
   028-85222239-803
网址:www.joca.cn
E-mail: bjb@joca.cn
期刊微信公众号
CCF扫码入会