期刊
  出版年
  关键词
结果中检索 Open Search
Please wait a minute...
选择: 显示/隐藏图片
1. 基于多敏感属性分级的( α ij, k,m)-匿名隐私保护方法
王秋月, 葛丽娜, 耿博, 王利娟
计算机应用    2018, 38 (1): 67-72.   DOI: 10.11772/j.issn.1001-9081.2017071863
摘要551)      PDF (1111KB)(378)    收藏
针对单敏感属性匿名化存在的局限性和关联攻击的危害问题,提出了基于贪心算法的( α ijkm)-匿名模型。首先,该( α ijkm)-匿名模型主要针对多敏感属性信息进行保护;然后,该模型为每个敏感属性的敏感值进行分级设置,有 m个敏感属性就有 m个分级表;其次,并为每个级别设置一个特定的 α ij;最后,设计了基于贪心策略的( α ijkm)匿名化算法,采取局部最优方法,实现该模型的思想,提高了对数据的隐私保护程度,并从信息损失、执行时间、等价类敏感性距离三个方面对4个模型进行对比。实验结果证明,该模型虽然执行时间稍长,但信息损失量小,对数据的隐私保护程度高,能够抵制关联攻击,保护多敏感属性数据。
参考文献 | 相关文章 | 多维度评价
2. 扩展知识图谱上的实体关系检索
王秋月, 覃雄派, 曹巍, 覃飙
计算机应用    2016, 36 (4): 985-991.   DOI: 10.11772/j.issn.1001-9081.2016.04.0985
摘要993)      PDF (1139KB)(748)    收藏
现有文本数据集上的实体搜索和自然语言查询方法无法处理需要将分散在不同文档中的信息碎片链接起来以满足有复杂实体关系的查询,而知识库上的查询虽然可以表示实体间的复杂关系,但由于知识库的异构性和不完全性,通常查全率较低。针对这些问题,提出使用文本数据集对知识库进行扩展,并设计相应的含文本短语的三元组模式查询以支持对知识库和文本数据的统一查询。在此基础上,设计并实现了查询放松机制和对结果元组的评分模型,并给出了高效的查询处理方法。使用YAGO、ClueWeb09和其上的FACC1数据集,在三个不同的查询测试集(实体检索、实体关系检索和复杂的实体关系查询)上与两个典型相关工作作了比较。实验结果显示,扩展知识图谱上使用查询放松规则的实体关系检索系统的检索效果大大超出了其他系统,具体地在三个查询测试集上,其平均正确率均值(MAP)比其他系统分别提升了27%、37%和64%以上。
参考文献 | 相关文章 | 多维度评价
3. 基于主题模型的深层网数据源选择算法
王秋月, 曹巍, 史少晨
计算机应用    2015, 35 (9): 2553-2559.   DOI: 10.11772/j.issn.1001-9081.2015.09.2553
摘要392)      PDF (1304KB)(363)    收藏
联邦搜索是从大规模深层网上获取信息的一种重要技术。给定一个用户查询,联邦搜索系统需要解决的一个主要问题是数据源选择问题,即从海量数据源中选出一组最有可能返回相关结果的数据源。现有的数据源选择算法大多基于数据源的样本文档集和查询之间的关键词匹配,通常无法很好地解决少量样本文档的信息缺失问题。针对这一问题,提出了基于隐含狄利克雷分布(LDA)主题模型进行数据源选择的方法。首先,使用LDA主题模型获得数据源和查询的主题概率分布;然后,通过比较两者主题概率分布的相近性来对所有数据源进行排序。通过将数据源和查询映射到低维的主题空间来解决高维词条空间稀疏性所带来的信息缺失问题。在TREC FedWeb 2013和2014 Track的测试集上分别进行了实验,并和其他参赛方法的结果进行了比较。在FedWeb 2013测试集上的实验结果显示比其他参赛方法的最好结果提高了24%;在FedWeb 2014测试集上的实验结果显示比传统的基于小文档和大文档的关键词匹配方法分别提高了22%和43%。另外,使用文档片段来代替文档还可以大幅提升系统的效率,更增加了此方法的实用性和可行性。
参考文献 | 相关文章 | 多维度评价
4. 大数据评测基准的研发现状与趋势
周晓云, 覃雄派, 王秋月
计算机应用    2015, 35 (4): 1137-1142.   DOI: 10.11772/j.issn.1001-9081.2015.04.1137
摘要514)      PDF (1039KB)(754)    收藏

工业界、学术界,以及最终用户都急切需要一个大数据的评测基准, 用以评估现有的大数据系统,改进现有技术以及开发新的技术。回顾了近几年来大数据评测基准研发方面的主要工作。 对它们的特点和缺点进行了比较分析。在此基础上, 对研发新的大数据评测基准提出了一系列考虑因素:1)为了对整个大数据平台的不同子工具进行评测, 以及把大数据平台作为一个整体进行评测, 需要研发面向组件的评测基准和面向大数据平台整体的评测基准, 后者是前者的有机组合;2)工作负载除了SQL查询之外, 必须包含大数据分析任务所需要的各种复杂分析功能, 涵盖各类应用需求;3)在评测指标方面,除了性能指标(响应时间和吞吐量)之外, 还需要考虑其他指标的评测, 包括系统的可扩展性、容错性、节能性和安全性等。

参考文献 | 相关文章 | 多维度评价