栏目文章信息

    数据技术 栏目所有文章列表
    (按年度、期号倒序)
        一年内发表的文章 |  两年内 |  三年内 |  全部
    Please wait a minute...
    选择: 显示/隐藏图片
    1. 基于主题模型的深层网数据源选择算法
    王秋月, 曹巍, 史少晨
    计算机应用    2015, 35 (9): 2553-2559.   DOI: 10.11772/j.issn.1001-9081.2015.09.2553
    摘要344)      PDF (1304KB)(296)    收藏
    联邦搜索是从大规模深层网上获取信息的一种重要技术。给定一个用户查询,联邦搜索系统需要解决的一个主要问题是数据源选择问题,即从海量数据源中选出一组最有可能返回相关结果的数据源。现有的数据源选择算法大多基于数据源的样本文档集和查询之间的关键词匹配,通常无法很好地解决少量样本文档的信息缺失问题。针对这一问题,提出了基于隐含狄利克雷分布(LDA)主题模型进行数据源选择的方法。首先,使用LDA主题模型获得数据源和查询的主题概率分布;然后,通过比较两者主题概率分布的相近性来对所有数据源进行排序。通过将数据源和查询映射到低维的主题空间来解决高维词条空间稀疏性所带来的信息缺失问题。在TREC FedWeb 2013和2014 Track的测试集上分别进行了实验,并和其他参赛方法的结果进行了比较。在FedWeb 2013测试集上的实验结果显示比其他参赛方法的最好结果提高了24%;在FedWeb 2014测试集上的实验结果显示比传统的基于小文档和大文档的关键词匹配方法分别提高了22%和43%。另外,使用文档片段来代替文档还可以大幅提升系统的效率,更增加了此方法的实用性和可行性。
    参考文献 | 相关文章 | 多维度评价
    2. 基于主题种子词的情感分析方法
    陈永恒, 左万利, 林耀进
    计算机应用    2015, 35 (9): 2560-2564.   DOI: 10.11772/j.issn.1001-9081.2015.09.2560
    摘要512)      PDF (884KB)(353)    收藏
    产品或服务的情感主题分析,有利于用户从海量的评论集中快速地了解到自己关注产品或服务的主题情感信息。针对现存非监督情感分析模型情感主题发现性能不足的问题,提出了一种的基于主题种子词的情感分析方法,该方法在自动构建领域主题种子词及主题文本基础上,利用主题种子词监督的情感分析模型(SAA_SSW)实现主题及其关联情感的联合发现。实验结果表明,相比传统的情感/主题联合模型(JST)和主题情感统一模型(ASUM),SAA_SSW能够识别出相同的词在不同的主题下具有的情感标签,挖掘的情感词与主题之间的相关度更高;另外,基于不同情感字典进行分类精度分析,SAA_SSW的分类精度相对于这两种模型至少提高7.5%。所以,SAA_SSW模型能很好地完成情感主题的发现,以及具有较高的情感分类精度。
    参考文献 | 相关文章 | 多维度评价
    3. 面向大规模学术社交网络的社区发现模型
    李春英, 汤庸, 汤志康, 黄泳航, 袁成哲, 赵剑冬
    计算机应用    2015, 35 (9): 2565-2568.   DOI: 10.11772/j.issn.1001-9081.2015.09.2565
    摘要531)      PDF (779KB)(390)    收藏
    针对基于标签传播的复杂网络重叠社区发现算法中预先输入参数在真实网络中的局限性以及标签冗余等问题,提出一种基于标签传播的面向大规模学术社交网络的社区发现模型。该模型通过寻找网络中互不相交的最大极大团(UMC)并对每个UMC中的节点赋予唯一标签来减少冗余标签,提高社区发现的效率以及稳定性。标签更新时以UMC作为核心单位采用亲密度的方式由中心向四周更新UMC邻接节点的标签及权重,以权重最大值的方式更新网络中非UMC邻接节点的权重。后期处理阶段采用自适应阈值方式去除节点标签中的噪声,有效克服了预先输入重叠社区个数在真实网络中的局限性。通过在学术社交网络平台——学者网数据集上的实验表明,该模型能够将具有一定共性的节点划分到同一个社区中,并为学术社交网络平台进一步的好友推荐、论文分享等精确的个性化服务提供了支持。
    参考文献 | 相关文章 | 多维度评价
    4. 基于主题模型的个性化图书推荐算法
    郑祥云, 陈志刚, 黄瑞, 李博
    计算机应用    2015, 35 (9): 2569-2573.   DOI: 10.11772/j.issn.1001-9081.2015.09.2569
    摘要579)      PDF (762KB)(18353)    收藏
    针对传统推荐算法精准度不高的问题,在潜在狄利克雷分布(LDA)主题挖掘模型的基础上提出了一种新的适用于图书推荐(BR)的数据挖掘模型——BR_LDA模型。通过对目标借阅者的历史借阅数据与其他图书数据进行内容相似度分析,得到与目标借阅者历史借阅图书内容相似度较高的其他图书。通过对目标借阅者的历史借阅数据及其他借阅者的历史借阅数据进行相似性分析,得到最近邻借阅者的历史借阅数据。通过求解图书被推荐的概率,最终得到目标借阅者潜在感兴趣的图书。特别地,当推荐数量为4000时,BR_LDA模型比基于多特征方法和关联规则方法精准度分别提高了6.2%、4.5%;当推荐数量为500时,BR_LDA模型比协同过滤的近邻方法和矩阵分解方法分别提高了2.1%、0.5%。实验表明本模型能够更准确地向目标借阅者推荐历史感兴趣类别的新图书及潜在感兴趣的新类别的图书。
    参考文献 | 相关文章 | 多维度评价
    5. 基于显式与隐式反馈信息的概率矩阵分解推荐
    王东, 陈志, 岳文静, 高翔, 王峰
    计算机应用    2015, 35 (9): 2574-2578.   DOI: 10.11772/j.issn.1001-9081.2015.09.2574
    摘要546)      PDF (855KB)(545)    收藏
    针对现有的基于用户显式反馈信息的推荐系统推荐准确率不高的问题,提出了一种基于显式与隐式反馈信息的概率矩阵分解推荐方法。该方法综合考虑了显示反馈信息和隐式反馈信息,在对用户信任关系矩阵和商品评分矩阵进行概率分解的同时加入了用户评分记录的隐式反馈信息,优化训练模型参数,为用户提供精确的预测评分。实验结果表明,该方法可以有效地获得用户偏好,产生大量的准确度高的推荐。
    参考文献 | 相关文章 | 多维度评价
    6. 强偏序时态模式中混合依赖集的成员籍问题
    万静, 刘芳
    计算机应用    2015, 35 (8): 2345-2349.   DOI: 10.11772/j.issn.1001-9081.2015.08.2345
    摘要449)      PDF (919KB)(340)    收藏

    有效的模式分解算法设计中应着重考虑和解决成员籍问题,时态类型间偏序关系在强偏序时态模式中的存在给解决成员籍问题带来了困难。为了有效解决强偏序时态模式中混合依赖集的成员籍问题,提出了给定时态类型上的偏序混合依赖基、强偏序模式混合依赖基、偏序时态函数依赖和偏序时态多值依赖的混合集闭包、强偏序模式混合闭包等概念,给出了求混合依赖集中属性的依赖基、属性集的闭包的算法,并在此基础上给出了强偏序模式混合依赖集成员籍问题的算法,证明了其正确性及可终止性,对该算法的时间复杂度进行了分析。应用实例表明相关理论和算法能解决强偏序混合依赖集中成员籍问题的判定问题,为解决强偏序时态模式规范化问题以及时态数据库设计提供了理论基础。

    参考文献 | 相关文章 | 多维度评价
    7. 区间值模糊软集的信息测度及其聚类算法
    彭新东, 杨勇
    计算机应用    2015, 35 (8): 2350-2354.   DOI: 10.11772/j.issn.1001-9081.2015.08.2350
    摘要643)      PDF (793KB)(372)    收藏

    针对区间值模糊软集信息测度难以精确定义的问题,提出了区间值模糊软集的距离测度、相似度、熵、包含度、子集度的公理化定义,给出了区间值模糊软集的信息测度公式,并讨论了它们的转换关系。然后提出了一个基于相似度的聚类算法,该算法结合区间值模糊软集的特性,着重对给出评价对象的具有相似知识水平的专家进行聚类,同时讨论了算法的计算复杂度。最后通过实例说明该算法能有效地处理专家聚类问题。

    参考文献 | 相关文章 | 多维度评价
    8. 基于粗糙集的非监督快速属性选择算法
    白鹤翔, 王健, 李德玉, 陈千
    计算机应用    2015, 35 (8): 2355-2359.   DOI: 10.11772/j.issn.1001-9081.2015.08.2355
    摘要600)      PDF (773KB)(349)    收藏

    针对"大数据"中常见的大规模无监督数据集中特征选择速度难以满足实际应用要求的问题,在经典粗糙集绝对约简增量式算法的基础上提出了一种快速的属性选择算法。首先,将大规模数据集看作一个随机到来的对象序列,并初始化候选约简为空集;然后每次都从大规模数据集中无放回地随机抽取一个对象,并且每次都判断使用当前候选约简能否区分这一对象和当前对象集中所有应当区分的对象,并将该对象放入到当前对象集中,如果不能区分则向候选约简中添加合适的属性;最后,如果连续I次都没有发现无法区分的对象,那么将候选约简作为大规模数据集的约简。在5个非监督大规模数据集上的实验表明,所求得的约简能够区分95%以上的对象对,并且求取该约简所需的时间不到基于区分矩阵的算法和增量式约简算法的1%;在文本主题挖掘的实验中,使用约简后的数据集挖掘出的文本主题同原始数据集挖掘出的主题基本一致。两组实验结果表明该方法能够有效快速对大规模数据集进行属性选择。

    参考文献 | 相关文章 | 多维度评价
    9. 基于可变容差关系的变精度粗糙集模型
    郑树梅, 续欣莹, 谢珺, 闫高伟
    计算机应用    2015, 35 (8): 2360-2365.   DOI: 10.11772/j.issn.1001-9081.2015.08.2360
    摘要402)      PDF (979KB)(295)    收藏

    针对已有不完备信息系统扩展粗糙集模型对噪声鲁棒性差的局限性,首先分析了调节基本知识粒大小的同时引入相对错误分类度的必要性;然后结合系统属性值的缺失定义了对象联系度权值矩阵,并以此为基础提出了基于可变容差关系的变精度粗糙集模型(VPRS-VPTR);接着讨论了模型的性质,分析了模型中相关参数(基本知识粒大小、相对错误分类度)对分类精度的影响,给出了分类精度随模型中相关参数变化的求解算法与时间复杂度分析;最后通过仿真实验与相关研究的扩展粗糙集模型进行对比。仿真结果显示,VPRS-VPTR分类精度更高,而且针对UCI数据库上的几组不完备数据集进行仿真实验的结果还表明,相同参数下各不完备数据集的测试集和训练集分类精度变化趋势相同,进而验证了模型的有效性、灵活性及所提算法的可行性。

    参考文献 | 相关文章 | 多维度评价
    10. 新的基于区分对象集的邻域粗糙集属性约简算法
    梁海龙, 谢珺, 续欣莹, 任密蜂
    计算机应用    2015, 35 (8): 2366-2370.   DOI: 10.11772/j.issn.1001-9081.2015.08.2366
    摘要480)      PDF (695KB)(333)    收藏

    基于正域的属性约简算法是利用"下近似"思想,仅考虑被正确区分样本数的约简算法。借鉴"上近似"的思想,利用"邻域信息粒"的概念定义了区分对象集,探讨了其基本性质,并提出了基于区分对象集的属性重要度度量及启发式属性约简算法。该约简算法既考虑信息决策表的相对正域,也考虑以核属性为启发信息逐个增加条件属性时对边界域样本的影响。通过实例分析,说明了所提算法的可行性,并且以6个UCI标准数据集为实验对象,与基于正域的属性约简算法进行对比实验。实验结果说明,采用提出的约简算法得到的约简属性集,与基于正域的属性约简算法相比,在进行分类任务时的分类精度能够保持不变或有所提高。

    参考文献 | 相关文章 | 多维度评价
    11. 基于增量计算的信息系统属性粒结构计算方法
    郝彦彬, 郭晓, 杨乃定
    计算机应用    2015, 35 (7): 1915-1920.   DOI: 10.11772/j.issn.1001-9081.2015.07.1915
    摘要355)      PDF (924KB)(453)    收藏

    针对不可分离信息系统的属性粒结构计算问题,提出一种利用分治和增量计算相结合的计算方法。首先,研究了在信息系统函数依赖集上增加新的函数依赖(FD)后,信息系统属性粒结构的变化规律,证明了信息系统结构增量定理;其次,通过移除部分函数依赖,使不可分离信息系统成为可分离信息系统,利用分解定理计算出可分离信息系统结构;然后,将移除的函数依赖加入可分离信息系统,利用增量定理计算出原信息系统结构;最后,给出了计算不可分离信息系统属性粒结构的算法,分析了算法复杂度。与直接计算不可分离信息系统的粒结构相比,该计算方法可将计算复杂度从O(n×m×2n)降低到小于O(n×k×2n)(k<m),并且当k=1,2时,可进一步降低为O(n1×m1×2n1)+O(n2×m2×2n2)(n=n1+n2,m=m1+m2)。理论分析和实例计算表明,所提方法能有效降低不可分离信息系统属性粒结构的计算复杂度。

    参考文献 | 相关文章 | 多维度评价
    12. 基于模式增长的不确定数据的频繁模式挖掘算法
    王乐, 常艳芬, 王水
    计算机应用    2015, 35 (7): 1921-1926.   DOI: 10.11772/j.issn.1001-9081.2015.07.1921
    摘要435)      PDF (898KB)(679)    收藏

    为提高不确定数据频繁模式(FP)挖掘算法的时空效率,提出了基于最大概率的不确定频繁模式挖掘(UFPM-MP)算法。首先,利用事务项集中的最大概率值预估期望支持数;然后,使用该期望支持数与最小期望支持数阈值进行比较,以确定某一项集是否为候选频繁项集,并对候选项集建立子树以递归挖掘频繁模式。实验中,UFPM-MP算法与AT-Mine算法进行了对比,并在6个典型的数据集上进行实验验证。实验结果表明,UFPM-MP算法的时空效率得到了提高,稀疏数据集上提高约30%,稠密数据集上的效率提高更为明显(约3~4倍)。预估期望支持数的策略有效地减少了子树和头表项的数量,从而提高了算法的时空效率;且最小期望支持数越小,或需要挖掘的频繁模式越多的时候,算法的时间效率提高越多。

    参考文献 | 相关文章 | 多维度评价
    13. 基于近邻传播与密度相融合的进化数据流聚类算法
    邢长征, 刘剑
    计算机应用    2015, 35 (7): 1927-1932.   DOI: 10.11772/j.issn.1001-9081.2015.07.1927
    摘要442)      PDF (1078KB)(620)    收藏

    针对目前数据流离群点不能很好地被处理、数据流聚类效率较低以及对数据流的动态变化不能实时检测等问题,提出一种基于近邻传播与密度相融合的进化数据流聚类算法(I-APDenStream)。此算法使用传统的两阶段处理模型,即在线与离线聚类两部分。不仅引进了能够体现数据流动态变化的微簇衰减密度以及在线动态维护微簇的删减机制,而且在对模型采用扩展的加权近邻传播(WAP)聚类进行模型重建时,还引进了异常点检测删除机制。通过在两种类型数据集上的实验结果表明,所提算法的聚类准确率基本能保持在95%以上,其纯度对比实验等其他相关测试都有较好结果,能够高实效、高质量、高效率地处理数据流数据聚类。

    参考文献 | 相关文章 | 多维度评价
    14. 大数据评测基准的研发现状与趋势
    周晓云, 覃雄派, 王秋月
    计算机应用    2015, 35 (4): 1137-1142.   DOI: 10.11772/j.issn.1001-9081.2015.04.1137
    摘要459)      PDF (1039KB)(639)    收藏

    工业界、学术界,以及最终用户都急切需要一个大数据的评测基准, 用以评估现有的大数据系统,改进现有技术以及开发新的技术。回顾了近几年来大数据评测基准研发方面的主要工作。 对它们的特点和缺点进行了比较分析。在此基础上, 对研发新的大数据评测基准提出了一系列考虑因素:1)为了对整个大数据平台的不同子工具进行评测, 以及把大数据平台作为一个整体进行评测, 需要研发面向组件的评测基准和面向大数据平台整体的评测基准, 后者是前者的有机组合;2)工作负载除了SQL查询之外, 必须包含大数据分析任务所需要的各种复杂分析功能, 涵盖各类应用需求;3)在评测指标方面,除了性能指标(响应时间和吞吐量)之外, 还需要考虑其他指标的评测, 包括系统的可扩展性、容错性、节能性和安全性等。

    参考文献 | 相关文章 | 多维度评价
    15. 基于Hadoop的海量嘈杂数据决策树算法的实现
    刘亚秋, 李海涛, 景维鹏
    计算机应用    2015, 35 (4): 1143-1147.   DOI: 10.11772/j.issn.1001-9081.2015.04.1143
    摘要585)      PDF (750KB)(587)    收藏

    针对当前决策树算法较少考虑训练集的嘈杂程度对模型的影响,以及传统驻留内存算法处理海量数据困难的问题,提出一种基于Hadoop平台的不确定概率C4.5算法——IP-C4.5算法。在训练模型时,IP-C4.5算法认为用于建树的训练集是不可靠的,通过用基于不确定概率的信息增益率作为分裂属性选择标准,减小了训练集的嘈杂性对模型的影响。在Hadoop平台下,通过将IP-C4.5算法以文件分裂的方式进行MapReduce化程序设计,增强了处理海量数据的能力。与C4.5和完全信条树(CCDT)算法的对比实验结果表明,在训练集数据是嘈杂的情况下,IP-C4.5算法的准确率相对更高,尤其当数据嘈杂度大于10%时,表现更加优秀;并且基于Hadoop的并行化的IP-C4.5算法具有处理海量数据的能力。

    参考文献 | 相关文章 | 多维度评价
    16. 基于位置簇的移动生活服务个性化推荐技术
    郑慧, 李冰, 陈冬林, 刘平峰
    计算机应用    2015, 35 (4): 1148-1153.   DOI: 10.11772/j.issn.1001-9081.2015.04.1148
    摘要623)      PDF (842KB)(569)    收藏

    当前的移动推荐系统只将位置信息作为推荐属性处理,弱化了其在推荐中所起的作用,更重要的是忽略了移动生活服务位置相关性和用户空间运动有界性特征。针对该问题,设计了基于位置簇的用户偏好表示模型和移动生活服务个性化推荐算法。该算法通过模糊聚类得到位置簇,使用遗忘因子调节用户在该位置簇对服务资源属性值的偏好,并且采用概率分布和信息熵理论计算属性权重,按位置簇对用户偏好和服务资源进行匹配得到top-N推荐集。由于位置簇的定义,使得算法给出与用户偏好相似度较高的服务资源。案例分析结果符合这一结论,从而验证了算法的有效性和精确性。

    参考文献 | 相关文章 | 多维度评价
    17. 基于Skyline的搜索结果排序方法
    尹文科, 吴姗姗, 丁峰, 荀智德
    计算机应用    2015, 35 (4): 1154-1158.   DOI: 10.11772/j.issn.1001-9081.2015.04.1154
    摘要431)      PDF (871KB)(587)    收藏

    针对现有垂直搜索引擎的排序结果存在多样性差和冗余度高的问题,提出了一种基于Skyline的搜索结果排序方法。该方法通过计算搜索结果的轮廓等级、支配度和覆盖度作为排序依据,并且为加快轮廓等级和支配度的计算,使用了一种基于Bitmap的轮廓等级和支配度计算算法。实验结果表明,该方法的排序结果具有低冗余度和高多样性的优点,并且具有更快的轮廓等级和支配度计算速度。

    参考文献 | 相关文章 | 多维度评价
    18. 基于Linux内核的Key-Value存储系统——KStore
    谢沛东, 武延军
    计算机应用    2015, 35 (1): 99-102.   DOI: 10.11772/j.issn.1001-9081.2015.01.0099
    摘要909)      PDF (749KB)(565)    收藏

    Key-Value存储系统在各种互联网服务中被广泛使用,但现有的Key-Value存储系统通常在用户态空间设计和实现,因为频繁的模式切换和上下文切换,导致访问接口、事务处理效率不高,在高并发、低延迟的数据存储需求中尤为突出.针对该问题,给出了一个内核态Key-Value存储系统的实现——KStore:提供内核空间的索引和内存分配机制,并在此基础上,通过基于内核Socket的远程接口以及基于文件系统的本地接口,保证了KStore的低延迟;同时,通过基于内核多线程的并发处理机制,保证了KStore的并发性.实验结果表明,与Memcached相比,KStore在实时性和并发性方面都取得显著优势.

    参考文献 | 相关文章 | 多维度评价
    19. 基于HBase的交通流数据实时存储系统
    陆婷, 房俊, 乔彦克
    计算机应用    2015, 35 (1): 103-107.   DOI: 10.11772/j.issn.1001-9081.2015.01.0103
    摘要775)      PDF (1041KB)(682)    收藏

    交通流数据具有多来源、高速率、体量大等特征,传统数据存储方法和系统暴露出扩展性弱和存储实时性低等问题.针对上述问题,设计并实现了一套基于HBase交通流数据实时存储系统.该系统采用分布式存储架构,通过前端的预处理操作对数据进行规范化整理,利用多源缓冲区结构对不同类型的流数据进行队列划分,并结合一致性哈希算法、多线程技术、行键优化设计等策略将数据并行存储到HBase集群服务器中.实验结果表明:该系统与基于Oracle的实时存储系统相比,其存储性能提升了3~5倍;与原生的HBase方法相比,其存储性能提升了2~3倍,并且具有良好的扩展性能.

    参考文献 | 相关文章 | 多维度评价
    20. 有效的子空间支配查询算法——Ranking- k
    李秋生, 吴亚东, 林茂松, 王松, 王海洋, 冯鑫淼
    计算机应用    2015, 35 (1): 108-114.   DOI: 10.11772/j.issn.1001-9081.2015.01.0108
    摘要521)      PDF (1078KB)(666)    收藏

    针对Top-k dominating查询算法需要较高的时空消耗来构建属性组合索引,并且在相同属性值较多情况下的查询结果准确率低等问题,提出一种通过B+-trees和概率分布模型相结合的子空间支配查询算法——Ranking-k算法.首先,采用B+-trees为待查找数据各属性构建有序列表;然后,采取轮询调度算法读取skyline准则涉及到的有序列表,生成候选元组并获得k组终结元组;其次,根据生成的候选元组和终结元组,采用概率分布模型计算终结元组支配分数.迭代上述过程优化查询结果,直到满足条件为止.实验结果表明:Ranking-k与基本扫描算法(BSA)相比,查询效率提高了94.43%;与差分算法(DA)相比,查询效率提高了7.63%;与早剪枝Top-k支配(TDEP)算法、BSA和DA相比,查询结果更接近理论值.

    参考文献 | 相关文章 | 多维度评价
    21. RTC树的构建与不确定近邻关系查询方法
    李松, 李林, 王淼, 崔环宇, 张丽平
    计算机应用    2015, 35 (1): 115-120.   DOI: 10.11772/j.issn.1001-9081.2015.01.0115
    摘要519)      PDF (977KB)(378)    收藏

    空间索引结构和查询技术在空间数据库中具有重要的作用,针对已有的方法在复杂空间数据对象的近似和组织方面的局限性,提出了一种基于最小外接矩形(MBR)、梯形和圆的新的索引结构(RTC树).为了有效处理复杂空间数据对象的最近邻(NN)关系查询问题,提出了基于RTC树的最近邻查询(NNRTC)算法,NNRTC算法利用剪枝规则可减少节点遍历和距离计算.针对障碍物对数据集中最近邻的影响问题,提出了障碍物环境下的基于RTC树的最近邻查询(BNNRTC)算法,BNNRTC算法先在理想空间进行查询,再对查询结果进行判断.为了有效处理动态单纯型连续近邻链查询问题,进一步给出了基于RTC树的动态单纯型连续近邻链查询(SCNNCRTC)算法.实验结果表明,相对基于R树的查询方法,所提的方法在处理数据量较大的复杂空间对象的数据集时可提高60%~80%的效率.

    参考文献 | 相关文章 | 多维度评价
    22. 基于遗传算法改进的少数类样本合成过采样技术的非平衡数据集分类算法
    霍玉丹, 谷琼, 蔡之华, 袁磊
    计算机应用    2015, 35 (1): 121-124.   DOI: 10.11772/j.issn.1001-9081.2015.01.0121
    摘要701)      PDF (735KB)(707)    收藏

    针对少数类样本合成过采样技术(SMOTE)在处理非平衡数据集分类问题时,为少数类的不同样本设置相同的采样倍率,存在一定的盲目性的问题,提出了一种基于遗传算法(GA)改进的SMOTE方法——GASMOTE.首先,为少数类的不同样本设置不同的采样倍率,并将这些采样倍率取值的组合编码为种群中的个体;然后,循环使用GA的选择、交叉、变异等算子对种群进行优化,在达到停机条件时获得采样倍率取值的最优组合;最后,根据找到的最优组合对非平衡数据集进行SMOTE采样.在10个典型的非平衡数据集上进行的实验结果表明:与SMOTE算法相比,GASMOTE在F-measure值上提高了5.9个百分点,在G-mean值上提高了1.6个百分点;与Borderline-SMOTE算法相比,GASMOTE在F-measure值上提高了3.7个百分点,在G-mean值上提高了2.3个百分点.该方法可作为一种新的解决非平衡数据集分类问题的过采样技术.

    参考文献 | 相关文章 | 多维度评价
    23. 基于图数据库的在线族谱编录系统
    姜洋, 彭智勇, 彭煜玮
    计算机应用    2015, 35 (1): 125-130.   DOI: 10.11772/j.issn.1001-9081.2015.01.0125
    摘要1094)      PDF (966KB)(656)    收藏

    针对目前国内族谱系统中数据共享度不高、扩展性不好、编录效率较低等问题,提出并实现了一种基于浏览器/服务器(B/S)架构和图数据库的在线族谱编录系统.首先,该系统采用B/S架构,支持多人在线协同录入,提高了数据录入效率;其次,系统使用数据库存储数据,便于集中管理和统计检索,提高了数据的共享程度;然后,考虑到族谱数据具有图的结构特性,在系统中采用图数据库进行管理,大大提高了数据处理效率;最后,使用真实族谱数据进行了系统的效率对比,验证了系统的有效性.在实验中,使用了约20万人的刘氏族谱数据,对关系数据库PostgreSQL和图数据库Neo4j管理数据进行了存储和查询的效率对比.实验结果表明,Neo4j比PostgreSQL节省约50%的存储空间,而在人物后代查询、人物祖先查询、人物亲缘关系查询以及人物后代性别统计4种常见查询中,使用Neo4j的平均响应时间约为基于PostgreSQL数据库的20%、80%、16%和15%.由此可知,基于图数据库的在线族谱编录系统可用于高效处理大量族谱数据,并且支持多用户在线协同编录.

    参考文献 | 相关文章 | 多维度评价
    24. Voronoi图的生成及近邻关系查询方法
    张丽平 李松 麻琳 唐远新 郝晓红
    计算机应用    2014, 34 (12): 3470-3474.  
    摘要193)      PDF (754KB)(632)    收藏

    针对构建Voronoi图的方法的生成效率较低,构建复杂度较高的问题,提出了利用多方法交叉融合进行Voronoi图的构建与更新的方法。为了提高空间数据最近邻查询的效率,提出了基于Voronoi图和Voronoi多边形最小内切圆的最近邻查询方法;针对查询点位置频繁变化的情况,提出了基于Voronoi图和Voronoi多边形最小外接矩形的最近邻查询方法;为了提高对偶近邻对和最近对的查询效率,利用Voronoi多边形和对应的最小内切圆进行过滤和查询,提出了统一查询对偶近邻对和最近对的新方法。实验结果表明,所提方法解决了因数据分布不均导致的额外计算量的开销问题,在数据集规模较大和查询频率较高时具有一定的优势。

    参考文献 | 相关文章 | 多维度评价
    25. 图上基于局部敏感哈希的多关键字索引
    韩京宇 杨健
    计算机应用    2014, 34 (12): 3475-3480.  
    摘要163)      PDF (828KB)(574)    收藏

    针对目前基于倒排表的图关键字索引不能有效处理多个关键字查询,也不能对关键字拼写容错的问题,提出一种位图和局部敏感哈希(BLH)相结合的双层索引来支持图的多关键字查询:上层构建位图,依据关键字组合的n-gram映射到子图类簇,每个类簇存储相似的子图;下层在每个类簇上构建局部敏感哈希索引,根据关键字组合的n-gram定位到包含关键字组合的子图。该方法可显著减少图上关键字查询的I/O,查询时间缩减80%;并且,基于n-gram构建索引,可以避免索引对拼写错误敏感,在关键字容错的前提下返回用户期望的结果。实际数据集上的实验结果表明BLH索引的有效性,可以支持万维网、社会网络的高效查询。

    参考文献 | 相关文章 | 多维度评价
    26. 基于精确欧氏局部敏感哈希的协同过滤推荐算法
    李红梅 郝文宁 陈刚
    计算机应用    2014, 34 (12): 3481-3486.  
    摘要228)      PDF (937KB)(679)    收藏

    针对推荐系统中用户评分数据的海量高维与稀疏性,以及直接利用传统相似性度量方法来获取近邻的计算量大、结果不准等对推荐质量的影响,提出基于精确欧氏局部敏感哈希(E2LSH)的协同过滤推荐算法。首先利用精确欧氏局部敏感哈希算法对用户评分数据进行降维处理并构建索引,以快速获取目标用户的近邻用户;然后利用加权策略来预测用户评分,进而完成协同过滤推荐。实验结果表明,该算法能有效解决用户数据的海量高维与稀疏性问题,且运行效率高,具有较好的推荐质量。

    参考文献 | 相关文章 | 多维度评价
    27. 动态自适应的混合智能协同推荐算法
    陈小玉
    计算机应用    2014, 34 (12): 3487-3490.  
    摘要228)      PDF (710KB)(551)    收藏

    针对当前协同过滤推荐算法存在数据稀疏、用户兴趣变化和时效性不明显、推荐质量差等问题,提出了一种动态自适应的混合智能协同过滤推荐算法。首先利用修正核模糊聚类算法进行聚类分析,得到目标用户初始邻居集,缩小计算范围;重新定义了初始等价关系和等价关系相似性,提出了动态x近邻算法,得到准确邻居集并用预测评分填充矩阵,优化数据质量;最后引入用户兴趣变化因子和评价时效,挖掘用户潜在的兴趣变化,得到较好的推荐结果。实验结果表明,该算法能够得到更准确的最近邻居集,提高预测准确率和推荐质量,为用户提供更好的个性化推荐。

    参考文献 | 相关文章 | 多维度评价
    28. 基于加权动态兴趣度的微博个性化推荐
    陶永才 何宗真 石磊 卫琳 曹仰杰
    计算机应用    2014, 34 (12): 3491-3496.  
    摘要186)      PDF (895KB)(704)    收藏

    针对微博信息量大、用户兴趣随时间变化特征,提出一种基于加权动态兴趣度(WDDI)的微博个性化推荐模型。WDDI模型考虑微博转发特征,并引入时间因子,利用微博主题模型基于转发的狄利克雷分配(RT-LDA)对用户微博进行研究,建立用户对主题的个体动态兴趣模型。通过用户与其关注用户的相似度和交互频率获取用户的群体动态兴趣,将用户个体兴趣与群体兴趣加权结合得到加权动态主题兴趣模型。对用户接收的新微博按动态兴趣度降序排列,实现微博动态个性化推荐。实验表明,WDDI模型较之传统推荐模型,在微博服务中能够更准确地反映用户动态兴趣。

    参考文献 | 相关文章 | 多维度评价
    29. 融合词语关联关系的自适应微博热点话题追踪算法
    孙曰昕 马慧芳 师亚凯 崔彤
    计算机应用    2014, 34 (12): 3497-3501.  
    摘要173)      PDF (760KB)(695)    收藏

    针对传统文本表示模型忽略词项关系的弊端和话题追踪过程中产生的话题漂移问题,提出了结合词语关系的自适应话题追踪算法。通过挖掘词语间的互信息和关联词信息,继而更新传统文本表示模型,通过相似度计算来判断是否为热点话题的后续话题,最后通过更新热点微博话题向量来避免话题漂移问题。实验证明了所提算法针对微博热点话题追踪是有效的。

    参考文献 | 相关文章 | 多维度评价
    30. 基于用户反馈与主题关联度的网页排序算法改进
    王冲 曹姗姗
    计算机应用    2014, 34 (12): 3502-3506.  
    摘要135)      PDF (786KB)(728)    收藏

    针对传统PageRank算法存在主题漂移、忽略用户兴趣及偏向旧网页的问题,提出一种基于用户反馈与主题关联度的网页排序改进算法。该算法为了更好满足用户的检索需求,利用用户对链接的点击量、链接结构及网页浏览时间来构成用户反馈因子,同时结合网页内容的主题关联度因子,共同对网页PR值进行适当修正与合理分配。为了改善网页排序的效果,算法通过添加时间相关因子,对新网页作出一定补偿,使得新网页一定程度上浮,旧网页下沉。实验结果表明,所提算法在相同实验环境下,相对于传统PageRank算法,提升了用户搜索满意度平均值约2.1%,达到了优化网页排序效果的预期研究目标。

    参考文献 | 相关文章 | 多维度评价
    31. 异构信息网中基于元路径的动态相似性搜索
    陈湘涛 丁平尖 王晶
    计算机应用    2014, 34 (9): 2604-2607.   DOI: 10.11772/j.issn.1001-9081.2014.09.2604
    摘要300)      PDF (759KB)(495)    收藏

    现有的相似性搜索算法通常没有考虑时间因素,为此,提出一种异构信息网中基于元路径的动态相似性搜索算法PDSim。PDSim算法首先计算给定元路径下实体的链接矩阵,得到实体之间的元路径实例数比值,同时基于建立时间的不同,计算其时间差异度;在此基础上针对给定的元路径,获得异构信息网中动态相似性的度量。在多个相似性搜索实例中,PDSim能够捕获到实体随时间变化而产生的兴趣的变化;应用于聚类时,相对于PathSim和PCRW方法,其标准互信息聚类精度可以提高0.17%~9.24%。实验结果表明,PDSim方法与传统的基于链接的相似性搜索算法相比,显著提高了异构信息网中动态相似性搜索的效率和用户满意度,是一种研究实体随时间而发生动态变化的相似性搜索方法。

    参考文献 | 相关文章 | 多维度评价
    32. 互信息与模糊C均值聚类集成的特征优选方法
    朱接文 肖军
    计算机应用    2014, 34 (9): 2608-2611.  
    摘要219)      PDF (774KB)(400)    收藏

    针对大型数据中大量冗余特征的存在可能降低数据分类性能的问题,提出了一种基于互信息(MI)与模糊C均值(FCM)聚类集成的特征自动优选方法FCC-MI。首先分析了互信息特征及其相关度函数,根据相关度对特征进行排序;然后按照最大相关度对应的特征对数据进行分组,采用FCM聚类方法自动确定最优特征数目;最后基于相关度对特征进行了优选。在UCI机器学习数据库的7个数据集上进行实验,并与相关文献中提出的基于类内方差与相关度结合的特征选择方法(WCMFS)、基于近似Markov blanket和动态互信息的特征选择算法(B-AMBDMI)及基于互信息和遗传算法的两阶段特征选择方法(T-MI-GA)进行对比。理论分析和实验结果表明,FCC-MI不但提高了数据分类的效率,而且在有效保证分类精度的同时能自动确定最优特征子集,减少了数据集的特征数目,适用于海量、数据特征相关性大的特征约简及数据分析。

    参考文献 | 相关文章 | 多维度评价
    33. 带有间隔约束的多序列模式挖掘
    王华东 杨杰 李亚娟
    计算机应用    2014, 34 (9): 2612-2616.   DOI: 10.11772/j.issn.1001-9081.2014.09.2612
    摘要246)      PDF (913KB)(511)    收藏

    研究这样一个问题:给定多序列、支持度阈值和间隔约束,从多序列中挖掘所有出现次数不小于支持度阈值的频繁序列模式,这里要求模式中任意两个相邻元素在序列中的出现都要满足用户自定义的间隔约束,并且模式在序列中的出现要满足one-off条件。在解决该问题上,已有算法M-OneOffMine在计算模式的支持度时,只考虑模式的每个字符在序列中的首次出现,导致计算的模式支持度远小于其真实支持度,以致许多频繁的模式没有被挖掘出来。为此,设计了一个有效的带有间隔约束的多序列模式挖掘算法——MMSP算法:首先,通过采用二维表保存模式的候选位置;然后,根据候选位置采用最左最优的思想选择匹配位置。通过生物DNA序列进行实验,多序列中元素序列数目不变而序列长度变化时,MMSP挖掘出的频繁模式总数是同类算法M-OneOffMine的3.23倍;在元素序列个数变化时,MMSP挖掘出的频繁模式个数平均是M-OneOffMine的4.11倍;这两种情况下MMSP都有更好的时间性能。在模式长度变化时,MMSP挖掘出的频繁模式个数分别平均是M-OneOffMine的2.21倍和MPP的5.24倍。同时还验证了M-OneOffMine挖掘到的模式是MMSP挖掘到的频繁的子集。实验结果表明,MMSP算法不仅可以挖掘到更多的频繁模式,而且时间花费更少,更适合于实际的应用。

    参考文献 | 相关文章 | 多维度评价
    34. 基于HBase的气象地面分钟数据分布式存储系统
    陈东辉 曾乐 梁中军 肖卫青
    计算机应用    2014, 34 (9): 2617-2621.   DOI: 10.11772/j.issn.1001-9081.2014.09.2617
    摘要333)      PDF (742KB)(554)    收藏

    针对气象地面分钟数据要素多样、信息量大、产生频次高等特点,传统的关系型数据库系统在存储和管理数据上出现负载饱满、读写性能不理想等问题。结合对分布式数据库HBase的存储模型的研究,行主键(row key)采用时间加站号的方式设计了气象分钟数据存储结构模型,实现对海量气象数据的分布式存储和元信息管理。对HBase的唯一索引在面对气象业务的复杂查询用例时响应时间过长的问题,使用搜索引擎solr提供的API接口并参考气象业务中的查询用例对相关字段建立辅助索引,来满足业务检索时效。实验结果表明,该系统具有很好的存储能力和检索效率,入库效率最高可达每秒34000条,并且在常规查询用例的结果返回时效达到毫秒级,能够满足大规模气象数据在业务应用中对存储和查询时效的性能要求。

    参考文献 | 相关文章 | 多维度评价
    35. 亲属关系网络的关系追溯算法
    郭瑞强 闫绍惠 赵书良 申玉凤
    计算机应用    2014, 34 (7): 1988-1991.   DOI: 10.11772/j.issn.1001-9081.2014.07.1988
    摘要210)      PDF (652KB)(601)    收藏

    人与人之间通过婚姻关系和亲子关系构成了亲属关系网络。针对亲属关系网络庞大、难以追溯等问题,结合广度优先搜索策略,提出了两种亲属关系追溯算法:半径搜索和定向搜索。依托河北省全员人口数据库,将数据范围扩展到复杂网络的层次,以市级亲属关系数据为例构建亲属关系网络,包含约415万个节点,约1088万条边。采用双向亲属关系存储,避免了亲属关系回溯查询等问题。实验结果表明关系追溯算法能够准确定位特定关系亲属,同时具有较高的执行效率和较好的灵活性。

    参考文献 | 相关文章 | 多维度评价
    36. 基于对象集合的空间关键词查询
    梁银 董永权
    计算机应用    2014, 34 (7): 1992-1996.   DOI: 10.11772/j.issn.1001-9081.2014.07.1992
    摘要217)      PDF (740KB)(409)    收藏

    在进行空间关键词查询时,有时需要查找一组既紧凑且离查询点最近、又覆盖查询关键词且对象个数很少的对象,而现有的查询方法通常只能返回包含所有查询关键词的单个空间对象。为此,提出了解决此类查询问题的近似查询算法和精确查询算法。首先给出了这类查询问题的形式化定义,以及描述对象集合质量的代价函数,并对代价函数进行了归一化处理;然后在近似查询算法中采用基于IR-tree的最佳优先搜索策略进行剪枝,有效缩减了查询候选空间;在精确查询算法中采用基于IR-tree的广度优先搜索策略查找包含查询关键词的对象,以达到降低查询处理代价的目的。实验结果表明,近似算法的查询效率明显优于精确算法,且能获得非常精确的查询结果。

    参考文献 | 相关文章 | 多维度评价
    37. 基于改进粒计算的K-medoids聚类算法
    潘楚 罗可
    计算机应用    2014, 34 (7): 1997-2000.   DOI: 10.11772/j.issn.1001-9081.2014.07.1997
    摘要197)      PDF (632KB)(516)    收藏

    针对传统K-medoids聚类算法对初始聚类中心敏感、收敛速度缓慢以及聚类精度不够高等缺点,提出一种基于改进粒计算、粒度迭代搜索策略和优化适应度函数的新算法。该算法利用粒计算思想在有效粒子中选择K个密度大且距离较远的粒子,选择其中心点作为K个聚类初始中心点;并在对应的K个有效粒子中进行中心点更新,来减少迭代次数;采用类间距离和类内距离优化适应度函数来提高聚类的精度。实验结果表明:该算法在UCI多个标准数据集中测试,在有效缩短迭代次数的同时提高了算法聚类准确率。

    参考文献 | 相关文章 | 多维度评价
    38. 基于垂直频繁模式树带有负载均衡的分布关联规则挖掘算法
    冯勇 尹洁娜 徐红艳
    计算机应用    2014, 34 (2): 396-400.  
    摘要475)      PDF (724KB)(426)    收藏
    大数据时代,开展面向海量、分布数据的知识发现研究成为学界和业界关注的热点,而负载均衡问题是开发分布式挖掘算法必须考虑的重要因素之一。为此,提出了一种基于垂直频繁模式树带有负载均衡的分布关联规则挖掘算法,算法采用垂直频繁模式树存储项及其关联而无需对局部挖掘结果进行合并,减少了通信量,简化了处理流程。同时所提出的算法采用混合体系结构即中心站点按照局部站点的处理能力分配任务,实现了负载均衡,提升了算法的性能。实验结果表明所提算法切实可行并具有较高效率。
    相关文章 | 多维度评价
    39. 基于灰关联分析的连续值属性约减算法
    张健 王晋东 余定坤
    计算机应用    2014, 34 (2): 401-405.  
    摘要406)      PDF (725KB)(411)    收藏
    针对目前大多数属性约减算法只能用于离散值决策表的情况,将条件属性与决策属性的关联度作为属性约减的重要性测度,同时基于条件属性间的关联度和重要度定义了条件属性的重叠性测度,据此对条件属性进行去重叠化处理,提出了一种基于灰关联分析的连续值属性约减算法CARAG,实现了对连续值属性集的约减,并在仿真实验中对算法的可行性和有效性进行了对比验证。
    相关文章 | 多维度评价
    40. 受限区域内的单纯型连续近邻链查询方法
    张丽平 李松 赵纪桥 郝晓红
    计算机应用    2014, 34 (2): 406-410.  
    摘要432)      PDF (800KB)(434)    收藏
    由于已有的最近邻查询方法无法直接处理受限区域内的单纯型连续近邻链查询问题,针对受限区域和障碍物的复杂性,详细研究了受限区域内无障碍物和有障碍物环境下的单纯型连续近邻链查询方法,分别提出了VOR_NB_CRSCNNC算法和VOR_CB_CRSCNNC算法。算法基于计算几何中的Voronoi图和判定圆域对空间数据对象进行预先筛选和计算,每次查询仅需考虑落在数量较少的Voronoi多边形和判定圆域内的数据点,预先过滤掉大量数据,减少每次计算涉及的数据量。理论研究和实验分析表明,所提出的算法在查询过程中减少了数据逐一判断的冗余计算,受受限区域形状的影响较小,较大程度提高了查询效率。
    相关文章 | 多维度评价
2024年 44卷 4期
刊出日期: 2024-04-10
文章目录
过刊浏览
荣誉主编:张景中
主  编:徐宗本
副主编
:申恒涛 夏朝晖

国内邮发代号:62-110
国外发行代号:M4616
地址:四川成都双流区四川天府新区
   兴隆街道科智路1369号
   中科信息(科学城园区) B213
   (计算机应用编辑部)
电话:028-85224283-803
   028-85222239-803
网址:www.joca.cn
E-mail: bjb@joca.cn
期刊微信公众号
CCF扫码入会