栏目文章信息

    第六届中国数据挖掘会议(CCDM 2016) 栏目所有文章列表
    (按年度、期号倒序)
        一年内发表的文章 |  两年内 |  三年内 |  全部
    Please wait a minute...
    选择: 显示/隐藏图片
    1. 基于 k-means的自动三支决策聚类方法
    于洪, 毛传凯
    计算机应用    2016, 36 (8): 2061-2065.   DOI: 10.11772/j.issn.1001-9081.2016.08.2061
    摘要634)      PDF (913KB)(557)    收藏
    应用广泛的 k-means算法结果是一种二支决策的结果,即对象要么属于某个类要么不属于这个类,这种决策方式难以适用于一些具有不确定现象的环境,因此提出三支决策聚类方法来反映对象与类之间的关系,即:对象确定属于某类、可能属于某类或确定不属于某类。显然,二支决策是三支决策的一种特例。此外,从类内紧凑性和考虑近邻类间分离性角度出发,定义了分离性指数、聚类结果评估有效性指数,并提出了一种自动三支决策聚类算法。该方法为处理具有不确定信息的基于 k-means算法框架的聚类数目自动确定的难题提供了一种新的解决思路。在人工数据集和UCI真实数据集上的初步对比实验结果表明所提出的方法是有效的。
    参考文献 | 相关文章 | 多维度评价
    2. 基于自适应布谷鸟搜索算法的K-means聚类算法及其应用
    杨辉华, 王克, 李灵巧, 魏文, 何胜韬
    计算机应用    2016, 36 (8): 2066-2070.   DOI: 10.11772/j.issn.1001-9081.2016.08.2066
    摘要617)      PDF (803KB)(609)    收藏
    针对原始K-means聚类算法受初始聚类中心影响过大以及容易陷入局部最优的不足,提出一种基于改进布谷鸟搜索(CS)的K-means聚类算法(ACS-K-means)。其中,自适应CS(ACS)算法在标准CS算法的基础上引入步长自适应调整,以提高搜索精度和收敛速度。在UCI标准数据集上,ACS-K-means算法可得到比K-means、基于遗传算法的K-means(GA-K-means)、基于布谷鸟搜索的K-means(CS-K-means)和基于粒子群优化的K-means(PSO-K-means)算法更优的聚类质量和更高的收敛速度。将ACS-K-means聚类算法应用到南宁市青秀区“城管通”系统的城管案件热图的开发中,在地图上对案件地理坐标进行聚类并显示,应用结果表明,聚类效果良好,算法收敛速度快。
    参考文献 | 相关文章 | 多维度评价
    3. 基于信息融合的中文微博可信度评估方法
    高明霞, 陈福荣
    计算机应用    2016, 36 (8): 2071-2075.   DOI: 10.11772/j.issn.1001-9081.2016.08.2071
    摘要384)      PDF (964KB)(364)    收藏
    针对中文微博信息的特点及这些特点的可测量性和实际任务,系统地梳理了中文微博信息可信度测量指标,并将其进行了谱系化分析,提出一个基于信息融合的中文微博可信度评估框架CCM-IF。首先,为本质不同的三个异构特征:文本内容、信息作者与信息传播使用了不同的度量方式;其次,基于决策层可信度的模糊认知特点,采用了多维证据理论进行特征融合;最后,收集了新浪微博两个真实数据集进行了一系列实验。实验结果表明,与传统信息检索排序方法平滑语言模型(LMJM)相比,CCM-IF符合用户需求的信息占比提高了10%~20%。因此,作为一个静态质量评估指标,CCM-IF可直接用于微博检索排序、垃圾微博过滤等实际任务。
    参考文献 | 相关文章 | 多维度评价
    4. 基于多类别语义词簇的新闻读者情绪分类
    温雯, 吴彪, 蔡瑞初, 郝志峰, 王丽娟
    计算机应用    2016, 36 (8): 2076-2081.   DOI: 10.11772/j.issn.1001-9081.2016.08.2076
    摘要619)      PDF (966KB)(494)    收藏
    分析和研究文本读者情绪有助于发现互联网的负面信息,是舆情监控的重要组成部分。考虑到引起读者不同情绪主要因素在于文本的语义内容,如何抽取文本语义特征因此成为一个重要问题。针对这一问题,提出首先使用word2vec模型对文本进行初始的语义表达;在此基础上结合各个情绪类别分别构建有代表性的语义词簇,进而采用一定准则筛选对类别判断有效的词簇,从而将传统的文本词向量表达改进为语义词簇上的向量表达;最后使用多标签分类方法进行情绪标签的学习和分类。实验结果表明,该方法相对于现有的代表性方法来说能够获得更好的精度和稳定性。
    参考文献 | 相关文章 | 多维度评价
    5. 一种新闻网页关键信息的提取算法
    向菁菁, 耿光刚, 李晓东
    计算机应用    2016, 36 (8): 2082-2086.   DOI: 10.11772/j.issn.1001-9081.2016.08.2082
    摘要631)      PDF (888KB)(596)    收藏
    针对网页正文提取算法缺乏通用性,以及对新闻网页的提取缺乏标题、时间、来源信息的问题,提出一种新闻关键信息的提取算法newsExtractor。该算法首先通过预处理将网页转换成行号和文本的集合,然后根据字数最长的一句话出现在新闻正文的概率极高的特点,从正文中间开始向两端寻找正文的起点和终点提取新闻正文,根据最长公共子串算法提取标题,构造正则表达式并以行号辅助判断提取时间,根据来源的格式特点并辅以行号提取来源;最后构造了数据集与国外开源软件newsPaper进行提取准确率的对比实验。实验结果表明,newsExtractor在正文、标题、时间、来源的平均提取准确率上均优于newsPaper,具有通用性和鲁棒性。
    参考文献 | 相关文章 | 多维度评价
    6. 适应用户兴趣变化的改进型协同过滤算法
    胡伟健, 滕飞, 李灵芳, 王欢
    计算机应用    2016, 36 (8): 2087-2091.   DOI: 10.11772/j.issn.1001-9081.2016.08.2087
    摘要449)      PDF (767KB)(411)    收藏
    协同过滤算法可以根据用户的历史行为记录去预测其可能喜欢的物品,是现在业界应用极为广泛的推荐算法。但传统的协同过滤算法并没有考虑到用户兴趣的概念漂移,在一些基于时间的协同过滤算法中对推荐时效性的考虑也有所欠缺。针对这些问题,结合用户兴趣随时间转移的特点,改进了相似度的度量方法,同时引入一种增强的时间衰减模型来度量预测值,并将这两种方式有机地结合起来,解决了用户兴趣的概念漂移问题并考虑了推荐算法的时效性。仿真实验中,分别在不同的数据集中对比了该算法与UserCF、TCNCF、PTCF以及TimeSVD++算法的预测评分准确度和Top N推荐准确度。实验结果表明,改进算法能够降低预测评分的均方根误差(RMSE),并在Top N推荐准确度上均优于对比算法。
    参考文献 | 相关文章 | 多维度评价
    7. 从偏好数据库中挖掘Ceteris Paribus偏好
    辛冠琳, 刘惊雷
    计算机应用    2016, 36 (8): 2092-2098.   DOI: 10.11772/j.issn.1001-9081.2016.08.2092
    摘要375)      PDF (1198KB)(449)    收藏
    针对传统的推荐系统需要用户给出明确的偏好矩阵(U-I矩阵),进而使用自动化技术来获取用户偏好的问题,提出了一种从偏好数据库中挖掘出Agent的偏好信息的方法。从知识发现的角度,通过Ceteris Paribus规则(CP规则),提出了 k阶偏好挖掘算法( kPreM)。在算法中,利用 k阶CP规则对偏好数据库中的信息进行剪枝处理,减少了数据库扫描次数,从而提高了偏好信息的挖掘效率。随后以一种通用的图模型——条件偏好网(CP-nets)为工具,揭示了用户的偏好可近似表达为CP-nets的定性条件偏好网。实验结果表明,用户的偏好都是带有条件的偏好。另外,通过挖掘得出的CP-nets偏好模型,为设计个性化的推荐系统提供了理论基础。
    参考文献 | 相关文章 | 多维度评价
    8. 基于检索结果排序的伪相关反馈
    闫蓉, 高光来
    计算机应用    2016, 36 (8): 2099-2102.   DOI: 10.11772/j.issn.1001-9081.2016.08.2099
    摘要399)      PDF (774KB)(315)    收藏
    针对传统伪相关反馈(PRF)算法扩展源质量不高使得检索效果不佳的问题,提出一种基于检索结果的排序模型(REM)。首先,该模型从初检结果中选择排名靠前的文档作为伪相关文档集;然后,以用户查询意图与伪相关文档集中各文档的相关度最大化、并且各文档之间相似性最小化作为排序原则,将伪相关文档集中各文档进行重排序;最后,将排序后排名靠前的文档作为扩展源进行二次反馈。实验结果表明,与两种传统伪反馈方法相比,该排序模型能获得与用户查询意图相关的反馈文档,可有效地提高检索效果。
    参考文献 | 相关文章 | 多维度评价
    9. 基于概率主题模型的景点知识挖掘及其可视化
    徐洁, 范玉顺, 白冰
    计算机应用    2016, 36 (8): 2103-2108.   DOI: 10.11772/j.issn.1001-9081.2016.08.2103
    摘要1036)      PDF (879KB)(349)    收藏
    针对旅游文本噪声多、景点多且展示不直观的问题,提出一种基于概率主题模型的景点-主题模型。模型假设同一篇文档涉及多个具有相关关系的景点,引入“全局景点”过滤噪声语义,并利用Gibbs采样算法估计最大似然函数的参数,获取目的地景点的主题分布。实验通过对景点主题特征进行聚类,评估聚类效果从而间接评价模型训练效果,并定性分析“全局景点”对模型的作用。实验结果表明,该模型对旅游文本的建模效果优于基准算法TF-IDF与隐含狄利克雷分布(LDA),且“全局景点”的引入对建模效果有明显的改善作用。最后通过景点关联图的方式对实验结果进行可视化展示。
    参考文献 | 相关文章 | 多维度评价
    10. 基于区域划分的出租车统一推荐算法
    吕红瑾, 夏士雄, 杨旭, 黄丹
    计算机应用    2016, 36 (8): 2109-2113.   DOI: 10.11772/j.issn.1001-9081.2016.08.2109
    摘要417)      PDF (797KB)(460)    收藏
    针对在极端天气或交通繁忙时乘客无法快速搭乘出租车到达目的地的问题,提出一种基于区域划分的出租车统一推荐算法,不仅提供普通打车服务,同时提供拼车服务。首先,将区域作为旅程标识,在旅程匹配方面化不可能为可能;其次,在拼车服务中算法将两对路线相近的乘客进行即时匹配,帮乘客拼车共乘;最后,选取绕远时间比例最小的出租车推荐给用户。使用包含14747辆出租车的全球定位系统(GPS)数据对算法进行评估,与CallCab系统相比虽然在减少的总里程数上下降了10%左右,但每次拼车平均只需要多花费6%的时间,且降低的送达乘客总里程数同样达到30%,不仅大幅度减少汽车尾气的排放,同时在用户更加关注的时间消耗方面表现更佳。
    参考文献 | 相关文章 | 多维度评价
    11. 基于典型因果推断算法的无线网络性能优化
    郝志峰, 陈薇, 蔡瑞初, 黄瑞慧, 温雯, 王丽娟
    计算机应用    2016, 36 (8): 2114-2120.   DOI: 10.11772/j.issn.1001-9081.2016.08.2114
    摘要610)      PDF (1089KB)(588)    收藏
    现有的无线网络性能优化方法主要基于指标间的相关关系分析,无法有效指导网络优化等干预行为。为此,提出典型因果推断(CCI)算法,并将其应用于无线网络性能优化。首先,针对无线网络性能由大量相关指标体现这一特性,采用典型相关分析(CCA)方法,提取指标中蕴含的原子事件;然后再采用因果推断方法,构建原子事件间的因果关系网络。通过上述两个阶段反复迭代,确定原子事件间的因果关系网络,为无线网络性能优化提出一个较为可靠和有效的依据。最后通过模拟实验验证了CCI算法的有效性,在某城市3万多个移动基站数据上发现了一批有意义的无线网络指标间的因果关系。
    参考文献 | 相关文章 | 多维度评价
    12. 基于声誉的移动众包系统的在线激励机制
    王莹洁, 蔡志鹏, 童向荣, 潘庆先, 高洋, 印桂生
    计算机应用    2016, 36 (8): 2121-2127.   DOI: 10.11772/j.issn.1001-9081.2016.08.2121
    摘要1063)      PDF (1144KB)(702)    收藏
    在大数据环境下,对移动众包系统的研究已经成为移动社会网络(MSN)的研究热点。然而由于网络个体的自私性,容易导致移动众包系统的不可信问题,为了激励个体对可信策略的选取,提出一种基于声誉的移动众包系统的激励机制——RMI。首先,结合演化博弈理论和生物学中的Wright-Fisher模型研究移动众包系统的可信演化趋势;在此基础上,分别针对free-riding问题和false-reporting问题建立相应的声誉更新方法,从而形成一套完整的激励机制,激励感知用户和任务请求者对可信策略的选取;最后通过模拟实验对提出的激励机制的有效性和适应性进行了验证。结果显示,与传统的基于社会规范的声誉更新方法相比,RMI有效地提高了移动众包系统的可信性。
    参考文献 | 相关文章 | 多维度评价
    13. 异构云系统中基于智能优化算法的多维资源公平分配
    刘曦, 张潇璐, 张学杰
    计算机应用    2016, 36 (8): 2128-2133.   DOI: 10.11772/j.issn.1001-9081.2016.08.2128
    摘要458)      PDF (1014KB)(425)    收藏
    资源分配策略的研究一直是云计算领域研究的热点和难点,针对异构云计算环境下多维资源的公平分配问题,结合基因算法(GA)和差分进化算法(DE),分别给出了两种兼顾分配公平性和效率的资源分配策略,改进了解矩阵表达式使异构云系统中的主资源公平分配(DRFH)模型转化成为整数线性规划(ILP)模型,并提出了基于最大任务数匹配值(MTM)的初始解产生机制和使不可行解转化为可行解的修正操作,以此提高算法的收敛速度,使其能够快速有效地得到最优分配方案。实验结果表明,基于GA和DE算法的多维资源公平分配策略可以得到近似最优解,在最大化最小主资源份额目标值和资源利用率方面明显优于Best-Fit DRFH和Distributed-DRFH,而且针对不同任务类型的资源需求,具有较强的自适应能力。
    参考文献 | 相关文章 | 多维度评价
    14. 基于尺度自适应局部时空特征的足球比赛视频中的多运动员行为表示
    王智文, 蒋联源, 王宇航, 王日凤, 张灿龙, 黄镇谨, 王鹏涛
    计算机应用    2016, 36 (8): 2134-2138.   DOI: 10.11772/j.issn.1001-9081.2016.08.2134
    摘要431)      PDF (777KB)(348)    收藏
    为提高足球比赛视频中的多运动员行为识别的准确率,提出一种基于尺度自适应局部时空特征的足球比赛视频中的多运动员行为表示方法,利用时空兴趣点来表示足球比赛视频中的多运动员行为。首先将足球比赛视频序列中的多运动员行为看作是三维空间中的时空兴趣点的集合,然后采用直方图量化技术将时空兴趣点集合量化为维数固定的直方图(即时空单词),最后采用K-means聚类算法生成时空码本。在聚类生成码本之前,对每个时空兴趣点都进行了归一化,以保证其缩放和平移不变性。实验结果表明,该方法能够大大减少足球比赛视频中的多运动员行为识别算法的计算量,显著提高识别的准确率。
    参考文献 | 相关文章 | 多维度评价
    15. 利用二次归并的Deep Web实体匹配方法
    陈丽君
    计算机应用    2016, 36 (8): 2139-2143.   DOI: 10.11772/j.issn.1001-9081.2016.08.2139
    摘要431)      PDF (760KB)(345)    收藏
    针对权重边剪枝(WEP)方法在准确率和匹配效率等方面的不足,通过引入自匹配和归并概念,提出一种基于二次归并的Deep Web实体匹配方法。首先,提取各对象的属性值,并按属性值重组对象,使具有相同属性值的对象聚集在一起,实现块的有效划分;其次,计算块内各对象间的匹配度,并据此进行剪枝、自匹配检测、归并,输出初步类簇;最后,以初步类簇为基础,利用簇内对象间传递的消息以及对象属性相似值,进一步挖掘匹配关系,触发新一轮的类簇归并与更新。实验结果表明,与WEP方法相比,所提方法通过自匹配检测,自动区分匹配关系并采取合适的匹配策略,使归并过程逐渐精化,提高了匹配准确率;通过分块、剪枝,有效缩减了匹配空间,提高了系统运行效率。
    参考文献 | 相关文章 | 多维度评价
    16. 面向疾病分类的人类互作网络拓扑模块的功能同质性分析
    高盼盼, 王宁, 周雪忠, 刘光明, 王惠欣
    计算机应用    2016, 36 (8): 2144-2149.   DOI: 10.11772/j.issn.1001-9081.2016.08.2144
    摘要551)      PDF (1006KB)(343)    收藏
    鉴于网络医学中尚未有对疾病分类与功能蛋白模块功能同质性分析之间关系的研究,展开以下研究工作:首先,利用Mesh、String9等数据库中的数据构建了基因关系网络;其次,采用基于优化模块度的模块划分方法(如BGLL、非负矩阵分解(NMF)等聚类算法)对基因关系网络进行了划分;再次,对划分出来的模块进行了GO富集分析,通过对高致病拓扑模块和低致病拓扑模块的GO富集分析的比较,发现了疾病分类和蛋白模块功能特性在生物过程、细胞组分、分子功能等方面存在重要的生物学提示;最后,分析了疾病分类的拓扑模块的功能特性,通过对网络拓扑性质如平均度、密度、平均最短路径长度等方面的分析得到了各模块的功能特点数据,进一步揭示了疾病分类和功能模块之间的相关关系。
    参考文献 | 相关文章 | 多维度评价
    17. 基于三层集成多标记学习的蛋白质多亚细胞定位预测
    乔善平, 闫宝强
    计算机应用    2016, 36 (8): 2150-2156.   DOI: 10.11772/j.issn.1001-9081.2016.08.2150
    摘要275)      PDF (1134KB)(338)    收藏
    针对多标记学习和集成学习在解决蛋白质多亚细胞定位预测问题上应用还不成熟的状况,研究基于集成多标记学习的蛋白质多亚细胞定位预测方法。首先,从多标记学习和集成学习相结合的角度提出了一种三层的集成多标记学习系统框架结构,该框架将学习算法和分类器进行了层次性分类,并把二分类学习、多分类学习、多标记学习和集成学习进行有效整合,形成一个通用型的三层集成多标记学习模型;其次,基于面向对象技术和统一建模语言(UML)对系统模型进行了设计,使系统具备良好的可扩展性,通过扩展手段增强系统的功能和提高系统的性能;最后,使用Java编程技术对模型进行扩展,实现了一个学习系统软件,并成功应用于蛋白质多亚细胞定位预测问题上。通过在革兰氏阳性细菌数据集上进行测试,验证了系统功能的可操作性和较好的预测性能,该系统可以作为解决蛋白质多亚细胞定位预测问题的一个有效工具。
    参考文献 | 相关文章 | 多维度评价
2024年 44卷 4期
刊出日期: 2024-04-10
文章目录
过刊浏览
荣誉主编:张景中
主  编:徐宗本
副主编
:申恒涛 夏朝晖

国内邮发代号:62-110
国外发行代号:M4616
地址:四川成都双流区四川天府新区
   兴隆街道科智路1369号
   中科信息(科学城园区) B213
   (计算机应用编辑部)
电话:028-85224283-803
   028-85222239-803
网址:www.joca.cn
E-mail: bjb@joca.cn
期刊微信公众号
CCF扫码入会