• • 下一篇
单晓欢1,蒋建涛1,宋宝燕2
摘要: 知识图谱是揭示实体之间关系的语义网络,常以资源描述框架( Resource Description Framework,RDF)的形式表示。面对爆炸式增长的海量信息,现有RDF图上的语义查询算法忽略了多元化的语义查询需求。为此,充分考虑RDF图丰富的语义信息,提出一种分布式处理的多级邻域谓语标签树编码索引的RDF图多元语义查询方法。首先,为避免存储空间浪费及辅助后续并行查询,设计基于频度的谓语编码映射策略,将较长字符串表示的谓语映射为唯一自然数表示;其次,将RDF图分割,分割后顶点按其邻边特性进行分类,并给出相应的存储模式;然后构建多级邻域谓语标签树编码索引,利用谓语特征信息过滤无效顶点及边;针对谓语已知、主语(宾语)已知以及混合已知的多元语义查询,给出相应的匹配策略,并提出基于公共点的优化连接以减少笛卡尔积数量,从而降低连接代价。实验结果表明,查询时间相较于无预处理方式,利用构建的索引进行剪枝优化可提高5 ~9倍;与查询性能较好的FAST算法相比,查询效率平均提高43%。因此,构建的索引及查询策略可有效处理大规模RDF图上的多元化语义查询。
中图分类号: