基因表达数据作为生物学中一种特定类型的大数据,尽管基因表达值都是普通的实数值,但它们的相似性不是基于欧氏距离度量,而是基于基因表达值是否展现同升同降趋势。目前的基因贝叶斯网络以基因表达水平值为节点随机变量,没有体现这种子空间模式的相似性。因此,提出基于基因关联分析的贝叶斯网络疾病分类算法(BCGA),从带类标签的疾病样本-基因表达数据中学习贝叶斯网络并预测新疾病样本的分类。首先,将疾病样本离散化过滤以选择基因,并将降维后的基因表达值排序和置换为基因列下标;其次,分解基因列下标序列为长度为2的原子序列集合,而这个集合的频繁原子序列对应一对基因的关联关系;最后,通过基因关联熵度量因果关系,并用于贝叶斯网络结构学习。BCGA的参数学习也变得很容易,基因节点的条件概率分布只要统计该基因的原子序列和父节点基因的原子序列出现频次即可。在多个肿瘤和非肿瘤基因表达数据集上的实验结果表明,相较于已有的同类算法,BCGA的疾病分类准确率明显提高,分析时间有效缩短;另外,BCGA使用基因关联熵代替条件独立性,使用基因原子序列代替基因表达值,可以更好地拟合基因表达数据。
针对数据维度过高、冗余信息过多导致维度灾难的问题,提出一种基于异同矩阵的高维属性约简算法(ARSDM)。该算法在区分矩阵的基础上加入对同类样本的相似度衡量,形成对所有样本的综合评估。首先,计算样本在每个属性下的距离,并基于这些距离得到同类相似度和异类差异度;其次,建立异同矩阵,形成对整个数据集的评价;最后,进行属性约简,即将异同矩阵的每一列求和,依次选择值最大的特征进行约简,并将相应样本对的行向量置为零向量。实验结果表明,与经典属性约简算法DMG(Discernibility Matrix based on Graph theory)、FFRS(Fitting Fuzzy Rough Sets)以及GBNRS(Granular Ball Neighborhood Rough Sets)相比,在分类回归树(CART)分类器下,ARSDM的平均分类准确率分别提高了1.07、6.48、8.92个百分点;在支持向量机(SVM)分类器下,ARSDM的平均分类准确率分别提高了1.96、11.96、12.39个百分点;运行效率上ARSDM优于GBNRS和FFRS。可见,ARSDM能够有效去除冗余信息,提高分类准确率。
针对注意缺陷与多动障碍(ADHD)临床诊断主要依靠医生主观评估,缺乏客观辅助依据的问题,提出了一种基于语音停顿度和平坦度的ADHD自动检测算法。首先,通过频带差能熵积(FDEEP)参数自动定位语音有话区间,并提取停顿度特征;然后,使用变换平均幅度平方差(TAASD)参数计算语音倍频率,并提取平坦度特征;最后,结合融合特征和支持向量机(SVM)分类器来实现ADHD的自动识别。实验共采集了17位正常对照组儿童和37位ADHD患儿的语音样本。实验结果表明,所提算法能自动检测正常儿童和ADHD患儿,识别正确率为91.38%。
针对高维数据难以被人们直观理解,且难以被机器学习和数据挖据算法有效地处理的问题,提出一种新的非线性降维方法——判别式扩散映射分析(DDMA)。该方法将判别核方案应用到扩散映射框架中,依据样本类别标签在类内窗宽和类间窗宽中判别选取高斯核窗宽,使核函数能够有效提取数据的关联特性,准确描述数据空间的结构特征。通过在人工合成Swiss-roll测试和青霉素发酵过程中的仿真应用,与主成分分析(PCA)、线性判别分析(LDA)、核主成分分析(KPCA)、拉普拉斯特征映射(LE)算法和扩散映射(DM)进行比较,实验结果表明DDMA方法在低维空间中代表高维数据的同时成功保留了数据的原始特性,且通过该方法在低维空间中产生的数据结构特性优于其他方法,在数据降维与特征提取性能上验证了该方案的有效性。
针对核主元分析(KPCA)中高斯核参数β的经验选取问题,提出了核主元分析的核参数判别选择方法。依据训练样本的类标签计算类内、类间核窗宽,在以上核窗宽中经判别选择方法确定核参数。根据判别选择核参数所确定的核矩阵,能够准确描述训练空间的结构特征。用主成分分析(PCA)对特征空间进行分解,提取主成分以实现降维和特征提取。判别核窗宽方法在分类密集区域选择较小窗宽,在分类稀疏区域选择较大窗宽。将判别核主成分分析(Dis-KPCA)应用到数据模拟实例和田纳西过程(TEP),通过与KPCA、PCA方法比较,实验结果表明,Dis-KPCA方法有效地对样本数据降维且将三个类别数据100%分开,因此,所提方法的降维精度更高。
简单介绍了描述图像形状特征的伪Zernike矩,给出了伪Zernike矩的定义;在讨论伪Zernike矩性质的基础上,指出可以使用基于伪Zernike矩的形状特征数据来重建图像,阐述了基于伪Zernike矩的形状特征数据进行图像重建的理论基础;实验结果证明了基于伪Zernike矩进行图像重建的可行性。