栏目文章信息

    少数民族语言文字信息处理 栏目所有文章列表
    (按年度、期号倒序)
        一年内发表的文章 |  两年内 |  三年内 |  全部
    Please wait a minute...
    选择: 显示/隐藏图片
    1. 基于排序的藏文音节类型判定
    黄鹤鸣 达飞鹏
    计算机应用    2009, 29 (07): 2003-2005.  
    摘要1078)      PDF (657KB)(1242)    收藏

    音节类型的程序判定是藏文字典排序的基础。建立了基于结构的现代藏文音节判定规则,并且将不满足该规则的藏文字母组合看作梵音藏文音节。首先,根据编码序列中占位编码、不占位编码的个数以及相互间的位置关系,判断一个编码序列是否满足现代藏文音节结构,如果满足则进一步确定各个编码(字母)在音节结构中的位置;其次,根据正字法对各个位置上字母的约束来判断这个编码序列是否表示一个现代藏文音节;最后,选取了一些有代表性的编码序列来测试算法的有效性。

    相关文章 | 多维度评价
    2. 信息处理用维语词汇标注标记集的确定
    玉素甫·艾白都拉 阿不都热依木.沙力 阿拉帕提古丽 阿不都热依木·沙力
    计算机应用    2009, 29 (07): 2006-2008.  
    摘要1054)      PDF (545KB)(1198)    收藏

    介绍了研究和制定信息处理用维语标注标记集的研究进展。讨论了研究与制订“维语标注标记集”必要性,说明了只靠语法角度提出的词汇一级“维语标注标记集”的有限性,论述国内外英语、汉语层次分析研究的最新成果,结合维语的本身特点研究维语语义分类体系迫切性,给出了“维语标注标记集”的工作思路、标记集制定的原则和语法语义词汇一级词性标记集的内容,比较了标记集两个版本的特点,展望了其发展。

    相关文章 | 多维度评价
    3. 基于HMM的维吾尔语连续语音识别系统
    那斯尔江·吐尔逊 吾守尔·斯拉木
    计算机应用    2009, 29 (07): 2009-2011.  
    摘要1383)      PDF (689KB)(1390)    收藏

    维吾尔语是黏着性语言,利用丰富的词缀可以用同样的词干产生超大词汇,给维吾尔语语音识别的研究工作带来了很大困难。结合维吾尔语自身特点,建立了维吾尔语连续语音语料库,利用HTK(HMMToolKit)工具实现了基于隐马尔可夫模型(HMM)的维吾尔语连续语音识别系统。在声学层,选取三音子作为基本的识别单元,建立了维吾尔语的三音子声学模型,并使用决策树、三音子绑定、修补哑音、增加高斯混合分量等方法提高模型的识别精度。在语言层,使用了适合于维吾尔语语音特征的基于统计的二元文法语言模型。最后,利用该系统进行了维吾尔语连续语音识别实验。

    相关文章 | 多维度评价
    4. 基于阿拉伯数字中介的汉蒙数词对齐策略
    雪艳 应玉龙
    计算机应用    2009, 29 (07): 2012-2015.  
    摘要812)      PDF (632KB)(1179)    收藏

    在汉蒙词对齐任务的背景下,针对数词这一特殊的词类,提出了以阿拉伯数字作为转换中介的对齐方法。其基本思想是,将汉蒙文本中的数词分别转换为阿拉伯数字后再决定它们之间是否存在对应关系,即是否可以成为一个对齐连接。转换过程建立在汉蒙基本数词与阿拉伯数字信息对应表——numtable的基础上。numtable中设置了“标志位”信息,用以标明基本数词是否为“10”的倍数。数词到阿拉伯数字的转换模块依据numtable中的“标志位”信息,经过推理,将汉蒙数词分别转换为相应的阿拉伯数字。在实现转换时,不仅考虑了汉语数词和蒙古语数词各自的特征,而且以“词对齐”作为目标,对每一种语言内部不同类型的数词分别采取了不同的转换策略。

    相关文章 | 多维度评价
    5. 藏文编码方式及其相互转换
    李永宏 何向真 艾金勇 于洪志
    计算机应用    2009, 29 (07): 2016-2018.  
    摘要1007)      PDF (464KB)(1438)    收藏

    介绍了国内外主要藏文系统的编码方案,并根据三种不同类型的编码结构,对非标准藏文编码到国家标准(GB18030)的转换,国家标准和国际标准(ISO/IEC 10646)之间的相互转换进行了详细阐述,并在Vista平台下实现了转码程序,为藏语信息交换处理提供方便宜用的工具,为藏文信息的进一步研究奠定了基础。

    相关文章 | 多维度评价
    6. 班智达藏文语料切分词典的建立与算法研究
    才藏太
    计算机应用    2009, 29 (07): 2019-2021.  
    摘要1184)      PDF (445KB)(1217)    收藏

    随着自然语言信息处理的不断发展和完善,大规模语料文本处理已经成为计算语言学界的一个热门话题。一个重要的原因是从大规模的语料库中能够提取出所需要的知识。而语料文本的处理与加工以语法信息词典作基础。结合藏文语料库切分标注规范,论述了对藏文语料库切分与标注用的藏文语法信息词典的建立和设计,重点讨论了该词典的内容建设、语法信息的标注、索引结构及查找算法。

    相关文章 | 多维度评价
    7. 基于短语统计翻译的汉维机器翻译系统
    杨攀 李淼 张建
    计算机应用    2009, 29 (07): 2022-2025.  
    摘要1489)      PDF (665KB)(1264)    收藏

    描述了一种基于短语统计翻译的汉维机器翻译系统。首先使用汉维语料进行训练,得到语言模型和翻译模型;再利用训练好的模型对源语句进行解码,以得到最佳的翻译语句。解码的核心算法是柱搜索(beam search)算法。其中维文语料使用的是拉丁维文。实验结果表明,基于短语的统计机器翻译方法可以快速有效地构建一个汉维机器翻译平台。

    相关文章 | 多维度评价
    8. 藏文字形结构计量统计分析
    艾金勇 李永宏 于洪志
    计算机应用    2009, 29 (07): 2029-2031.  
    摘要824)      PDF (425KB)(1270)    收藏

    本文通过对藏文词典的统计,计算出现代藏字在藏文中的使用频度,并对藏字分别进行了部件和字丁层面上的分析,得出藏字构字方面的特征。同时依据藏字声母和韵母的结构方式的统计结果,揭示了藏字在声韵母方面的特性,为藏文的研究和信息化处理提供了一些基础数据。

    相关文章 | 多维度评价
    9. 维吾尔语三音节词韵律特征声学分析
    祖丽皮亚.阿曼 艾斯卡尔•艾木都拉 地里木拉提•吐尔逊
    计算机应用    2009, 29 (07): 2032-2034.  
    摘要1149)      PDF (400KB)(1242)    收藏

    本文从文本分析模块入手,利用“维吾尔语语音声学参数库”,选择了以开音节和闭音节结尾的333个三音节词的韵律参数,包括元音时长、音高和音强进行了统计分析,归纳了其元音时长、音高和音强分布模式,探讨了维吾尔语三音节词的韵律节奏模式与三音节词重音之间的关系问题,其目的是为了提高语音合成的自然度即更好的为自然语言处理服务。本项研究对维吾尔语语言乃至整个阿尔泰语系语言的韵律研究具有较高的参考价值。

    相关文章 | 多维度评价
2024年 44卷 4期
刊出日期: 2024-04-10
文章目录
过刊浏览
荣誉主编:张景中
主  编:徐宗本
副主编
:申恒涛 夏朝晖

国内邮发代号:62-110
国外发行代号:M4616
地址:四川成都双流区四川天府新区
   兴隆街道科智路1369号
   中科信息(科学城园区) B213
   (计算机应用编辑部)
电话:028-85224283-803
   028-85222239-803
网址:www.joca.cn
E-mail: bjb@joca.cn
期刊微信公众号
CCF扫码入会