模式识别与人工智能
2025年4月3日 星期四   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2020, Vol. 33 Issue (6): 530-541    DOI: 10.16451/j.cnki.issn1003-6059.202006006
综述与评论 最新目录| 下期目录| 过刊浏览| 高级检索 |
印尼语、马来语自然语言处理研究综述
蒋盛益1,2, 李珊珊1,2, 符斯慧1, 林楠铠1,2
1.广东外语外贸大学 信息科学与技术学院 广州 510006
2.广东外语外贸大学 广州市非通用语种智能处理重点实验
An Overview of Natural Language Processing for Indonesian and Malay
JIANG Shengyi1,2, LI Shanshan1,2, FU Sihui1, LIN Nankai1,2
1. School of Information Science and Technology, Guangdong University of Foreign Studies, Guangzhou 510006
2. Guangzhou Key Laboratory of Multilingual Intelligent Processing, Guangdong University of Foreign Studies, Guangzhou 510006

全文: PDF (806 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 随着印尼语、马来语互联网普及率的上升,对海量印尼语、马来语文本进行信息处理存在重大需求.虽然研究人员对印尼语、马来语展开较广泛的研究,但是作为低资源语言,受到的关注远不及通用语,未能较好利用前沿的深度学习方法.文中梳理总结包括词法分析、句法分析、机器翻译、拼写检查等印尼语、马来语相关的自然语言处理技术.对比分析相关的研究成果发现,大多数研究因语料规模及评测标准不同难以客观对比各种算法的差异.最后结合印尼语、马来语现有的各领域语言资源开放情况,指出印尼语、马来语的自然语言处理研究面临的问题,并展望未来发展趋势.
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
蒋盛益
李珊珊
符斯慧
林楠铠
关键词 印尼语马来语黏着语低资源语言自然语言处理    
Abstract:As the penetration rate of Indonesian and Malay rises, it is significant to carry out information processing on massive texts of these two languages. Extensive research is conducted on Indonesian and Malay. However, as low-resource languages, Indonesian and Malay draw less attention than common languages. Thus, the deep learning methods cannot be fully utilized. In this paper, research on Indonesian and Malay morphological analysis, syntactic parsing, machine translation, spelling check etc., is analyzed and summarized. In the most research findings, algorithms cannot be compared objectively due to their different corpus scales and evaluation metrics. Finally, problems and future directions of natural language processing on Indonesian and Malay are discussed with the consideration of the existing open language resources in various fields.
Key wordsIndonesian    Malay    Agglutinative Language    Low-Resource Language    Natural Language Processing   
收稿日期: 2020-03-26     
ZTFLH: TP 312  
基金资助:国家自然科学基金项目(No.61572145)、广州市科技计划项目(No.202002030227)资助
通讯作者: 蒋盛益,博士,教授,主要研究方向为数据挖掘、自然语言处理.E-mail:jiangshengyi@163.com.   
作者简介: 李珊珊,硕士研究生,主要研究方向为数据挖掘、自然语言处理.E-mail:18826101778@163.com. 符斯慧,硕士研究生,主要研究方向为自然语言处理.Email:sihuifu93@gmail.com. 林楠铠,硕士研究生,主要研究方向为数据挖掘、自然语言处理.E-mail:neakail@outlook.com.
引用本文:   
蒋盛益, 李珊珊, 符斯慧, 林楠铠. 印尼语、马来语自然语言处理研究综述[J]. 模式识别与人工智能, 2020, 33(6): 530-541. JIANG Shengyi, LI Shanshan, FU Sihui, LIN Nankai. An Overview of Natural Language Processing for Indonesian and Malay. , 2020, 33(6): 530-541.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/10.16451/j.cnki.issn1003-6059.202006006      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2020/V33/I6/530
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn