摘要
本文基于AC(Aho-Corasick)算法提出了一种适用于藏文字符集的多模式匹配算法——TAC(Tibetan Aho-Corasick)算法。该算法有效利用藏文以音节点为结尾这一特点,检测到失配字符后不再将文本串读入自动机而是进行下一个词读入,从而提高了效率。实验结果表明,在处理藏文多模式匹配方面,TAC算法相较于AC算法效率大幅度提高。可很好地应用于藏文字取证、拼写检查器以及抄袭检测等领域。
出处
《电子技术与软件工程》
2023年第1期143-148,共6页
ELECTRONIC TECHNOLOGY & SOFTWARE ENGINEERING
基金
西藏自治区自然科学基金项目《藏文模式匹配与文本索引关键技术研究》(XZ202101ZR0089G)。