摘要
在完成自动分词和词性标注工作的基础上,进行分句层次和关系的自动划分和标注,以期建设一个面向中文信息处理的大规模复句"精加工"语料库。可以利用词性信息制定一系列规则去实现部分非分句的自动识别和标注,同时建设一个短语库,把短语语言片段收录其中。
In order to build a "finishing" compound-sentence corpus for Chinese Information Process,automatic word segmentation and POS tagging work should be completed first of all.On this basis,automatic classification and labeling of levels and relationship between clauses should be conducted.We can use the POS information to develop a set of rules to achieve some non-clause of automatic identification and labeling,but also can build a phrase library,which includes the phrase language fragments.
出处
《长春工程学院学报(社会科学版)》
2011年第1期77-80,共4页
Journal of Changchun Institute of Technology(Social Sciences Edition)
基金
教育部人文社会科学研究青年项目的研究成果(项目编号:09YJC740032)
华中师范大学"丹桂计划"项目
关键词
词性
短语库
词性标注
part of speech
phrase library
rules