用数据采掘方法获取汉语词性标注规则被引量：10

A DATA MINING METHOD TO ACQUIRE PART OF SPEECH RULES IN CHINESE TEXT

下载PDF

导出

摘要从数据采掘的角度对汉语文本词性标注规则的获取进行研究 .在满足用户规定的支持度向量的前提下 ,先从候选集模式中挑选出常用模式 ;然后采掘出具有高可信度的产生式规则 .该过程完全是自动的 ,而获取的规则在表达上是明确的 ,同时又是隐含在数据中的、用户不易发现的 .实验表明 :在原有统计方法的基础上 ,利用自动获得的标注规则作为补充 ,可以提高词性标注的正确率 . A data mining method to acquire part of speech rules in Chinese text is presented. Given an array of support degree, it selects frequent pattern from candidate pattern set. Then it extracts a set of production rules that have high confidence degree. The process is automatic. The rules acquired are clear, but implicit in data set and previously unknown by users. The experiment shows a system that incorporates statistic method with rule method has better performance.

作者李晓黎史忠植

机构地区中国科学院计算技术研究所

出处《计算机研究与发展》 EI CSCD 北大核心 2000年第12期1409-1414,共6页 Journal of Computer Research and Development

基金国家自然科学基金资助!(项目编号 6 980 30 10 )

关键词数据采掘中文信息处理汉语词性标注规则 part of speech, tagging of Chinese corpus, data mining, association rul,

分类号 TP391.12 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1白拴虎.基于统计的汉语语料库词性自动标注的研究与实现[M].北京:清华大学,1992..
2刘开瑛陈肇雄等.语料库词类自动标注算法研究[M].北京:电子工业出版社,1992.378-386.
3温锁林.中文文本兼类词的标注技术.中文信息算是国际会议论文集[M].北京,1998..
4温锁林，中文信息处理国际会议论文集，1998年
5Park J S，Proc of ACM SIGMOD.San Jose，1995年，175页
6Liu S，Computer Processing Chinese Oriental Languages，1995年，9卷，1期，31页
7刘开瑛，机器翻译研究进展，1992年，378页
8白拴虎，硕士学位论文，1992年

共引文献1

1王素格,张永奎.基于搭配模式的汉语词性标注规则的获取方法[J].计算机工程与应用,2001,37(5):56-58. 被引量：3

同被引文献36

1邓景毅.关联规则数据挖掘综述[J].电脑学习,2006(3):4-5. 被引量：7
2王珏,苗夺谦,周育健.关于Rough Set理论与应用的综述[J].模式识别与人工智能,1996,9(4):337-344. 被引量：264
3洪铭材,张阔,唐杰,李涓子.基于条件随机场(CRFs)的中文词性标注方法[J].计算机科学,2006,33(10):148-151. 被引量：56
4王岩.数据挖掘过程的研究[J].福建电脑,2007,23(3):67-67. 被引量：3
5刘海峰,王元元,张学仁.基于潜在语义空间的文本检索问题研究[J].情报科学,2007,25(5):748-753. 被引量：9
6曹茂诚,王英龙,王金栋,窦青青.语义检索技术研究[J].信息技术与信息化,2007(3):51-52. 被引量：4
7程英英.Web挖掘技术及其在邮件系统中的应用.东南大学学报：自然科学版,2003,33(5):20-23.
8BEN-HUR A, HORN D, SIEGELMANN H T, et al. Support vector clustering [J]. Journal of Machine Learning Research, 2001,2 (2) :125- 137.
9SALTON G. Introduction to modem information retrieval [ M]. New York: McGraw-Hill Book Company, 1983.
10YANG Yi-ming, OPEDERSON J. A comparative study on feature selection in text categorization[ C ]//Proc of the 14th International Conference on Machine Learning. 1997:412-420.

引证文献10

1陈文亮,朱靖波,吕学强.词性标注规则的获取和优化[J].术语标准化与信息技术,2004(2):23-26. 被引量：5
2任桢,李晨.多媒体文献检索系统搜索算法[J].计算机与数字工程,2007,35(8):33-34.
3胡锡衡.垃圾邮件过滤系统模型的研究与设计[J].鞍山师范学院学报,2009,11(2):49-52.
4史长琼,黄辉,王大卫,姜腊林,扶宗文.融合LSI和支持向量聚类的网页文本分类算法[J].计算机应用研究,2009,26(12):4523-4525. 被引量：1
5胡锡衡.径向基函数在文本分类中的应用[J].鞍山师范学院学报,2011,13(2):42-44.
6李晓黎,刘继敏,史忠植.基于支持向量机与无监督聚类相结合的中文网页分类器[J].计算机学报,2001,24(1):62-68. 被引量：108
7马如义.Apriori算法在词性标注规则获取中的应用[J].计算机时代,2016(10):32-35. 被引量：2
8莫礼平,黄永琨.基于FP-Growth算法的词性标注规则获取方法[J].吉首大学学报（自然科学版）,2021,42(4):38-43.
9钱揖丽,郑家恒.中文文本词性自动校对系统的实现[J].电脑开发与应用,2004,17(1):25-27.
10高波,眭莉.基于粗糙集的网页训练样本集的分类属性的选择[J].常州工学院学报,2004,17(2):45-48.

二级引证文献116

1王世卫,李爱国.报税欺诈检测研究[J].仪器仪表学报,2005,26(z1):900-901.
2童亚拉,陈益.一种基于混沌粒子群算法的网页分类规则抽取方法[J].微电子学与计算机,2009,26(2):193-196. 被引量：2
3郑松峰,徐维朴,刘维湘,郑南宁.基于无监督聚类的约简支撑向量机[J].计算机工程与应用,2004,40(14):74-76. 被引量：1
4贾自艳,何清,张海俊,李嘉佑,史忠植.一种基于动态进化模型的事件探测和追踪算法[J].计算机研究与发展,2004,41(7):1273-1280. 被引量：58
5江宝林,申展,张川,葛家翔,胡运发.结合网站内容和结构进行的Web日志挖掘[J].计算机工程,2004,30(16):30-32. 被引量：9
6张莉,康耀红,王曙光,张春元.中文网页自动分类现状的研究[J].福建电脑,2004,20(5):3-4. 被引量：1
7包骏杰,马燕.一种基于互联网智能元搜索引擎的研究[J].计算机科学,2004,31(6):103-105. 被引量：1
8黄发良,钟智.用于分类的支持向量机[J].广西师范学院学报（自然科学版）,2004,21(3):75-78. 被引量：14
9王丽侠,房福亭.分级聚类与平面划分结合方法在网页分类中的应用[J].计算机工程与应用,2004,40(35):139-141. 被引量：2
10梁春燕,郭力,夏诏杰,杨章远.网络搜索引擎的性能优化策略和相关技术[J].计算机工程与应用,2004,40(36):179-182. 被引量：5

1王素格,张永奎.基于搭配模式的汉语词性标注规则的获取方法[J].计算机工程与应用,2001,37(5):56-58. 被引量：3
2袁萍,周铁军.一种汉语词性标注规则获取算法的实现[J].湖南大学学报（自然科学版）,2003,30(S1):200-202.
3陈兰,左志宏,熊毅,孟令谦.一种新的基于Ontology的信息抽取方法[J].计算机应用研究,2004,21(8):155-157. 被引量：18
4李业刚,孙福振,李鉴柏,吕新宇.语义角色标注研究综述[J].山东理工大学学报（自然科学版）,2011,25(6):19-24. 被引量：5
5马如义.Apriori算法在词性标注规则获取中的应用[J].计算机时代,2016(10):32-35. 被引量：2
6高海燕.数据挖掘技术及应用浅析[J].中国科技博览,2012(6):167-167. 被引量：1
7吴昊.计算机数据库的构建和维护管理研究[J].电子技术与软件工程,2013(21):205-205. 被引量：3
8陈爽.面向模式的软件体系结构的研究[J].电脑与电信,2009(6):56-57.
9王琳,滕少华,伍乃骐.基于协议分析的散列模式入侵检测方法[J].计算机工程与设计,2006,27(1):53-55. 被引量：2
10李琳.计算机数据库入侵检测技术[J].科技传播,2012,4(12):183-184. 被引量：3

计算机研究与发展

2000年第12期

浏览历史

内容加载中请稍等...

用数据采掘方法获取汉语词性标注规则被引量：10

参考文献8

共引文献1

同被引文献36

引证文献10

二级引证文献116

相关作者

相关机构

相关主题

浏览历史

用数据采掘方法获取汉语词性标注规则 被引量：10

参考文献8

共引文献1

同被引文献36

引证文献10

二级引证文献116

相关作者

相关机构

相关主题

浏览历史

用数据采掘方法获取汉语词性标注规则被引量：10