基于搜索引擎的中文歧义词收集系统研究被引量：1

A System Based on Search Engine for Collecting Chinese Ambiguity Words

下载PDF

导出

摘要本文构建了一个基于搜索引擎技术的中文歧义词收集系统。该系统从Internet上抓取网页内容,清除掉HTML标记及其他脚本后,得到网页内容的纯文本形式,然后采用双向扫描法找出歧义词位置并保存,接着做进一步的分析处理,得到包含歧义词的句子及歧义词在句中的相对位置。该结果可以供分词消岐算法研究人员使用,能够有效解决分词消歧研究中测试语料难以获取和不同消歧算法的结果难以对比的问题。 A system for collecting test material used in disambiguation of chinese word segmentation was built,which was based on search engine technology.Firstly,web page was captured by crawler,HTML tag and other unnecessary content was cleaned,plain text was obtained.Then the bidirectional scanning method was adapted to find the position that needs disambiguation in process of word segmentation,all result was saved for further processing,after judgement manually,the final result could be used for testing.

作者吉向东

机构地区襄樊学院物理与电子工程学院

出处《现代情报》 CSSCI 2010年第6期125-127,共3页 Journal of Modern Information

关键词搜索引擎歧义词语料收集 search engine chinese ambiguity words collecting

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1安希孟.关于汉语与英语的哲学思考[DB/OL].http://tieba.baidu.com/f?kz=126471588/2009-5-1.
2百度百科·汉语[DB/OL].http://baike.beidu.com/view/1711.htm/2008-12-23.
3马玉春,宋瀚涛.Web中文文本分词技术研究[J].计算机应用,2004,24(4):134-135. 被引量：39
4张长利,赫枫龄,左万利.一种基于后缀数组的无词典分词方法[J].吉林大学学报（理学版）,2004,42(4):548-553. 被引量：14
5韩客松等.无词典高额字串快速提取和统计算法研究.中文信息学报,2000,15(2):23-29.
6冯素琴,陈惠明.一种自组织的汉语组合型歧义消歧方法[J].计算机工程与设计,2007,28(3):737-739. 被引量：3
7张利,张立勇,张晓淼,耿铁锁,岳宗阁.基于改进BP网络的中文歧义字段分词方法研究[J].大连理工大学学报,2007,47(1):131-135. 被引量：12
8梁南元.书面汉语自动分词系统—CDWS[J].中文信息学报,1987,(2):44-52.
9Roger S.Pressman.Software Engineering,A Practitioner's Approach[M].Fourth Edition.McGraw-Hill Company,1999/2009-05-17.

二级参考文献32

1林珊,宁国宁,赵之霖.中文分词在邮件过滤系统中的应用[J].华南理工大学学报（自然科学版）,2004,32(z1):112-116. 被引量：3
2苏菲,王丹力,戴国忠.基于标记的规则统计模型与未登录词识别算法[J].计算机工程与应用,2004,40(15):43-45. 被引量：13
3刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
4孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
5曾华琳,李堂秋,史晓东.一种基于提取上下文信息的分词算法[J].计算机应用,2005,25(9):2025-2027. 被引量：9
6吴胜远.一种汉语分词方法[J].计算机研究与发展,1996,33(4):306-311. 被引量：49
7.中国新闻社[EB/OL].http://www.chinanews.com.cn/,2003-10-01.
8HUANG De-gen, ZHU He-he, WANG Kun-lun, et al. Chinese automatic words segmentation based on maximum matching and second-maximum matching [J]. Journal of Dalian University of Technology, 1999, 39(6): 831-835. (黄德根, 朱和合, 王昆仑, 等. 基于最长次长匹配的
9Manber Udi, Gene Myers. Suffix arrays: a new method for on-line string searches [J]. SIAM Journal on Computing, 1993, 22(5): 935-948.
10Mikio Yamamoto, Kenneth Church. Using suffix arrays to compute term frequency and document frequency for all substrings in a corpus [J]. Association for Computational Linguistics, 2000, 27(1): 1-30.

共引文献106

1刘春辉,金顺福,刘国华,李颖.基于优化最大匹配与统计结合的汉语分词方法[J].燕山大学学报,2009,33(2):124-129. 被引量：9
2徐吉,朱兰娟.用于网络搜索引擎的中文分词消岐算法[J].微型电脑应用,2011(4):52-54.
3刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
4孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
5李淑文.试论文本自动分类[J].现代计算机,2004,10(7):38-41. 被引量：2
6刘壁松,李春平.一个可扩展的文本分类系统的设计与实现[J].计算机工程与应用,2004,40(30):102-106. 被引量：2
7陈小荷.用基于词的二元模型消解交集型分词歧义[J].南京师大学报（社会科学版）,2004(6):109-113. 被引量：7
8陈耀东,王挺.基于有向图的双向匹配分词算法及实现[J].计算机应用,2005,25(6):1442-1444. 被引量：7
9杨芳,杨振山.一种消除中文匹配中交集型歧义的方法[J].计算机辅助工程,2005,14(2):36-38. 被引量：2
10张锋,樊孝忠.基于最大熵模型的交集型切分歧义消解[J].北京理工大学学报,2005,25(7):590-593. 被引量：6

同被引文献16

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：45
2赵衍,张永娟,陈成材,陈恒.一种提高计算机自动赋词标引准确性的综合方法——基于创新型CBA数据库的实证分析[J].情报杂志,2012,31(5):185-191. 被引量：5
3孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
4黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
5曹勇刚,曹羽中,金茂忠,刘超.面向信息检索的自适应中文分词系统[J].软件学报,2006,17(3):356-363. 被引量：48
6王华栋,饶培伦.基于搜索引擎的中文分词评估方法[J].情报科学,2007,25(1):108-112. 被引量：5
7刘博,郑家恒,张虎.规则与统计相结合的分词一致性检验[J].计算机工程与设计,2008,29(7):1814-1816. 被引量：7
8何莘,王琬芜.自然语言检索中的中文分词技术研究进展及应用[J].情报科学,2008,26(5):787-791. 被引量：25
9黄微,陈玲,范轶.数字图书馆知识组织系统热点分析[J].图书情报工作,2009,53(15):8-11. 被引量：4
10奉国和,郑伟.国内中文自动分词技术研究综述[J].图书情报工作,2011,55(2):41-45. 被引量：104

引证文献1

1彭秋茹,王东波,黄水清.面向新时代的人民日报语料中文分词歧义分析[J].情报科学,2021,39(11):103-109. 被引量：3

二级引证文献3

1林绪武.中共党报党刊史研究报告2021[J].新闻春秋,2022(3):10-18.
2邬亮,丁光正,王一囡.中文分词检索技术的现状与前景[J].通讯世界,2022,29(9):193-195.
3刘爱琴,郭少鹏.基于Stacking模型的学术论文多标签分类系统构建[J].国家图书馆学刊,2024,33(2):96-104.

1彭思毛,徐芳.毕业论文教学个性化语料库构建方法探索[J].湖南广播电视大学学报,2008(2):6-7.
2张冬瑜,杨亮,郑朴琪,徐博,林鸿飞.情感隐喻语料库构建与应用[J].中国科学：信息科学,2015,45(12):1574-1587. 被引量：15
3熊回香.全文检索中的汉语自动分词及其歧义处理[J].中国图书馆学报,2005,31(5):54-57. 被引量：6

现代情报

2010年第6期

浏览历史

内容加载中请稍等...

基于搜索引擎的中文歧义词收集系统研究被引量：1

参考文献9

二级参考文献32

共引文献106

同被引文献16

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于搜索引擎的中文歧义词收集系统研究 被引量：1

参考文献9

二级参考文献32

共引文献106

同被引文献16

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于搜索引擎的中文歧义词收集系统研究被引量：1