全文检索搜索引擎中文信息处理技术研究被引量：5

Research on the Chinese Information Processing Technique for Full-text Retrieval Search Engine

下载PDF

导出

摘要本文深入分析了全文检索中文搜索引擎的关键技术,提出了一种适用于全文检索搜索引擎的中文分词方案,既提高了分词的准确性,又能识别文中的未登录词。针对向量空间信息检索模型,本文设计了一个综合考虑中文词在Web文本中的位置、长度以及频率等重要因素的词条权重计算函数,并且用量化的方法表示出其重要性,能够较准确地反映出词条在Web文档中的重要程度。最后对分词算法进行了测试,测试表明该方法能够提高分词准确度满足实用的要求。 This paper analyses the key techniques of full - text retrieval Chinese search engine, and puts forward a Chinese word segmentation method suited to full - text retrieval search engine. It not only enhances the accuracy of word segmentation but also recognizes unknown words. For vector space information retrieval model, this paper gives a term weighting formula that takes into account the import information such as the position, length and frequency of Chinese word in the Web text. And it quantizes the importance of word and expresses the importance of term in the Web text. In the end, the given segmentation algorithm is tested, and the results show that the method can improve the accuracy of word segmentation and satisfy the applied requirement.

作者唐培丽胡明解飞刘钢

机构地区长春工业大学计算机科学与工程学院武警吉林省总队通信处

出处《情报科学》 CSSCI 北大核心 2006年第6期895-899,909,共6页 Information Science

关键词全文检索搜索引擎中文分词信息检索 full - text retrieval search engine Chinese word segmentation information retrieval

分类号 G354 [文化科学—情报学]

引文网络
相关文献

参考文献12

1杨广翔,俞宁,谌莉.搜索引擎结果的重排序方法[J].计算机应用,2005,25(2):305-308. 被引量：13
2王钦.中文搜索引擎技术揭密：系统架构[EB／OL]．http://telecom.chinabyte. com/154/1803154.shtml, 2004 - 06 -01.
3陈燕娜,邵志清.基于全文搜索的中文搜索引擎设计技术[J].计算机工程与应用,2002,38(17):196-198. 被引量：10
4曹倩,丁艳,王超,潘金贵.汉语自动分词研究及其在信息检索中的应用[J].计算机应用研究,2004,21(5):71-74. 被引量：18
5吴栋,滕育平.中文信息检索引擎中的分词与检索技术[J].计算机应用,2004,24(7):128-131. 被引量：47
6郭辉,苏中义,王文,崔骏.一种改进的MM分词算法[J].微型电脑应用,2002,18(1):13-15. 被引量：39
7韩客松,王永成,陈桂林.汉语语言的无词典分词模型系统[J].计算机应用研究,1999,16(10):8-9. 被引量：22
8邹海山,吴勇,吴月珠,陈阵.中文搜索引擎中的中文信息处理技术[J].计算机应用研究,2000,17(12):21-24. 被引量：35
9李孝明,曹万华.文本信息检索的精确匹配模型[J].计算机科学,2004,31(9):100-102. 被引量：7
10彭洪汇,林作铨.Internet上的搜索引擎和元搜索引擎[J].计算机科学,2002,29(9):1-12. 被引量：22

二级参考文献76

1黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
2黄祥喜.书面汉语自动分词的现状和问题[J].情报学报,1989,8(2):125-133. 被引量：11
3骆正清,陈增武,胡上序.一种改进的MM分词方法的算法设计[J].中文信息学报,1996,10(3):30-36. 被引量：28
4王永成等.中文信息处理技术及其基础[M].上海交通大学出版社,1993.92-110.
5[7]黄青松.中文全文信息检索系统中索引项技术及分词系统的实现[C].昆明:云南省计算机学会通讯,2000.
6[5]Yang Yiming. An Evaluation of Statistical Approaches to Text Categorization. Journal of Information Retrieval,1999,11(2):11～14
7[7]Salton G,Buckley C.Term-weighing approaches in automatic text retrieval.Information Processing & Management,1988,24:513～523
8BRIN S, Lawrence Page. The Anatomy of a Large-Scale Hypertextual Web Search Engine[ J/OL]. http://www-db. stanford.edu/- back-rub/google. html, 1997.
9iProspect, iProspect' s Search Engine User Attitudes Survey Results[ DB/OL]. http://www.iprospect. com/, 2004.
10Ed Greengrass. Information Retrieval: A Survey[J/OL]. http://www. csee. umbc. edu/cadip/, 2000.

共引文献199

1林少伟.人工智能法律主体资格实现路径:以商事主体为视角[J].中国政法大学学报,2021(3):165-177. 被引量：4
2孙宝刚,肖灵.计算机与数据库技术在舰船建造过程的节本与工时分析应用[J].舰船科学技术,2019,0(20):217-219. 被引量：2
3冯裕静,赵一美子.基于词频分析的国家级创新创业项目研究方向及趋势研究[J].产业科技创新,2020(6):26-27. 被引量：1
4段小斌,林雯,阮百尧,陈基漓.一种基于三级索引词库结构的中文分词方法研究[J].计算机与数字工程,2007,35(7):47-49. 被引量：5
5毛姝洁,张雪虎.基于兴趣点简称的检索方法研究[J].太原理工大学学报,2008,39(S1):52-55. 被引量：1
6隋丽萍,徐承韬,李瑞芳.一个中文全文检索系统的设计与实现[J].科技资讯,2007,5(18):244-245. 被引量：1
7戴文军,朱立谷,孙志伟,任勇,曾赛峰,郝玮.一种基于搜索引擎的对象存储系统的扩展技术[J].计算机研究与发展,2007,44(z1):126-129.
8谢新吾.黄跃佳:北大失业生的三次跳跃[J].职业圈,2005(11):30-31.
9蒋作,李彤,杨柽.Web文档特征提取中知识树构造[J].云南大学学报（自然科学版）,2011,33(S2):168-172.
10曾元鉴,李孝明.一个中文全文检索系统的设计与实现[J].计算机与数字工程,2004,32(3):12-15. 被引量：3

同被引文献32

1杨文安,陈行益.“元数据模型”在数据提取中的实现[J].吉林大学学报（信息科学版）,2005,23(1):32-36. 被引量：13
2耿桦,李媛,朱炜,潘金贵.Web搜索中的数据挖掘技术研究[J].计算机科学,2005,32(4):37-41. 被引量：4
3田友强,于磊,张晓峰,蒋永国.海洋XML数据集成系统原型的设计与实现[J].中国海洋大学学报（自然科学版）,2005,35(4):691-696. 被引量：9
4陈康,许婷,戴文俊,武港山.基于Web的全文搜索引擎的设计与实现[J].计算机工程,2005,31(20):51-53. 被引量：7
5唐培丽,王树明,胡明.基于语义的汉语文献主题词提取算法研究[J].吉林大学学报（信息科学版）,2005,23(5):535-540. 被引量：16
6孔晓霞,魏志强,王晓,江湛.基于Web服务的移动电子商务系统的设计与应用[J].中国海洋大学学报（自然科学版）,2005,35(6):1041-1044. 被引量：4
7舒坚,郑诚,陈振.基于关联分类方法的Web使用挖掘研究[J].安徽大学学报（自然科学版）,2006,30(2):17-20. 被引量：1
8马辉民,李卫华,吴良元.VSM在中文文本聚类中的应用及实证分析[J].武汉理工大学学报（信息与管理工程版）,2006,28(4):56-59. 被引量：13
9张娜,张化祥.基于超链接和内容相关度的检索算法[J].计算机应用,2006,26(5):1171-1173. 被引量：6
10高琰,谷士文,唐琎.基于链接分析的Web社区发现技术的研究[J].计算机应用研究,2006,23(7):183-185. 被引量：17

引证文献5

1陈呈超,秦勃.基于学术论文质量模型的检索排序算法研究[J].中国海洋大学学报（自然科学版）,2008,38(1):135-138. 被引量：4
2王龙义,李仁旺.基于全信息管理的工程材料数据库系统[J].计算机工程,2008,34(17):251-253. 被引量：2
3赵源.基于最大匹配的中文分词改进算法研究[J].科技信息,2010(35):58-58. 被引量：1
4周彩兰,冯斌.Web数据挖掘在搜索引擎中的应用[J].软件导刊,2007,6(9):82-84. 被引量：1
5文必龙,郭娇,焦圣杰.企业数据空间中关联推理机制研究[J].自动化与仪器仪表,2021(2):25-28.

二级引证文献8

1刘飞,高红艳.基于数据挖掘的Web信息检索的研究[J].江西科学,2008,26(2):304-307.
2罗小芬,丁璐.运用科学发展观来指导高校学术论文的质量评估工作[J].科技情报开发与经济,2010,20(8):173-175.
3徐东风,彭红星,廖俊杰.基于Java的文档格式检查技术的研究及其应用[J].计算机工程与设计,2010,31(19):4309-4311. 被引量：9
4刘芳,施进发,陆长德.基于GIS面向LCA的产品材料信息管理系统建构[J].南京航空航天大学学报,2011,43(1):91-94. 被引量：2
5李芳,汪江桦.基于检索排序新进展研究综述[J].情报科学,2012,30(3):469-475.
6万莛.最大匹配算法研究[J].微型机与应用,2012,31(8):62-63.
7唐雪梅.利用XML格式解析原理批量进行成果资料格式检查[J].物探化探计算技术,2013,35(5):617-623. 被引量：2
8马朝君,彭巨擘,王旖旎,陈光云,张文兵,张家涛.锡铋系合金专题数据库系统的设计与开发[J].云南冶金,2021,50(2):89-94.

1向书仪,文虹.Internet与医学编辑[J].泸州医学院学报,1999,22(4):359-360. 被引量：1
2李行.张春贤登门祝贺吾守尔·斯拉木当选院士[J].新疆画报,2012,0(1):13-13.
3王源,秦聿昌,刘滨.全文检索处理技术研究Ⅰ:汉字全文检索技术[J].情报学报,1997,16(1):50-56. 被引量：9
4张海辉,李海明.我国城市固体废物处理技术研究[J].中国科技博览,2010(8):316-316. 被引量：4
5庞景安.Web文本特征提取方法的研究与发展[J].情报理论与实践,2006,29(3):338-340. 被引量：17
6王正兴,封晓倩.《中图法》是二十二个基本大类吗?[J].新世纪图书馆,1984(1):19-21.
7杨兵.图书馆知识信息的表示及处理技术研究[J].西华大学学报（哲学社会科学版）,2004,23(4):94-95. 被引量：2
8王新才,徐欣欣.国外档案学视阈下的个人数字存档对象及其对应中文词探析[J].档案学通讯,2016(5):33-39. 被引量：3
9徐坤,曹锦丹.基于领域文献的未登录词识别方法研究[J].情报杂志,2012,31(1):172-174. 被引量：1
10王发生,毛君莲.Web文本数据库检索介绍[J].中华医学图书馆杂志,2000,9(5):46-48.

情报科学

2006年第6期

浏览历史

内容加载中请稍等...

全文检索搜索引擎中文信息处理技术研究被引量：5

参考文献12

二级参考文献76

共引文献199

同被引文献32

引证文献5

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

全文检索搜索引擎中文信息处理技术研究 被引量：5

参考文献12

二级参考文献76

共引文献199

同被引文献32

引证文献5

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

全文检索搜索引擎中文信息处理技术研究被引量：5