基于关键词筛选分词算法的企业级搜索引擎

Enterprise Search Engine Based on Keyword Selected Split-word Algorithm

下载PDF

导出

摘要随着计算机技术与数据库学科不断发展,数字化信息已经成为当今存储数数据的首要选择,并且借助大型搜索引擎,使用户可以快速找到对应信息。应用于企业级的高效搜索引擎成为当前研究的重要课题。本文提出了基于关键词筛选KWS(Key Word Selection)的搜索引擎机制,针对电网与大型发电厂智能管理系统的数据结构,通过构建双字哈希词典和双字耦合消歧分词与结果的语义筛选,将筛选后的分词结果放入Sphinx和MySQL数据库进行全文搜索并加以缓存,既提高了搜索速度又提高搜索的准确度。 With the development of computer science and database subject,digital information is becoming the first choice of data forms.Nowadays,with the help of large scale search engine,users could find valuable information rapidly.The improvement of search engine with high efficiency which used in enterprise is now a hot subject.This paper describes a search engine based on Keyword Selection(KWS) which aimed to enterprise data structure.By using dictionary based on Hash Structure and measures of Coupling Degree of Double Characters,keyword strings would be splitted into pieces and results would be cached as well.Meanwhile,Sphinx and MySQL database ensure high accuracy and quick response.

作者吴亮李树广

机构地区上海交通大学自动化系上海交通大学

出处《微型电脑应用》 2010年第7期37-40,5,共4页 Microcomputer Applications

基金上海电力电网系统重点攻关项目(编号08100542)

关键词企业级数据库哈希结构双字耦合分词算法缓存 Enterprise Search Engine Hash Structure Coupling Degree of Double Characters Cache

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1姚兴山.基于哈希算法的中文分词算法的改进[J].图书情报工作,2008,52(6):60-62. 被引量：6
2梁卓明.基于专有名词优先的快速中文分词,2008,1673-629:(2008)03-0024-04.
3王思力,王斌.基于双字耦合度的中文分词交叉歧义处理方法,中科院计算所技术报告,2007年.
4孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
5费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68

二级参考文献19

1黄萱菁,吴立德,王文欣,叶丹瑾.基于机器学习的无需人工编制词典的切词系统[J].模式识别与人工智能,1996,9(4):297-303. 被引量：24
2孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66
3孙膑.现代汉语文本的词语切分技术.[2007-12-01].http://www.tinko.com/Lunwen/86087.htm.
4殷人昆.数据结构(用面向对象方法与C++描述).北京:清华大学出版社,2005:344-388.
5Sartaj Sahni. Data Structures Algorithms and Application in C++.北京:机械工业出版社,2006:218-243.
6Ando R,Lee L.Mostly-Unsupervised Statistical Segmentation of Japanese[J].Application to Kanji ANLP-NAACL,2000:145～148.
7Sproat R., Shih C.L.. A statistical method for finding word boundaries in Chinese text. Computer Processing of Chinese and Oriental Languages, 1993, 4(4): 336～249
8Sun Mao-Song, Shen Da-Yang, Tsou B K. Chinese word segmentation without using lexicon and hand-crafted training data. In: Proceedings of the 36th Annual Meeting of Association of Computational Linguistics and the 17th International Conference on Computational Linguistics, Montreal, Canada, 1998, 1265～1271
9Nie J.Y., Jin W.Y.. A hybrid approach to unknown word detection and segmentation of Chinese. In: Proceedings of International Conference on Chinese Computing, Singapore, 1994, 405～412
10Church K.W., Gale W., Hanks P., Hindle D.. Using statistics in lexical analysis. In: Zernik U. ed.. Lexical Acquisition: Exploiting On-line Resources to Build a Lexicon. Hillsdale NJ: Lawrence Erlbaum Associates, 1991, 115～164

共引文献105

1白晓梅,张福利.校园网中文搜索引擎系统的设计[J].鞍山师范学院学报,2006,8(6):52-54. 被引量：1
2丁洁.基于Lucene的中文分词系统设计与实现[J].自动化与仪器仪表,2016(5):208-210. 被引量：5
3熊回香.全文检索中的汉语自动分词及其歧义处理[J].中国图书馆学报,2005,31(5):54-57. 被引量：6
4刘迁,贾惠波.中文信息处理中自动分词技术的研究与展望[J].计算机工程与应用,2006,42(3):175-177. 被引量：67
5赵彦斌,李庆华.汉字关联性量化方法及其在文本相似性分析中的应用[J].计算机应用,2006,26(6):1396-1397. 被引量：1
6谈文蓉,杨宪泽,谈进,刘莉.MIS智能接口中汉语分词系统的设计与应用[J].计算机科学,2006,33(7):204-206. 被引量：5
7孙巍.一种面向中文信息检索的汉语自动分词方法[J].现代图书情报技术,2006(7):33-36. 被引量：7
8陈宏彦,陈俊杰.规则与统计相结合的分词算法[J].电脑开发与应用,2006,19(8):43-45.
9夏天,杨瑛霞,田爱奎,张际平.学习支持系统问题理解模块的架构[J].开放教育研究,2006,12(4):80-82. 被引量：1
10康松林,施荣华.基于信息元的教学资源组织系统的设计与实现[J].电脑与信息技术,2006,14(4):20-23. 被引量：4

1杨东.哈希结构模拟文件系统[J].电脑编程技巧与维护,2013(7):27-29.
2赵凯,王敏.基于Solr的企业级搜索引擎的设计[J].电子世界,2013(22):10-11. 被引量：4
3刘学军.用Perl语言实现Huffman编码[J].北京工商大学学报（自然科学版）,2006,24(2):23-26. 被引量：1
4唐明珠,杨艳,郭雪泉,沈中辉,钟颖莉.KWSDS:关系数据库中Top-k关键词搜索系统[J].计算机研究与发展,2012,49(10):2251-2259. 被引量：2
5叶从欢,孙世新.网格计算核心技术浅析[J].成都信息工程学院学报,2004,19(4):521-526. 被引量：10
6李秦伟.实时系统组合软件模型研究[J].贵州工业大学学报（自然科学版）,2001,30(2):42-45.
7武红宽.基于sphinx服务实现酷友社区站内搜索[J].中国新通信,2016,18(6):85-85.
8袁翔.基于Sphinx的机器人语音识别系统构建与研究[J].电脑知识与技术,2017,13(3):154-155. 被引量：1
9杨伟超,刘阳,李淑霞.基于搜索引擎的一站式检索平台设计与实现[J].计算机与现代化,2012(11):220-222. 被引量：3
10孙逸敏.基于Sphinx的社交网络搜索引擎的设计与分析[J].科技通报,2014,30(2):121-123. 被引量：1

微型电脑应用

2010年第7期

浏览历史

内容加载中请稍等...

基于关键词筛选分词算法的企业级搜索引擎

参考文献5

二级参考文献19

共引文献105

相关作者

相关机构

相关主题

浏览历史