藏文搜索引擎系统中网页自动摘要的研究被引量：3

Research on Automatic Abstract of Web Document Summarization of Tibetan Search Engine

下载PDF

导出

摘要给出了藏文搜索引擎中网页自动摘要的基本思路、基本步骤和Web文摘的定义,讨论了分词算法,提出了基于句子抽取的Web文摘生成算法。算法中将每个Web句子的权重分解为Web特征词权重和Web句子结构权重,Web句子结构权重充分考虑排版格式和超连接属性。根据权值大小按给定的比例挑选句子,并进行平滑处理,生成文字流畅且具备一定质量的摘要。最后实验分析表明效果较好。 This paper provided the basic thinking and step of the automatic abstract of Web Document of Tibetan search engine and a definition for Web Document,the algorithm of words frequency is discussed,and presents an algorithm for Web Document based on sentences extraction.each sentence＇s weight is a weighted sum of word＇s weight and its sentence structure＇s weight,the sentence structure＇s weight considers both the Web formats and hyperlink attributes.Some sentences are selected according to the proportion definitely and the size of weights.Moreover,dealing with them smoothly.And last,generating automatic abstract,which is of some quality and fluent.

作者安见才让

机构地区青海民族大学计算机学院

出处《微处理机》 2010年第5期77-80,共4页 Microprocessors

基金国家教育部项目资助(2008704)

关键词自然语言处理自动摘要分词权重平滑处理 Natural language processing Automatic abstract Words frequency Weights Dealing with levelly and smoothly

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1陈志敏,沈洁,林颖,周峰.基于主题划分的网页自动摘要[J].计算机应用,2006,26(3):641-644. 被引量：8
2傅间莲,陈群秀.基于规则和统计的中文自动文摘系统[J].中文信息学报,2006,20(5):10-16. 被引量：21
3徐晓丹.中文网页自动摘要系统的研究[J].计算机与现代化,2006(9):120-122. 被引量：2
4陈玉忠,李保利,俞士汶.藏文自动分词系统的设计与实现[J].中文信息学报,2003,17(3):15-20. 被引量：51

二级参考文献30

1陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26
2刘挺,吴岩,王开铸.基于信息抽取和文本生成的自动文摘系统设计[J].情报学报,1997,16(S1):31-36. 被引量：13
3傅间莲,陈群秀.基于连续段落相似度的主题划分算法[J].计算机应用,2005,25(9):2022-2024. 被引量：10
4傅间莲,陈群秀.自动文摘系统中的主题划分问题研究[J].中文信息学报,2005,19(6):28-35. 被引量：13
5才旦夏茸.藏文文法详解[M].西宁：青海民族出版社,1988..
6LUHN HP.The automatic creation of literature abstract[J].IBM Journal of Research and Development,1958,2(2):159-165.
7RUSH JE,SALVADOR R,ZAMORA A.Automatic abstracting and indexing production of indicative abstracts by application of contextual inference and syntactic coherence criteria[J].Journal of American Society for Information Society,1971,22(4):260-274.
8SALTON G,SINGHAL A,MITRA M.Automatic Text Structuring and Summarization[J].Information Processing and Management,1997,33(2):193-207.
9RAU LF.Concpetual information extraction and retrieval from natural language input[A].Proceedings of RIAO 88 Conference[C],1988.424-437.
10DELORT JY,BOUCHON-MEUNIER B,RIFQI M.Enhanced Web Document Summarization Using Hyperlinks[A].Proceedings of the fourteenth ACM conference on Hypertext and hypermedia[C].United Kingdom,2003.208-215.

共引文献77

1尼玛扎西,李志蜀,群诺,普顿,拥措,陈安龙.一种在移动电话上实现藏文处理的方法[J].四川大学学报（工程科学版）,2009,41(1):162-167. 被引量：9
2才华.基于小字符集的藏文自动分词技术研究[J].西藏大学学报（社会科学版）,2013,28(5):43-47. 被引量：3
3文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20
4文庭孝,侯经川,邱均平,张洋.汉语自动分词新思维:无词典切分[J].情报杂志,2005,24(2):2-4. 被引量：2
5邱均平,文庭孝,周黎明.汉语自动分词与内容分析法研究[J].情报学报,2005,24(3):309-317. 被引量：11
6刘晓英.汉语自动分词研究的发展趋势[J].高校图书馆工作,2005,25(4):25-28. 被引量：4
7文庭孝.汉语自动分词研究进展[J].图书与情报,2005(5):54-63. 被引量：20
8陈丽娜,祁坤钰,贾彦民,吴健,康丽.藏文拉丁转写的研究与实现[J].计算机工程与设计,2006,27(1):15-17. 被引量：13
9杜光芹,张化祥.基于超链接结构和向量空间模型的网页排序算法研究[J].信息技术与信息化,2006(4):106-108.
10区力,王新旭,陈敏.Web文本挖掘技术在电力EIP的应用研究[J].现代计算机,2007,13(10):110-112.

同被引文献4

1黄微,张耀之,李瑞.网络舆情信息语义识别关键技术分析[J].图书情报工作,2015,59(21):33-37. 被引量：8
2南奎娘若,安见才让.基于敏感信息的藏文文本摘要提取的研究[J].网络安全技术与应用,2016(4):58-59. 被引量：2
3李博涵,刘汇丹,龙从军,吴健.基于深度学习的藏文分词方法[J].计算机工程与设计,2018,39(1):194-198. 被引量：16
4黄仁,张卫.基于word2vec的互联网商品评论情感倾向研究[J].计算机科学,2016,43(S1):387-389. 被引量：51

引证文献3

1安见才让,拉毛措,孙琦龙.互联网藏文信息舆情分析系统设计[J].微处理机,2017,38(2):56-58. 被引量：5
2扎西拉旦,安见才让.基于XML文档的藏文网页倒排索引的研究与实现[J].软件工程,2017,20(6):12-14. 被引量：1
3李维,闫晓东,解晓庆.基于改进TextRank的藏文抽取式摘要生成[J].中文信息学报,2020,34(9):36-43. 被引量：9

二级引证文献15

1高定国.藏文信息处理研究进展[J].广西科学院学报,2018,34(1):1-11. 被引量：6
2任文静.基于互联网的数字媒体内容舆情分析系统设计与实现[J].电子设计工程,2020,28(7):82-86. 被引量：1
3马爽.民族文字网络搜索引擎现状研究[J].内蒙古科技与经济,2020(22):153-154.
4苏慧婧,索朗拉姆,尼玛扎西,群诺.基于MLP和SepCNN神经网络模型的藏文文本分类研究[J].软件,2020,41(12):11-17. 被引量：3
5苏慧婧,群诺.藏文文本分类技术研究综述[J].电脑知识与技术,2021,17(4):190-192. 被引量：4
6李伯涵,李红莲.一种融合关键词的生成式摘要方法[J].计算机应用研究,2021,38(11):3289-3292. 被引量：2
7谷莹,李贺,祝琳琳.融合主题聚类和语义图模型的产品评论自动摘要方法研究[J].图书情报工作,2022,66(13):118-126. 被引量：5
8Xiaodong Yan,Yiqin Wang,Wei Song,Xiaobing Zhao,A.Run,Yang Yanxing.Unsupervised Graph-Based Tibetan Multi-Document Summarization[J].Computers, Materials & Continua,2022(10):1769-1781.
9皮洲,奚雪峰,崔志明,周国栋.一种面向长文本小数据集自动摘要任务的数据增强策略[J].中文信息学报,2022,36(9):46-56. 被引量：1
10刘永志,吴刚,才藏太.基于Vague相似性的文献推荐研究[J].贵州大学学报（自然科学版）,2023,40(1):70-74.

1耿增民,贾云得,刘万春,朱玉文.基于Web的文摘技术研究[J].中文信息学报,2006,20(6):54-60. 被引量：1
2阿热帕提·尕依提,维尼拉·木沙江.基于统计的维吾尔文网页自动摘要提取研究[J].电脑知识与技术,2011,7(1):185-186.
3孙卫红,菊秋芳.计算机网页制作入门[J].统计与经济,2000(2):43-44.
4IE窗口自动最大化[J].科技展望（幻想大王）,2006(20):19-19.
5谭瑛.基于文本排版格式的信息隐藏方法比较研究[J].计算机与现代化,2013(6):52-56. 被引量：8
6罗松林.Word 97中的字体兼容性[J].微电脑世界,1998(15):49-49.
7谭瑛.文本双重排版格式的信息隐藏模式研究[J].微型电脑应用,2013(9):15-17.
8大刘.快速改变图片的排版格式[J].电脑迷,2009(20):75-75.
9“超连接”时代的4大安全漏洞[J].网络安全和信息化,2016,0(9):5-5.
10张龙凯,王厚峰.文本摘要问题中的句子抽取方法研究[J].中文信息学报,2012,26(2):97-101. 被引量：10

微处理机

2010年第5期

浏览历史

内容加载中请稍等...

藏文搜索引擎系统中网页自动摘要的研究被引量：3

参考文献4

二级参考文献30

共引文献77

同被引文献4

引证文献3

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

藏文搜索引擎系统中网页自动摘要的研究 被引量：3

参考文献4

二级参考文献30

共引文献77

同被引文献4

引证文献3

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

藏文搜索引擎系统中网页自动摘要的研究被引量：3