期刊文献+
共找到25篇文章
< 1 2 >
每页显示 20 50 100
基于DOM修剪的藏文Web信息提取 被引量:7
1
作者 珠杰 欧珠 格桑多吉 《计算机工程》 CAS CSCD 北大核心 2008年第24期58-60,共3页
随着互联网的普及和藏文信息技术的不断发展,出现了大量的藏文网站。该文根据藏文"音节点"的特征识别藏文网页并进行抓取。在建立DOM树的基础上,分析网页的链接、非链接文本与主题信息块之间的相关度。通过语义修剪算法提取... 随着互联网的普及和藏文信息技术的不断发展,出现了大量的藏文网站。该文根据藏文"音节点"的特征识别藏文网页并进行抓取。在建立DOM树的基础上,分析网页的链接、非链接文本与主题信息块之间的相关度。通过语义修剪算法提取藏文主题信息。经测试证实,该算法在藏文网页识别和藏文主题信息提取中具有较好的适应性。 展开更多
关键词 音节点 DOM树 藏文 web信息提取
下载PDF
语义词库关联的藏文Web语义检索系统研究与实现 被引量:3
2
作者 高红梅 魏西峰 +1 位作者 王崧华 扎西 《西藏大学学报(社会科学版)》 CSSCI 2015年第5期90-95,共6页
文章依据所抓取的大量藏文网页URL,对相关的藏文信息网页进行除噪去重处理,得到较为完善的藏文信息库。对用户要查询的藏文信息进行预处理和藏文语义标注,通过基于本体的词汇相关性算法,扩展藏文的查询词汇,建立一对多的藏语词汇联系,... 文章依据所抓取的大量藏文网页URL,对相关的藏文信息网页进行除噪去重处理,得到较为完善的藏文信息库。对用户要查询的藏文信息进行预处理和藏文语义标注,通过基于本体的词汇相关性算法,扩展藏文的查询词汇,建立一对多的藏语词汇联系,从而实现藏文查询中的相关性检索,得到更加符合用户需求的语义关联网页信息。 展开更多
关键词 藏文网页 信息库 藏文语义相关 藏文语义扩展
下载PDF
基于Web页面的藏文在线输入技术 被引量:1
3
作者 于洪志 何向真 《计算机工程》 CAS CSCD 北大核心 2008年第18期260-262,265,共4页
Web页面藏文在线输入技术,能够在浏览器中脱离本机输入法而进行藏文输入,实现藏文网络在线文字交互,为网络系统提供了跨平台的藏文输入解决方案。阐述了基于Web页面藏文在线输入技术的工作原理及基本设计思想,介绍藏文在线输入法的组成... Web页面藏文在线输入技术,能够在浏览器中脱离本机输入法而进行藏文输入,实现藏文网络在线文字交互,为网络系统提供了跨平台的藏文输入解决方案。阐述了基于Web页面藏文在线输入技术的工作原理及基本设计思想,介绍藏文在线输入法的组成、内码外码设计原则和输入法流程,对藏文输入法进行系统分析,给出实现模型,论述浏览器内嵌藏文字体信息技术,达到在线、即时的藏文输入。采用内嵌法和外挂法,实现藏文在线输入技术与主流网页编辑器的整合。 展开更多
关键词 web页面 藏文 在线输入 字体嵌入
下载PDF
Web藏文文本资源挖掘与利用研究 被引量:6
4
作者 刘汇丹 诺明花 +2 位作者 马龙龙 吴健 贺也平 《中文信息学报》 CSCD 北大核心 2015年第1期170-177,共8页
该文结合链接分析技术和藏文编码识别技术,使用网络爬虫实现对互联网上藏文文本资源的挖掘,分析了Web藏文文本资源的分布情况。统计数据显示,国内藏文网站50%以上在青海省;约87%的藏文网页集中分布在31个大型网站中;人们正在逐步弃用旧... 该文结合链接分析技术和藏文编码识别技术,使用网络爬虫实现对互联网上藏文文本资源的挖掘,分析了Web藏文文本资源的分布情况。统计数据显示,国内藏文网站50%以上在青海省;约87%的藏文网页集中分布在31个大型网站中;人们正在逐步弃用旧有藏文编码,使用Unicode编码来制作网页。利用HTML标记、栏目归属、标点符号等自然标注信息对这些文本进行抽取,可以构建篇章语料和文本分类语料,可以抽取互联网藏文词库,进行词频统计和训练藏文语言模型,结合双语词典和搜索引擎技术抽取双语平行语料。这些语料可用于藏文分词、命名实体识别、信息检索、统计机器翻译等研究领域。 展开更多
关键词 web 语料 文本挖掘 信息抽取 藏文信息处理 中文信息处理
下载PDF
基于潜在语义分析的藏文Web不良信息检索算法研究 被引量:2
5
作者 普措才仁 《西北民族大学学报(自然科学版)》 2014年第4期14-18,33,共6页
根据不良信息的特点对潜在语义分析(Latent Semantic Analysis LSA)进行了简化,并设计了基于简化的潜在语义分析(Latent Semantic Analysis Of a Simplified LSAS)的藏文Web不良信息检索算法.该检索算法能够对具有关于某个主题的特定倾... 根据不良信息的特点对潜在语义分析(Latent Semantic Analysis LSA)进行了简化,并设计了基于简化的潜在语义分析(Latent Semantic Analysis Of a Simplified LSAS)的藏文Web不良信息检索算法.该检索算法能够对具有关于某个主题的特定倾向的文本进行过滤.该系统充分利用了领域知识,采用了潜在语义模式分析等技术.实验表明该系统具有查全率和查准率高,速度较快的特点. 展开更多
关键词 藏文web 不良信息 潜在语义分析
下载PDF
藏文Web网络环境下的搜索策略研究
6
作者 陈新一 夏建华 +2 位作者 杜玉祥 万福成 于洪志 《中文信息学报》 CSCD 北大核心 2015年第1期183-190,共8页
该文分析了藏文Web网络的度分布和最大度优先搜索算法存在的问题,提出了搜索效率更高的二分度搜索算法和双遍历器的二分度与最大度同步搜索算法。根据社区划分原理,设计和构建了藏文Web社区环境下的搜索算法,实验结果表明,其平均搜索步... 该文分析了藏文Web网络的度分布和最大度优先搜索算法存在的问题,提出了搜索效率更高的二分度搜索算法和双遍历器的二分度与最大度同步搜索算法。根据社区划分原理,设计和构建了藏文Web社区环境下的搜索算法,实验结果表明,其平均搜索步数和平均查询信息量都优于实验中其他搜索算法。 展开更多
关键词 藏文web网络 度分布 最大度链路 双遍历器 社区划分
下载PDF
藏文WEB文档分类算法
7
作者 刘昕 安见才让 《微型电脑应用》 2016年第8期1-2,共2页
针对藏文WEB文档分类中KNN算法计算复杂度高的缺点,不同于以往从减少训练样本集大小和采用快速算法角度来降低KNN算法的计算复杂度,从并行的角度出发,提出了一种基于Java Bean模式的并行算法,其关键部分的时间计算复杂度从O(n2)降为O(lo... 针对藏文WEB文档分类中KNN算法计算复杂度高的缺点,不同于以往从减少训练样本集大小和采用快速算法角度来降低KNN算法的计算复杂度,从并行的角度出发,提出了一种基于Java Bean模式的并行算法,其关键部分的时间计算复杂度从O(n2)降为O(log(n)),该算法与经典的串行算法相比,能显著地提高分类速度。 展开更多
关键词 文档分类 K近邻 并行策略 藏文web文档
下载PDF
基于Web的藏药材信息管理系统开发
8
作者 裴应征 《计算机与现代化》 2009年第4期109-111,共3页
介绍了基于Web技术构建藏药材管理系统基本体系结构的相关技术,采用ASP、JavaScript、VBscript开发基于Web的藏药信息检索管理系统,嵌入式藏文字体和藏文字体显示技术解决了藏文在Web上的传输和显示。
关键词 web 藏医药 信息系统
下载PDF
Web服务器端藏文字符串长度的近似算法
9
作者 杨成甫 贾彦民 吴健 《计算机工程与设计》 CSCD 北大核心 2007年第5期1173-1175,共3页
藏文属于拼音文字,她的书写规则与英语书写规则一样是从左向右,从上到下,但每个单词之间没有空格,只用音节符把每个单词给分隔开。根据藏文文法,藏文的换行只能发生在音节符、单垂符,双垂符与空格的后面。目前主流浏览器(如Firefox,Nets... 藏文属于拼音文字,她的书写规则与英语书写规则一样是从左向右,从上到下,但每个单词之间没有空格,只用音节符把每个单词给分隔开。根据藏文文法,藏文的换行只能发生在音节符、单垂符,双垂符与空格的后面。目前主流浏览器(如Firefox,Netscape等)都不能处理藏文的这一断行特性,所以这些浏览器无法正常显示藏文文本,如Firefox将整个一段没有空格文本当作一个单词,造成在屏幕的右边无法换行。结果是用户必须拖动鼠标来浏览整篇文章,给用户带来了很大的麻烦。又由于藏文中大部分的拼音字母的宽度是不同的,在编写HTML文档时候也无法根据藏文字符串的多少来决定字符串的长度。该算法将采用了一个粗略的方法得到一个字符串长度的近似值,再根据行宽的限制在字符串的适当的位置找到一个可断行点进行断行。虽然得到的是近似值,但是基本上解决了主流浏览器无法处理藏文排版的问题。 展开更多
关键词 音素符 藏文 排版 网页设计 浏览器 web服务器
下载PDF
基于爬虫和WPF技术的藏文命名实体数据集半自动构建器设计
10
作者 李甜华 央啦 +1 位作者 杨文艺 春燕 《现代计算机》 2023年第21期93-97,共5页
近年来自然语言处理发展较为迅速,自然语言的处理离不开大量的、高质量的数据集。藏文语言处理是自然语言处理的一个重要应用。但公开的藏文数据集获取难度高,为提高自建藏文命名实体数据集,对藏文命名实体数据集半自动构建器进行了研究... 近年来自然语言处理发展较为迅速,自然语言的处理离不开大量的、高质量的数据集。藏文语言处理是自然语言处理的一个重要应用。但公开的藏文数据集获取难度高,为提高自建藏文命名实体数据集,对藏文命名实体数据集半自动构建器进行了研究,包含爬虫部分和拆分部分,并提出了一种基于滑动窗口的命名实体匹配算法。其中,爬虫部分通过应用十分成熟稳定的八爪鱼采集器创建任务实现。拆分部分使用WPF技术设计操作界面,采用C#编程语言实现拆分算法。 展开更多
关键词 爬虫 藏文 命名实体 八爪鱼采集器
下载PDF
藏文动态交互网站技术实现的研究 被引量:1
11
作者 沈晔华 李永忠 刘真真 《计算机工程与应用》 CSCD 北大核心 2006年第33期167-169,180,共4页
随着科学技术水平的不断提高,语言文字信息处理工作已经进入人们的日常生活,并且以日新月异的速度在发展。世界上所有文化发达的民族都在不同程度地进行着本民族的语言信息处理工作。藏文字是藏族同胞使用的语言文字,也是在国际上有影... 随着科学技术水平的不断提高,语言文字信息处理工作已经进入人们的日常生活,并且以日新月异的速度在发展。世界上所有文化发达的民族都在不同程度地进行着本民族的语言信息处理工作。藏文字是藏族同胞使用的语言文字,也是在国际上有影响的语言文字之一。针对目前藏文网站特别是动态交互网站稀少的现状,介绍了几种目前在网站上显示藏文的技术及其优缺点,在利用这些技术的基础上提出了一个新的解决方案。 展开更多
关键词 藏文信息 藏文网站 动态交互网站
下载PDF
结合语义知识的藏文网页主题句抽取算法研究 被引量:1
12
作者 艾金勇 《图书馆理论与实践》 CSSCI 北大核心 2017年第8期39-44,共6页
通过分析总结藏文网页的结构特征,在借鉴汉语主题句抽取方法的基础上,提出了结合语义信息的藏文网页主题句抽取算法。该方法根据藏文文本特征实现了网页内容的智能识别,同时,在对识别的文本块进行自动分词后,利用改进TF-IDF方法结合主... 通过分析总结藏文网页的结构特征,在借鉴汉语主题句抽取方法的基础上,提出了结合语义信息的藏文网页主题句抽取算法。该方法根据藏文文本特征实现了网页内容的智能识别,同时,在对识别的文本块进行自动分词后,利用改进TF-IDF方法结合主题词的语义相关性确定了网页文本的主题词,并据此构建了候选主题句集,再通过候选主题句的重要度和分布度计算得到了候选主题句的权值。最后对所有候选主题句按权值大小排序并确定了文本的主题句。 展开更多
关键词 藏文网页 语义信息 主题句 抽取
下载PDF
基于Unicode的藏文网页搜索探讨 被引量:3
13
作者 张云洋 刘芳 《科技情报开发与经济》 2014年第11期143-144,共2页
藏文网页搜索是藏文计算机技术和藏文网站发展的必然要求,藏文字的特殊结构和藏文编码的多样性给网页的统一检索造成一定的困难,使用基于Unicode的藏文编码来识别和存储藏文有利于网页搜索的实施。
关键词 藏文网页 网页搜索 字符编码 UNICODE
下载PDF
藏族、蒙古族医学文献计量分析 被引量:1
14
作者 肖志彬 《医学信息学杂志》 CAS 2013年第1期58-60,共3页
以Web of Science为数据源,对1992-2011年藏蒙医学科技论文进行检索,并从学科、地域、机构、引文等方面进行分析,了解20年间藏蒙医学发展和研究情况,为更好地促进少数民族医学发展提供借鉴。
关键词 藏医 蒙医 文献计量 web of SCIENCE
下载PDF
青藏高原影响亚洲夏季气候研究的最新进展 被引量:124
15
作者 吴国雄 毛江玉 +1 位作者 段安民 张琼 《气象学报》 CAS CSCD 北大核心 2004年第5期528-540,共13页
文中回顾了近 10a来吴国雄等在青藏高原影响亚洲夏季气候研究方面的最新进展。通过分析东西风交界面的演变证明 ,由于青藏高原的春季加热 ,亚洲季风区对流层低层冬季盛行偏东风转变为夏季偏西南风最早发生在孟加拉湾东部 ,与其相伴随的... 文中回顾了近 10a来吴国雄等在青藏高原影响亚洲夏季气候研究方面的最新进展。通过分析东西风交界面的演变证明 ,由于青藏高原的春季加热 ,亚洲季风区对流层低层冬季盛行偏东风转变为夏季偏西南风最早发生在孟加拉湾东部 ,与其相伴随的激烈对流降水出现在其东面。因此孟加拉湾东部至中印半岛西部是亚洲季风最早爆发的地区。同时也指出盛夏伊朗高原和青藏高原加热所激发的同相环流嵌套在欧亚大陆尺度的热力环流中 ,从而加强了东亚的夏季风 ,加剧了中西亚的干旱 ;并通过其所激发的波动对夏季东亚的气候格局产生重要影响。文中还比较了夏季南亚高压的伊朗模态和青藏模态性质的异同及其对亚洲夏季降水异常分布的不同影响。 展开更多
关键词 青藏高原 亚洲季风 南亚高压 气候研究 孟加拉湾 最新进展 夏季降水 春季 冬季 东部
下载PDF
藏汉双语网络教育在构建甘南和谐社会中的功能担当 被引量:1
16
作者 马国俊 《自动化与仪器仪表》 2010年第5期139-141,共3页
通过对甘南州中小学双语教育普及状况、底层干部、农牧民日常用语实况的调查,分析和研究藏汉双语网络教育在构建甘南和谐社会中的功能,有着十分重要的现实意义。
关键词 甘南藏区 藏汉双语网络教育 和谐社会
下载PDF
基于文献计量分析的披碱草属植物研究进展 被引量:8
17
作者 李进 陈仕勇 +2 位作者 李世丹 陈有军 周青平 《草业科学》 CAS CSCD 北大核心 2021年第9期1793-1804,共12页
为了解国内外披碱草属(Elymus)植物研究状况与前沿动态,客观反映不同国家、研究机构、作者以及期刊在该研究领域的影响力,利用软件VOSviewer和CiteSpace对CNKI和Web of Science(WOS)数据库中1980–2020年有关披碱草属植物研究相关文献... 为了解国内外披碱草属(Elymus)植物研究状况与前沿动态,客观反映不同国家、研究机构、作者以及期刊在该研究领域的影响力,利用软件VOSviewer和CiteSpace对CNKI和Web of Science(WOS)数据库中1980–2020年有关披碱草属植物研究相关文献进行统计与分析。结果表明:披碱草属植物的发文量增长呈初期缓慢、中期迅速、后期平稳的趋势;我国在国际合作中贡献最大,且发文量占WOS数据库中56.6%,表明我国在披碱草属植物领域的研究具有较高的影响力。WOS数据库中发文量和总被引次数最高的机构均为兰州大学,平均被引次数最高的机构为美国农业部。国内机构的发文量、总被引次数、平均被引次数最高的依次为内蒙古农业大学、兰州大学和中国科学院。 展开更多
关键词 披碱草属 文献计量 VOSviewer CITESPACE CNKI web of Science 青藏高原
下载PDF
藏文网页搜索关键技术研究
18
作者 张云洋 《计算机时代》 2017年第6期22-25,共4页
通过分析藏文网站中藏文字符的编码特点,结合搜索引擎的特点对藏文网页搜索的关键技术进行了研究。对藏文网页的URL处理技术、限定爬虫、藏文网页倒排索引的建立、网页的检索和结果排序等进行了详细地阐述,提出了较完整的藏文网页搜索方... 通过分析藏文网站中藏文字符的编码特点,结合搜索引擎的特点对藏文网页搜索的关键技术进行了研究。对藏文网页的URL处理技术、限定爬虫、藏文网页倒排索引的建立、网页的检索和结果排序等进行了详细地阐述,提出了较完整的藏文网页搜索方法,对于藏文网页信息的搜索和利用有一定的实用价值。 展开更多
关键词 藏文编码 搜索引擎 倒排索引 网页爬虫
下载PDF
基于文本密度的藏文网页正文提取方法 被引量:3
19
作者 洛松求培 安见才让 《计算机时代》 2017年第8期46-47,51,共3页
互联网的发展带动了另一种形式的信息传播,人们越来越多地依赖于电子产品,Web网页也随之变为了最大的信息源,利用好这些资源便涉及信息提取。为了从Web网页中获取关键藏文信息,文章提出了基于文本密度的藏文网页正文提取方法,利用半结... 互联网的发展带动了另一种形式的信息传播,人们越来越多地依赖于电子产品,Web网页也随之变为了最大的信息源,利用好这些资源便涉及信息提取。为了从Web网页中获取关键藏文信息,文章提出了基于文本密度的藏文网页正文提取方法,利用半结构化的HTML网页中正文内容的连续性特点,结合正则表达式过滤HTML标签。此方法针对主题型网页,类似新闻类网页中的正文提取具有较高的准确率。 展开更多
关键词 藏文信息 藏文网页正文提取 HTML web网页
下载PDF
信息检索系统中藏文自动提示的研究与实现
20
作者 武强 边巴旺堆 《电脑知识与技术》 2014年第7期4378-4380,共3页
在当今信息社会,信息检索已经成为人们日常工作的一部分。藏文作为一种古老的文字,也融入了当今的信息时代,越来越多的网页、电子邮件等电子文档以藏文形式出现。该文主要探讨了藏文的构成、编码、分词及藏文相关提示词的实现原理及方法... 在当今信息社会,信息检索已经成为人们日常工作的一部分。藏文作为一种古老的文字,也融入了当今的信息时代,越来越多的网页、电子邮件等电子文档以藏文形式出现。该文主要探讨了藏文的构成、编码、分词及藏文相关提示词的实现原理及方法,对具有重要影响的藏文分词和排序进行了深入的分析,实现了在信息检索系统中基于权重的藏文自动提示功能。通过测试分析,该功能能较好地分辨藏文和依据权重对藏文进行相关词提示。 展开更多
关键词 藏文 分词 信息检索 相关词提示 编码 网页
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部