-
题名基于语料库的古藏文文献字符统计研究
- 1
-
-
作者
三智多杰
祁坤钰
久仙加
-
机构
西北民族大学中国民族信息技术研究院
西北民族大学中国语言文学学部
-
出处
《西北民族大学学报(自然科学版)》
2023年第1期54-62,共9页
-
基金
国家自然科学基金项目“敦煌古藏文文献中唐代汉藏文化交流研究”(Z21100)
中央高校基本科研业务费专项资金“藏语句法树库构建及句法分析模型研究”(31920190113)
甘肃省优秀研究生“创新之星”项目“大数据背景下敦煌藏文文献语料库字频统计研究”(2022CXZX-186)。
-
文摘
古藏文字符统计研究能够对机器翻译以及从海量文本中快速定位核心内容、情报收集工作等有着重要意义.目前,藏文字符统计研究主要依据现代藏文语料库.文章以敦煌藏文文献为主,构建了古藏文文献标注语料库.在此基础上,应用python语言设计出古藏文频率统计软件,对古藏文和现代藏文的元音、辅音、藏文数字频次等进行对比分析,归纳出古藏文字符的分布特征,以期为古藏文标注语料库的构建和研究提供参考.
-
关键词
敦煌古藏文文献
古藏文语料库
字符统计
-
Keywords
Dunhuang Ancient Tibetan literature
Corpus of ancient Tibetan
Statistical characters
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于敦煌古藏文语料库的字词属性统计研究
- 2
-
-
作者
三智多杰
祁坤钰
久仙加
-
机构
西北民族大学中国民族信息技术研究院
西北民族大学中国寓言文学部
-
出处
《情报工程》
2023年第2期117-127,共11页
-
基金
国家自然科学基金项目敦煌古藏文文献中唐代汉藏文化交流研究(Z21100)
中央高校基本科研业务费专项资金藏语句法树库构建及句法分析模型研究(31920190113)
甘肃省优秀研究生“创新之星”项目大数据背景下敦煌藏文文献语料库字频统计研究(2022CXZX-186)。
-
文摘
[目的/意义]古藏文字符统计研究能够对机器翻译,以及从海量文本中快速定位核心内容,对情报收集工作有着重要意义。目前,藏文字符统计研究主要依据现代藏文语料库,忽视了古藏文语料库的字符统计研究。[方法/过程]本文以敦煌藏文文献为主,构建了古藏文文献标注语料库。在此基础上,应用python语言设计出古藏文频率统计软件,对古藏文和现代藏文的元音、辅音、藏文音节频次等方面进行对比分析。[结果/结论]归纳出古藏文字符的分布特征,以期为古藏文标注语料库构建和藏文文字特征研究提供参考。
-
关键词
敦煌古藏文文献
古藏文语料库
字符统计
-
Keywords
Dunhuang Ancient Tibetan literature
Corpus of ancient Tibetan
Statistical characters
comparison between ancient and modern Tibetan
-
分类号
G35
[文化科学—情报学]
-
-
题名使用VBA统计Excel中字符个数
被引量:1
- 3
-
-
作者
张焱
张金宝
-
机构
交通运输部管理干部学院
-
出处
《电脑与信息技术》
2011年第4期72-75,共4页
-
文摘
通过菜单操作,统计Excel文中字数非常麻烦,而借助Excel VBA可方便快捷的统计单个Excel文件的字符个数、多个Excel文件的字符个数。将所有需统计的Excel文件放到一个文件夹下,使用文中提供的程序即可完成字数统计,并能将含有文件名及对应字符个数的统计结果存放到Excel文件中。
-
关键词
EXCEL
Excel
VBA
统计字符个数
-
Keywords
Excel
Excel VBA
words count
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名“替换”功能巧应用
- 4
-
-
作者
郭倩
-
出处
《广东电脑与电讯》
2003年第09M期59-60,共2页
-
文摘
不论你是学文还是学理的,在与计算机交往的过程中,都免不了要进行文字处理,而在此工作中,“替换”这一功能,用得相当广泛,可是,如何处理好“替换”这一功能,将自己的办事效率快速提高,那就需要有一些技巧了。
-
关键词
文字录入
WORD2000
“替换”功能
字符串统计
通配符
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于自动标引的自然语言检索方法研究
被引量:1
- 5
-
-
作者
王丹
杨晓蓉
马健
-
机构
中国农业科学院农业信息研究所
农业部农业信息服务技术重点实验室
-
出处
《图书馆杂志》
CSSCI
北大核心
2016年第6期66-72,共7页
-
文摘
自从自然语言进入计算机检索系统以来,就因其不受不同职业、不同知识背景、不同检索经验的影响等特点受到终端用户的青睐。由于中文文献的标题是中文文献内容的集中体现,它反映了文献的中心思想。本文介绍的自然语言检索方法,限定在文献标题层面进行主题标引。该方法的基本思想是用自动标引方法分别对检索系统中数据库的文献标题和用于检索的自然语言进行自动赋词标引,对给定的关键词进行概念控制,即词义转换,形成最终标引词;然后,用向量空间模型对数据库的索引数据进行"或"运算检索,形成命中文献集合B,对B集合中的每篇文献标题再进行自动标引,形成的标引词与用于检索的自然语言标引词进行相似度计算,根据B集合中的每篇文献的相似度进行排序,把最符合检索要求的文献最先呈现给用户。此方法是一种简便、实用的自然语言检索方法。
-
关键词
转换、自动赋予标引词的主题词、同义词、近义词、相关词和网罗词
有基于字符串匹配的分词方法
基于理解的分词方法和基于统计的分词方法.基于字符串匹配的分词方法是按照一定的策略将待分析的汉字串与词典中的词条进行匹配
匹配成功则给出一个标引词.按照扫描方向的不同
可分为正向匹配和逆向匹配
按照不同长度优先匹配的不
自动标引
自然语言检索
方法
-
Keywords
Automatic indexing
Natural language retrieval
Methods
-
分类号
G354
[文化科学—情报学]
-