-
题名彝文网页文本分词平台
被引量:2
- 1
-
-
作者
孙善通
王嘉梅
李炳泽
胡刚
-
机构
云南民族大学电气信息工程学院
-
出处
《计算机系统应用》
2016年第11期243-246,共4页
-
基金
国家自然科学基金(61363085)
-
文摘
在机器翻译、自动分类、搜索引擎等技术中,彝文分词具有很重要的作用,同时也是彝文信息处理至关重要的环节.本文以当前的彝文分词技术为基础,通过构建彝文词库,并用彝文网页获取平台抓取彝文网页文本,结合彝文特有的优势,从分词词库、分词算法、结构流程、系统界面和模块、实验结果等方面进行了详细的分析,最终实现彝文网页文本分词平台.最后的结果表明,本平台分词准确率较高,实用性和通用性也较好.
-
关键词
彝文网页
词典分词
词库
彝文分词
分词平台
-
Keywords
Yi web pages
segmentation dictionary
thesaurus
Yi word segmentation
word segmentation platform
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名彝文网页信息采集技术研究
被引量:3
- 2
-
-
作者
张建营
王嘉梅
汤雪
胡刚
-
机构
云南民族大学电气信息工程学院
-
出处
《网络安全技术与应用》
2014年第12期6-8,共3页
-
基金
"云南跨境民族网络舆情信息挖掘关键技术研究"(2013年国家自然科学基金
61363085)
+9 种基金
"云南跨境民族语言网络敏感信息传播与分析-以彝文为例"(2013年云南省教育厅科学研究基金重大专项项目
ZD2013013)
"云南省高校少数民族语言文字信息化处理工程研究中心"三年提升计划"项目"(2014年云南民族大学高水平民族大学建设科研项目)
"云环境下基于东盟移动网络智能舆情预测与控制研究"(2014年云南省东南亚南亚西亚研究中心招标课题一般项目
DY2014YB01)
"少数民族社交网络虚假信息识别技术研究-以泰文为例"(2014年云南民族大学研究生创新基金科研重点项目)
2013年国家语委重大科研项目"少数民族语言文化信息元表示及抽取方法研究"等基金项目支持
"云南省高校少数民族语言文字信息化处理工程研究中心"(云南省教育厅
云教科[2007]13号)
云南民族大学省级科研创新团队等机构支持
-
文摘
本文通过对中文网页采集流程、网络爬虫工作基本原理的分析,再结合彝文网页的特点,对彝文网页信息的采集技术进行了研究,通过聚焦网络爬虫来实现彝文网页信息的采集,并依此来建立一个内容全面的彝文网页信息资源库。
-
关键词
彝文网页
网络爬虫
信息采集
-
Keywords
yi language web page
Web crawler
Information collection
-
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
-
-
题名彝文网络信息获取平台的研究
被引量:1
- 3
-
-
作者
孙善通
王嘉梅
李炳泽
弓盼
胡刚
-
机构
云南民族大学
-
出处
《电子技术与软件工程》
2015年第13期44-46,168,共4页
-
基金
国家自然科学基金(61363085)
云南省教育厅科学研究基金重大专项项目(ZD2013013)
-
文摘
随着互联网技术的发展和广泛应用,彝文网页数量不断增多,获取彝文信息的范围也越来越大,但查询所需信息的难度也相对增加。文章通过对传统中文网络信息获取平台技术的研究分析,结合彝文网页自身的结构特点,研究了彝文网页信息采集技术和彝文网页信息抽取技术,实现了彝文网络信息获取平台。最后对该平台进行测试,达到了预期结果。
-
关键词
彝文网页
网络爬虫
信息采集
信息抽取
-
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
TP391.1
[自动化与计算机技术—计算机应用技术]
-