期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于Web语料挖掘技术及其系统设计 被引量:5
1
作者 张霄军 张凌岚 刘军 《上海电力学院学报》 CAS 2004年第2期39-43,共5页
提出了将XML技术与Web挖掘相结合、根据研究者的个人需求制定个性化的Web语料挖掘系统框架和实现方案,并给出了面向法律领域的Web语料挖掘系统LawsMiner的案例.
关键词 语料挖掘 WEB 语料 互联网 信息挖掘 信息处理
下载PDF
基于Ontology的Web语料的挖掘 被引量:3
2
作者 王晓东 王靖 《河南师范大学学报(自然科学版)》 CAS CSCD 北大核心 2006年第4期43-45,共3页
针对传统英语语料库的缺陷,提出了对英语语料建立本体的新型语料库,并对基于Ontology在Web上挖掘英语语料做出了详细的阐述.对在Web上进行语料挖掘的几个关键技术作了不同程度的说明,并对此语料挖掘系统做出了评价.
关键词 ONTOLOGY 语料 语料挖掘
下载PDF
面向语料的领域主题词表构建算法 被引量:5
3
作者 安亚巍 操晓春 罗顺 《计算机科学》 CSCD 北大核心 2018年第B06期396-397,410,共3页
针对大规模领域主题词表提取的问题,提出根据给定语料中词共现特征构建词共现特征矩阵的方法。在此基础上进行词簇划分,进而计算出每个词簇的中心词,并以中心词为核心重新组织每个词簇,最终实现面向语料的主题词表的自动构建。实验结果... 针对大规模领域主题词表提取的问题,提出根据给定语料中词共现特征构建词共现特征矩阵的方法。在此基础上进行词簇划分,进而计算出每个词簇的中心词,并以中心词为核心重新组织每个词簇,最终实现面向语料的主题词表的自动构建。实验结果表明,该算法具有较高的准确率和召回率。 展开更多
关键词 词共现特征 词簇划分 语料挖掘
下载PDF
基于会话语料库的日语性别角色语言自动提取方法论 被引量:2
4
作者 孙昊 《东北亚外语研究》 2018年第1期48-54,共7页
本文对基于语料库挖掘的日语性别角色语言提取方法加以概述。该方法首先从日语口语语料库中抽取异性会话的文本,其次统计在异性的会话参与者中各种词汇的使用频度,最后引入特征选择方法之一的fisher精确检验的思想来抽取异性的会话中使... 本文对基于语料库挖掘的日语性别角色语言提取方法加以概述。该方法首先从日语口语语料库中抽取异性会话的文本,其次统计在异性的会话参与者中各种词汇的使用频度,最后引入特征选择方法之一的fisher精确检验的思想来抽取异性的会话中使用差异性较大的词汇。本研究将这种方法应用于日语自然会话语料库来提取性别角色语言。本研究的结果表明,除了已经被广泛接受的人称代词和终助词以外,日语中的「うん/(嗯)」「ええ/(嗯)」「ああ/(啊)」「ねー/ねえ/(表示确认)」「なあ/(啊)」「さ/(吧)」「よー/(哟)」「どー/(怎样)」「という/(表示说话,思考的内容)」等词汇可以被视为日语的性别角色语言。 展开更多
关键词 角色语言 语料挖掘 卡方检验 fisher精确检验1
下载PDF
基于WEB的警务多语言语料库的构建
5
作者 季铎 刘皓 《中国刑警学院学报》 2017年第5期118-120,共3页
针对多语种警务语料库在构建过程中遇到的资源分散和人工整理难的突出问题,提出了一种基于Web数据获取的多语种警务语料库的构建方法,该方法采用了频繁序列模式和文本分析技术实现了对网页中多语种语料库的自动抽取。经实验证明,该方法... 针对多语种警务语料库在构建过程中遇到的资源分散和人工整理难的突出问题,提出了一种基于Web数据获取的多语种警务语料库的构建方法,该方法采用了频繁序列模式和文本分析技术实现了对网页中多语种语料库的自动抽取。经实验证明,该方法可进行多语言数据的自动采集,在少量人工参与的前提下,实现了多语言数据的大规模采集和处理。 展开更多
关键词 WEB信息 挖掘语料 构建 警务语料
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部