期刊文献+
共找到38篇文章
< 1 2 >
每页显示 20 50 100
一种结合Bigram语义扩充的事件摘要方法 被引量:4
1
作者 吴佳伟 曹斌 +1 位作者 范菁 黄骅 《小型微型计算机系统》 CSCD 北大核心 2019年第7期1380-1385,共6页
在事件检测过程中,事件摘要是十分重要的一个步骤.一个可读性较强的事件摘要能帮助人更快的理解事件,而一个可读性较差的事件摘要则会误导人的理解.传统的文本摘要主要倾向于找到一条最具代表性的句子,但我们认为在某些时候,用户只需要... 在事件检测过程中,事件摘要是十分重要的一个步骤.一个可读性较强的事件摘要能帮助人更快的理解事件,而一个可读性较差的事件摘要则会误导人的理解.传统的文本摘要主要倾向于找到一条最具代表性的句子,但我们认为在某些时候,用户只需要通过阅读几个关键词的组合就能明白事件的主要内容.因此,在本文中我们提出了一种基于Bigram关键词语义扩充的事件摘要方法,因为IDF在短文本中表现较好,所以首先根据IDF值从事件短文本集合中提取若干个关键词,然后根据事件短文本集合对关键词之间的顺序进行整理,最后引入了Bigram语言模型对提取出来的关键词进行语义扩展.利用实际生活中的短文本集合进行实验,结果表明我们的方法在召回率与用户可读性上优于现有的关键词摘要方法. 展开更多
关键词 事件摘要 bigram语义扩展 关键词提取 短文本
下载PDF
基于Bigram的安全隐患文本分类研究 被引量:10
2
作者 陈孝慈 谭章禄 +1 位作者 单斐 高青 《中国安全科学学报》 CAS CSCD 北大核心 2017年第8期156-161,共6页
鉴于传统文本分类研究缺少针对性,在安全隐患文本分类实际应用中表现不佳,以及企业安全隐患文本文本长度短、特征单元选取困难,为高效地从大量安全隐患文本数据中提取、分析有效信息,更好地掌握安全隐患的发生和变化过程,提出利用Bigra... 鉴于传统文本分类研究缺少针对性,在安全隐患文本分类实际应用中表现不佳,以及企业安全隐患文本文本长度短、特征单元选取困难,为高效地从大量安全隐患文本数据中提取、分析有效信息,更好地掌握安全隐患的发生和变化过程,提出利用Bigram二字串作为特征单元,结合支持向量机(SVM)数据挖掘算法的安全隐患文本分类方法。以潞安集团司马煤业有限公司2009—2015年安全隐患记录为数据源,通过试验,验证该方法的分类效果。结果表明:新的安全隐患分类方法具有较高的准确率、召回率及F-值,与传统方法相比,显著提升了分类的准确度。 展开更多
关键词 安全隐患 bigram二字串 特征单元 支持向量机(SVM) 文本分类
下载PDF
基于Bigram的特征词抽取及自动分类方法研究 被引量:5
3
作者 王笑旻 《计算机工程与应用》 CSCD 北大核心 2005年第22期177-179,210,共4页
用计算机信息处理技术实现文本自动分类是计算机自然语言理解学科共同关注的课题。该文提出了一种基于Bigram的无词典的中文文本特征词的抽取方法,并利用互信息概念对得到的特征词进行处理,提高了特征词抽取的准确性。此外,通过采用基... 用计算机信息处理技术实现文本自动分类是计算机自然语言理解学科共同关注的课题。该文提出了一种基于Bigram的无词典的中文文本特征词的抽取方法,并利用互信息概念对得到的特征词进行处理,提高了特征词抽取的准确性。此外,通过采用基于统计学习原理和结构风险最小原则的支持向量机算法对一些文本进行了分类,验证了由所提出的算法得到的特征词的有效性和可行性。 展开更多
关键词 自动文本分类 自动分词 互信息 bigram
下载PDF
结合主题依存特征和Bigram的汉语语言建模方法
4
作者 崔玉红 胡光锐 《上海交通大学学报》 EI CAS CSCD 北大核心 2002年第6期897-900,共4页
在 Bigram语言模型建模过程中 ,语言被看作符号集序列 ,没有考虑语言本身具有的语法和语义结构特征 .虽然在线的文本训练数据迅速增长 ,但语言模型的性能却很难再获得大幅度的提高 .基于统计方法语言建模的基本原理 ,提出了一种结合 Big... 在 Bigram语言模型建模过程中 ,语言被看作符号集序列 ,没有考虑语言本身具有的语法和语义结构特征 .虽然在线的文本训练数据迅速增长 ,但语言模型的性能却很难再获得大幅度的提高 .基于统计方法语言建模的基本原理 ,提出了一种结合 Bigram和主题依存特征的中文语言建模方法 .初步实验结果表明 ,该方法可有效地补充 Bigram模型提取特征的不足 。 展开更多
关键词 主题依存特征 汉语语言建模方法 统计语言模型 bigram模型 主题依存模型 分支度 自然语语处理
下载PDF
维吾尔文Bigram文本特征提取 被引量:3
5
作者 阿力木江.艾沙 库尔班.吾布力 吐尔根.依布拉音 《计算机工程与应用》 CSCD 北大核心 2015年第3期216-221,228,共7页
文本特征表示是在文本自动分类中最重要的一个环节。在基于向量空间模型(VSM)的文本表示中特征单元粒度的选择直接影响到文本分类的效果。在维吾尔文文本分类中,对于单词特征不能更好地表征文本内容特征的问题,在分析了维吾尔文Bigram... 文本特征表示是在文本自动分类中最重要的一个环节。在基于向量空间模型(VSM)的文本表示中特征单元粒度的选择直接影响到文本分类的效果。在维吾尔文文本分类中,对于单词特征不能更好地表征文本内容特征的问题,在分析了维吾尔文Bigram对文本分类作用的基础上,构造了一个新的统计量CHIMI,并在此基础上提出了一种维吾尔语Bigram特征提取算法。将抽取到的Bigram作为文本特征,采用支持向量机(SVM)算法对维吾尔文文本进行了分类实验。实验结果表明,与以词为特征的文本分类相比,Bigram作为文本特征能够提高维吾尔文文本分类的准确率和召回率并且通过实验验证了该算法的有效性。 展开更多
关键词 bigram文本特征 χ2统计量 互信息 维吾尔语
下载PDF
一种基于Bigram二级哈希的中文索引结构 被引量:2
6
作者 孙德才 王晓霞 《电子设计工程》 2014年第12期1-4,共4页
为通过构建高速的中文索引结构来提高Off-line模式的串匹配速度,提出了一种基于Bigram二级哈希的中文索引结构。该索引采用中文GB2312编码处理中文汉字,以中文Bigram项作为词汇项,并实现了基于二级哈希的词汇表存储结构。实验数据显示,... 为通过构建高速的中文索引结构来提高Off-line模式的串匹配速度,提出了一种基于Bigram二级哈希的中文索引结构。该索引采用中文GB2312编码处理中文汉字,以中文Bigram项作为词汇项,并实现了基于二级哈希的词汇表存储结构。实验数据显示,本文索引结构虽然占用存储空间为词索引的2倍多,但其匹配速度是词索引的4倍多。结果表明本文索引在中文匹配中具有速度优势。 展开更多
关键词 串匹配 中文 倒排索引
下载PDF
一种基于Bigram的计算机对联系统的研究和设计
7
作者 孙瑞漪 《大众科技》 2009年第4期50-51,57,共3页
计算语言学科虽然诞生的时间不长,但是近年来发展势头迅猛,已经渗入了如搜索引擎、数字图书馆等许多应用领域。以统计理论为基础建立起来的n-gram模型已经成为近年自然语言处理的发展方向。文章提出了一种基于Bigram的计算机对联系统,... 计算语言学科虽然诞生的时间不长,但是近年来发展势头迅猛,已经渗入了如搜索引擎、数字图书馆等许多应用领域。以统计理论为基础建立起来的n-gram模型已经成为近年自然语言处理的发展方向。文章提出了一种基于Bigram的计算机对联系统,对古汉语对联实现了较好的效果。其中使用的对联算法采用类似于维特比算法而且综合运用了字和词的对偶信息,具备广泛的适用性。 展开更多
关键词 bigram 对联 维特比算法
下载PDF
基于无指导学习策略的无词表条件下的汉语自动分词 被引量:37
8
作者 孙茂松 肖明 邹嘉彦 《计算机学报》 EI CSCD 北大核心 2004年第6期736-742,共7页
探讨了基于无指导学习策略和无词表条件下的汉语自动分词方法 ,以期对研制开放环境下健壮的分词系统有所裨益 .全部分词知识源自从生语料库中自动获得的汉字Bigram .在字间互信息和t 测试差的基础上 ,提出了一种将两者线性叠加的新的统... 探讨了基于无指导学习策略和无词表条件下的汉语自动分词方法 ,以期对研制开放环境下健壮的分词系统有所裨益 .全部分词知识源自从生语料库中自动获得的汉字Bigram .在字间互信息和t 测试差的基础上 ,提出了一种将两者线性叠加的新的统计量md ,并引入了峰和谷的概念 ,进而设计了相应的分词算法 .大规模开放测试结果显示 ,该算法关于字间位置的分词正确率为 85 .88% ,较单独使用互信息或t 测试差分别提高了 2 4 7%和 5 6 6 % . 展开更多
关键词 无指导学习 汉语自动分词 汉字bigram 互信息 t-测试差 线性叠加 统计量 中文信息处理应用系统
下载PDF
一种新的自动文本分类的算法 被引量:1
9
作者 赵敏涯 沈洁 +1 位作者 陈志敏 林颖 《扬州大学学报(自然科学版)》 CAS CSCD 2006年第1期62-65,共4页
研究了统计语言模型中b igram模型在自动文本分类中的应用,针对传统的向量空间模型在计算文本相似度时假设特征项相互独立的缺点,提出了一种新的利用词对及词序信息来改善文本分类结果的方法.实验结果表明:该方法是可行且有效的.
关键词 统计语言模型 自动文本分类 平滑 bigram模型
下载PDF
结合语言模型的自动文本分类的应用研究
10
作者 赵敏涯 《计算机与现代化》 2010年第3期141-143,共3页
研究统计语言模型中bigram模型在自动文本分类中的应用,针对传统的向量空间模型在计算文本相似度时假设特征项相互独立的缺点,提出一种利用词对及词序信息来改善文本分类结果的方法。实验结果表明该方法是可行且有效的。
关键词 统计语言模型 文本分类 平滑 bigram
下载PDF
利用汉字二元语法关系解决汉语自动分词中的交集型歧义 被引量:66
11
作者 孙茂松 黄昌宁 +2 位作者 邹嘉彦 陆方 沈达阳 《计算机研究与发展》 EI CSCD 北大核心 1997年第5期332-339,共8页
本文提出了一种利用句内相邻字之间的互信息及t-测试差这两个统计量解决汉语自动分词中交集型歧义切分字段的方法.汉字二元语法关系(bigram)为相关计算的基础,直接从生语料库中自动习得.初步的实验结果显示,可以正确处理... 本文提出了一种利用句内相邻字之间的互信息及t-测试差这两个统计量解决汉语自动分词中交集型歧义切分字段的方法.汉字二元语法关系(bigram)为相关计算的基础,直接从生语料库中自动习得.初步的实验结果显示,可以正确处理90. 展开更多
关键词 汉语 自动分词 汉字二元语法 计算机语言学
下载PDF
SVM+BiHMM:基于统计方法的元数据抽取混合模型 被引量:27
12
作者 张铭 银平 +1 位作者 邓志鸿 杨冬青 《软件学报》 EI CSCD 北大核心 2008年第2期358-368,共11页
提出了一种SVM+BiHMM的混合元数据自动抽取方法.该方法基于SVM(support vector machine)和二元HMM(bigram HMM(hidden Markov model),简称BiHMM)理论.二元HMM模型BiHMM在保持模型结构不变的前提下,通过区分首发概率和状态内部发射概率,... 提出了一种SVM+BiHMM的混合元数据自动抽取方法.该方法基于SVM(support vector machine)和二元HMM(bigram HMM(hidden Markov model),简称BiHMM)理论.二元HMM模型BiHMM在保持模型结构不变的前提下,通过区分首发概率和状态内部发射概率,修改了HMM发射概率计算模型.在SVM+BiHMM复合模型中,首先根据规则把论文粗分为论文头、正文以及引文部分,然后建立SVM模型把文本块划分为元数据子类,接着采用Sigmoid双弯曲函数把SVM分类结果用于拟合调整BiHMM模型的单词发射概率,最后用复合模型进行元数据抽取.SVM方法有效考虑了块间联系,BiHMM模型充分考虑了单词在状态内部的位置信息,二者的元数据抽取结果得到了很好的互补和修正,实验评测结果表明,SVM+BiHMM算法的抽取效果优于其他方法. 展开更多
关键词 元数据抽取 基于规则的信息抽取 支持向量机 隐马尔科夫模型 二元 HMM模型
下载PDF
现代汉语计算语言模型中语言单位的频度—频级关系 被引量:15
13
作者 关毅 王晓龙 张凯 《中文信息学报》 CSCD 北大核心 1999年第2期8-15,共8页
Zipf定律是一个反映英文单词词频分布情况的普适性统计规律。我们通过实验发现,在现代汉语的字、词、二元对等等语言单位上,其频度与频级的关系也近似地遵循Zipf定律,说明了Zipf定律对于汉语的不同层次的语言单位也是普... Zipf定律是一个反映英文单词词频分布情况的普适性统计规律。我们通过实验发现,在现代汉语的字、词、二元对等等语言单位上,其频度与频级的关系也近似地遵循Zipf定律,说明了Zipf定律对于汉语的不同层次的语言单位也是普遍适用的。本文通过实验证实了Zipf定律所反映的汉语语言单位频度—频级关系,并进而深入讨论了它对于汉语自然语言处理的各项技术。 展开更多
关键词 语言单位 汉语 计算语言模型 频度-频级关系
下载PDF
基于隐马尔可夫模型(HMM)的词性标注的应用研究 被引量:13
14
作者 胡春静 韩兆强 《计算机工程与应用》 CSCD 北大核心 2002年第6期62-64,共3页
利用隐马尔可夫模型(HMM)对英语文本进行词性标注,首先介绍了对Viterbi算法的改进和基于HMM模型方法训练机器的步骤,然后通过一系列对比实验,得出两个结论:二元文法模型的“性能价格比”较三元文法模型更令人满意;词性标注集的个数对词... 利用隐马尔可夫模型(HMM)对英语文本进行词性标注,首先介绍了对Viterbi算法的改进和基于HMM模型方法训练机器的步骤,然后通过一系列对比实验,得出两个结论:二元文法模型的“性能价格比”较三元文法模型更令人满意;词性标注集的个数对词性标注的准确率有影响。最后利用上述结论进行了封闭式测试和开放式测试。 展开更多
关键词 隐马尔可夫模型 VITERBI算法 二元文法模型 词性标记 自然语言处理
下载PDF
基于LDA的弱监督文本分类方法 被引量:3
15
作者 张金瑞 柴玉梅 +1 位作者 昝红英 高明磊 《计算机工程与设计》 北大核心 2017年第1期86-91,共6页
针对传统的文本分类方法需要大量人工标注好的训练数据,且数据标注的好坏会影响结果等问题,通过对LDA及其相关模型的研究,提出一种基于LDA的弱监督文本分类算法。无需人工标注训练数据,在处理文本时,引入词向量,保持文本中的词序,加入... 针对传统的文本分类方法需要大量人工标注好的训练数据,且数据标注的好坏会影响结果等问题,通过对LDA及其相关模型的研究,提出一种基于LDA的弱监督文本分类算法。无需人工标注训练数据,在处理文本时,引入词向量,保持文本中的词序,加入二元语法。实验结果表明,该方法节省了人力、物力,取得了较优效果。 展开更多
关键词 文本分类 潜在狄利克雷分布 主题 词序 二元语法
下载PDF
二元语法中文分词数据平滑算法性能研究 被引量:4
16
作者 刘丹 方卫国 周泓 《计算机工程与应用》 CSCD 北大核心 2009年第17期33-36,共4页
将多种平滑算法应用于基于二元语法的中文分词,在1998年1月人民日报语料库的基础上,讨论了困惑度和实际分词性能之间的关系,对比分析各平滑算法的实际性能,结果表明,简单的加值平滑算法性能最优,封闭精度、召回率分别为99.68%、99.7%,... 将多种平滑算法应用于基于二元语法的中文分词,在1998年1月人民日报语料库的基础上,讨论了困惑度和实际分词性能之间的关系,对比分析各平滑算法的实际性能,结果表明,简单的加值平滑算法性能最优,封闭精度、召回率分别为99.68%、99.7%,开放精度、召回率为98.64%、98.74%。 展开更多
关键词 数据平滑 中文分词 二元语法
下载PDF
一种基于单字统计二元文法的自组词音字转换算法 被引量:6
17
作者 赵以宝 孙圣和 《电子学报》 EI CAS CSCD 北大核心 1998年第10期55-59,共5页
音字转换在语音识别和汉字语句键盘输入方面都占有很重要的地位.现在比较流行的方法是基于大语料统计的Markov模型的音字转换方法其中基于单字N元文法的音字转换算法具有数据量少、算法简单的优点.但转换准确率却较低;而基于词N元文法... 音字转换在语音识别和汉字语句键盘输入方面都占有很重要的地位.现在比较流行的方法是基于大语料统计的Markov模型的音字转换方法其中基于单字N元文法的音字转换算法具有数据量少、算法简单的优点.但转换准确率却较低;而基于词N元文法的音字转换算法则正好相反本文在基于单字统计Bigram算法的基础上提出了一种自组词的音字转换方法,不仅具有单字Brgram方法的占空间少的优点.而且又可充分利用基于词Bigram算法的优点,实验表明该方法容易实现而且具有较高的转换准确率. 展开更多
关键词 音字转换 二元文法 自组词 语音识别
下载PDF
基于汉语二元同现的统计词义消歧方法研究 被引量:4
18
作者 荀恩东 李生 赵铁军 《高技术通讯》 EI CAS CSCD 1998年第10期21-25,共5页
采用《汉语同义词词林》和英汉双语语料库,通过“双语对齐”扩充了英汉词典的单词译文;对大规模汉语语料库以B+树算法为骨架统计了汉语词组二元同现频次。在英汉机器翻译中,针对翻译的英语句子应用汉语词组二元同现的统计结果形成... 采用《汉语同义词词林》和英汉双语语料库,通过“双语对齐”扩充了英汉词典的单词译文;对大规模汉语语料库以B+树算法为骨架统计了汉语词组二元同现频次。在英汉机器翻译中,针对翻译的英语句子应用汉语词组二元同现的统计结果形成词义消歧矩阵,再针对消歧矩阵提出了一种贪心的选择算法,以此完成译文选择。 展开更多
关键词 词义消歧 机器翻译 二元同现 汉语词组
下载PDF
英汉机器翻译引擎的研究与实现 被引量:2
19
作者 胡春静 韩兆强 《计算机工程与应用》 CSCD 北大核心 2003年第29期148-150,共3页
介绍了英汉机器翻译引擎的组成,详细描述了具体实现过程,包括翻译前的预处理、查词消兼、句法分析和转换生成。
关键词 隐马尔可夫模型 二元文法 Viterhi算法 依存语法
下载PDF
A NOVEL SPACE-COMPRESSED CHINESE WORD DIGRAM BASED ON BI-CHARACTER CO-ARTICULATION FREQUENCY 被引量:1
20
作者 Zhao Yibao Qiao Liyan Tan Jianxun Sun Shenghe(Automatic Test and Control Department, Harbin Institute of Technology, Harbin 150001) (Robot Research Institute, Harbin Institute of Technology, Harbin 150001) 《Journal of Electronics(China)》 2000年第2期178-184,共7页
Chinese Phonetic-Character Conversion(CPCC) is an important issue in Chinese speech recognition and Chinese sentence keyboard input system. The approaches based on large corpus statistic Markov language model (such as... Chinese Phonetic-Character Conversion(CPCC) is an important issue in Chinese speech recognition and Chinese sentence keyboard input system. The approaches based on large corpus statistic Markov language model (such as bigram, trigram) become more and more popular today. This paper presents an improved Chinese word bigram, space-compressed Chinese word bigram, which stores the bi-word co-articulation frequency in the form of the bi-character co-articulation frequency. The bi-word co-articulation frequency is estimated from the bi-character co-articulation frequency library. The CPCC experiment with the improved Chinese word bigram shows: it can reach a higher correct conversion ratio with less space occupation. 展开更多
关键词 CPCC MARKOV model bigram WORD FREQUENCY ESTIMATE
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部