-
题名基于LDA的弱监督文本分类方法
被引量:3
- 1
-
-
作者
张金瑞
柴玉梅
昝红英
高明磊
-
机构
郑州大学信息工程学院
-
出处
《计算机工程与设计》
北大核心
2017年第1期86-91,共6页
-
基金
国家社会科学基金项目(14BYY096)
国家自然科学基金项目(61402419
+4 种基金
61272221)
国家863高技术研究发展计划基金项目(2012AA011101)
计算语言学教育部重点实验室(北京大学)开放课题基金项目(201401)
国家973重点基础研究发展计划基金项目(2014CB340504)
河南省高等学校重点科研基金项目(15A520098)
-
文摘
针对传统的文本分类方法需要大量人工标注好的训练数据,且数据标注的好坏会影响结果等问题,通过对LDA及其相关模型的研究,提出一种基于LDA的弱监督文本分类算法。无需人工标注训练数据,在处理文本时,引入词向量,保持文本中的词序,加入二元语法。实验结果表明,该方法节省了人力、物力,取得了较优效果。
-
关键词
文本分类
潜在狄利克雷分布
主题
词序
二元语法
-
Keywords
text classification
LDA
topic
word order
bigram grammar
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名英汉机器翻译引擎的研究与实现
被引量:2
- 2
-
-
作者
胡春静
韩兆强
-
机构
北京邮电大学
-
出处
《计算机工程与应用》
CSCD
北大核心
2003年第29期148-150,共3页
-
文摘
介绍了英汉机器翻译引擎的组成,详细描述了具体实现过程,包括翻译前的预处理、查词消兼、句法分析和转换生成。
-
关键词
隐马尔可夫模型
二元文法
Viterhi算法
依存语法
-
Keywords
HMM,bigram,Viterbi algorithm,Dependency grammar
-
分类号
H085
[语言文字—语言学]
-