-
题名基于词表和N-gram算法的新词识别实验
被引量:7
- 1
-
-
作者
曹艳
杜慧平
刘竟
侯汉清
-
机构
南京农业大学信息管理系
-
出处
《情报科学》
CSSCI
北大核心
2007年第11期1687-1691,1695,共6页
-
基金
国家社会科学基金(05BTQ021)
-
文摘
目前未登录词问题仍然很大程度上影响着自动标引和信息检索的效率。本文提出了一种选择期刊论文的题名和摘要作为训练语料,利用N-gram算法切分和停用词典等过滤筛选的非专名的新词识别方法。该方法主要分为两步:先进行N元切分,保存关键词候选集并统计词频;然后进行一系列的过滤,主要有词频阈值限定、前停后停词典过滤、相邻词比较、子父串比较、抽词词典和过滤词典的过滤,最后进行人工判别。对实验结果的测评表明这一方法是简便易行的。训练语料可以不用全文,只用题名和摘要;在新词识别上,摘要可以代替题名。
-
关键词
N-gram算法
未登录词
新词识别
停用词典
过滤词典
-
Keywords
N- gram algorithm
unlisted words
new words identification
stop word list
filter vocabulary
-
分类号
G252.7
[文化科学—图书馆学]
-
-
题名一种面向中文敏感网页识别的文本分类方法
被引量:3
- 2
-
-
作者
陈欣
张菁
李晓光
卓力
-
机构
北京工业大学信号与信息处理研究室
-
出处
《测控技术》
CSCD
北大核心
2011年第5期27-31,40,共6页
-
基金
国家自然科学基金资助项目(60772069
61003289)
+3 种基金
863计划资助项目(2009AA12Z111)
北京市自然科学基金资助项目(4102008)
人力资源与社会保障部留学归国人员科技活动优秀类资助
教育部留学归国人员科研启动基金项目
-
文摘
提出了一种面向中文敏感网页识别的文本分类方法,主要包括中文分词、停用词表的建立、特征选择、分类器等4个部分。为丰富中文分词词库,提出了一种以词频统计为主、以人工判决为辅并标注词性的新词识别算法;提出了一种停用词表的建立算法,据此建立了含300个停用词的停用词表;采用开方拟合检验统计量方法作为特征选择方法,并确定了400维的特征词库。根据开方拟合统计量特征选择方法与朴素贝叶斯分类器的特点,加入待分类网页文本中所含特征项数目与特征集维数的比值以及特征项数目与文本所含词汇数目的比值两个影响因子,对朴素贝叶斯分类器进行了改进。考虑到不同的人群对敏感概念的主观理解差异较大,将待识别网页的敏感度值作为分类器的输出。实验结果表明,与现有的文本分类方法相比,所提出的文本分类方法可以获得更好的识别效果。
-
关键词
中文敏感网页识别
新词识别
停用词表建立
CHI统计
朴素贝叶斯分类器
-
Keywords
Chinese pornographic web recognition
new words identification
stop-word-list
CHI square
Naive Bayes classifier
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名改进的维吾尔语Web文本后缀树聚类
被引量:1
- 3
-
-
作者
邹志华
田生伟
禹龙
冯冠军
-
机构
新疆大学信息科学与工程学院
新疆大学软件学院
新疆大学网络中心
新疆大学人文学院
-
出处
《中文信息学报》
CSCD
北大核心
2013年第2期118-126,共9页
-
基金
国家自然科学基金资助项目(60963017
61262064)
+1 种基金
国家社会科学基金资助项目(10BTQ045
11XTQ007)
-
文摘
该文提出了改进的维吾尔语Web文本后缀树聚类算法STCU,其中后缀树的构建以维吾尔语句子为基本单位。针对维吾尔语语言和Web文本特点,文中对词语进行词干提取,构建了维吾尔语绝对停用词表和相对停用词表,采用文档频率和词性结合的方法提取关键短语,改进了合并基类的二进制方法,根据语料类别数自动调整聚类类别阈值,利用最一般短语对聚类类别进行描述,有效地改善了文本聚类的质量。与传统的后缀树聚类算法相比,聚类全面率提高了44.51%,聚类准确率提高了11.74%,错误率降低了0.94%。实验结果表明:改进的后缀树算法在Web文本聚类的精度和效率方面具有较强的优越性。
-
关键词
维吾尔语
后缀树
短语聚类
停用词表
文档频率
-
Keywords
Uyghur
suffix tree
phrase clustering
stop word list
document frequency
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名中文文本倾向性分类技术比较研究
被引量:14
- 4
-
-
作者
朱杰
刘功申
陈卓
-
机构
上海交通大学信息安全工程学院
海军装备上海局综合计划处
-
出处
《信息安全与通信保密》
2010年第4期56-58,共3页
-
基金
自然科学基金资助项目(批准号:60672068)
上海科委科技攻关资助项目(编号:08511501902)
-
文摘
随着近几年互联网的发展,网络评论数量正日益增加。对这些网络评论进行挖掘和分析,识别出其中的情感倾向,可以给用户、企业、政府提供重要的决策支持。采用机器学习方法中的朴素贝叶斯和支持向量机分类模型,根据不同的停用词表、特征选择方法、特征加权方法的组合,对中文文本倾向性分类进行了研究。结论表明,采用保留情感信息相关词性的停用词表,以文档频率为特征选择方法,并应用基于绝对词频的支持向量机分类模型,能取得较好的分类效果。
-
关键词
中文文本倾向性分类
停用词表
特征选择
特征加权
朴素贝叶斯
支持向量机
-
Keywords
semantic orientation classification of Chinese text
stop word list
feature selection
feature weighing assignment
na'f ve Bayesian classifier
support vector machine
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-