-
题名一种基于信息熵的中文高频词抽取算法
被引量:22
- 1
-
-
作者
任禾
曾隽芳
-
机构
中国科学院自动化研究所综合信息中心
-
出处
《中文信息学报》
CSCD
北大核心
2006年第5期40-43,90,共5页
-
文摘
为扩展分词词典,提高分词的准确率,本文提出了一种基于信息熵的中文高频词抽取算法,其结果可以用来识别未登录词并扩充现有词典。我们首先对文本进行预处理,将文本中的噪音字和非中文字符转化为分隔符,这样文本就可以被视为用分隔符分开的中文字符串的集合,然后统计这些中文字符串的所有子串的相关频次信息,最后根据这些频次信息计算每一个子串的信息熵来判断其是否为词。实验证明,该算法不仅简单易行,而且可以比较有效地从文本中抽取高频词,可接受率可达到91.68%。
-
关键词
人工智能
自然语言处理
分词
中文抽词
信息熵
高频词
-
Keywords
artificial intelligence
natural language processing
Chinese word segmentation
Chinese word extraction
information entropy
high-frequency Chinese words
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于逐层扫描的频繁字串快速提取算法
被引量:1
- 2
-
-
作者
张宇萌
刘传汉
-
机构
上海交通大学计算机科学与工程系
-
出处
《计算机科学》
CSCD
北大核心
2008年第5期127-130,共4页
-
文摘
串频统计是一种简便有效的抽取未登录词方法。本文提出了一种快速的频繁字串提取和计频方法,通过逐层扫描快速发现频繁字串,修正字串有效出现频次,最后抽取平均互信息量达到阚值的字串。实验结果显示该方法有效可行。
-
关键词
频繁字串
中文抽词
逐层扫描
互信息
-
Keywords
Frequent string,Chinese automatic word extraction, Level-wise scan, Mutual information
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
TP311
[自动化与计算机技术—计算机软件与理论]
-