-
题名汉语组块分析在产品特征提取中的应用研究
被引量:4
- 1
-
-
作者
杜思奇
李红莲
吕学强
-
机构
北京信息科技大学信息与通信工程学院
北京信息科技大学网络文化与数字传播北京市重点实验室
-
出处
《现代图书情报技术》
CSSCI
2015年第9期26-30,共5页
-
基金
国家自然科学基金项目"基于本体的专利自动标引研究"(项目编号:61271304)
北京市教委科技发展计划重点项目暨北京市自然科学基金B类重点项目"面向领域的互联网多模态信息精准搜索方法研究"(项目编号:KZ201311232037)的研究成果之一
-
文摘
【目的】解决用户评论文本中的产品特征提取问题,尤其是名词性短语的识别问题。【方法】利用汉语组块分析进行产品特征提取,根据Apriori产生频繁项集以及TF-IDF阈值对候选产品特征进行过滤,得到产品特征集合,从而实现对用户评论中产品特征的自动提取。【结果】为验证该方法的有效性,以汽车评论文本为例,从中提取汽车类产品的特征,平均召回率达到76.89%,平均准确率达到84.03%。【局限】该方法的召回率较低,存在名词块识别错误的问题。【结论】实验结果表明引入汉语组块分析可以准确识别名词性短语,提高产品特征提取的准确率。
-
关键词
产品特征提取
名词性短语识别
汉语组块分析
关联规则
-
Keywords
Product feature extraction Noun phrase identification Chinese chunk parsing Association rules
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-