摘要
提出了一种新颖的REA(Review Extract Algorithm)算法进行评论信息的发现与抽取。算法采用了页面分块与信息熵的迭代计算技术实现了评论块的自动发现与抽取。其中,页面分块技术的运用有效地去除了噪声信息;基于块的熵值计算精确定位了每一个用户评论。实验结果证明该算法具有较高的查全率与查准率。
This paper puts forward a kind of novel algorithm - REA ( Review Extract Algorithm ). REA iteratively segements page and calculates the information entropy to automatically discover and extract the reviews. Page-segement technology effectively eliminates the noise information. The block-entropy calculation locates every user's comments accurately. The result of experiment proves that the algorithm has higher rate of recall and precision.
出处
《计算机应用研究》
CSCD
北大核心
2007年第2期269-271,291,共4页
Application Research of Computers
基金
江苏省自然科学基金资助项目(BK2005046)
关键词
评论抽取
自动
语义块
熵
Opinions Extraction
Automatic
Semantic Block
Entropy Values