-
题名面向中文新闻话题检测的多向量文本聚类方法
被引量:6
- 1
-
-
作者
李欣雨
袁方
刘宇
李琮
-
机构
河北大学计算机科学与技术学院
河北大学数学与信息科学学院
-
出处
《郑州大学学报(理学版)》
CAS
北大核心
2016年第2期47-52,共6页
-
基金
河北省软科学研究计划项目(13455317D
12457206D-11)
-
文摘
基于多向量模型,给出一种将话题主题信息与话题文本信息相结合的多向量话题表示方式,使用较低的维度来准确表示一个话题.针对传统TFIDF方法在文本分类问题中对特征项在各个类中分布情况考虑不充分的问题,给出了一种TFIDF改进方法.在TDT4的中文语料上,与传统向量空间模型进行了对比实验.实验结果表明,给出的话题表示方法和TFIDF改进算法能够在较低的维度上,使聚类的准确率得到较大提升.
-
关键词
话题检测
多向量模型
TDT4
改进TFIDF算法
-
Keywords
topic detection
multi-vector model
TDT4
improved TFIDF
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于多向量和实体模糊匹配的话题关联识别
被引量:5
- 2
-
-
作者
张晓艳
王挺
陈火旺
-
机构
国防科技大学计算机学院
-
出处
《中文信息学报》
CSCD
北大核心
2008年第1期9-14,共6页
-
基金
国家自然科学基金资助项目(60403050)
新世纪优秀人才支持计划资助项目(NCET-06-0926)
-
文摘
本文在对新闻报道理论分析及实验验证的基础上,提出一种多向量表示模型,使其在尽量不丢失信息的情况下,对特征集合尽可能细地划分。基于该模型,本文设计了一种模糊匹配的方法用于计算命名实体子向量之间的关联度,它们和多个向量相似度一起用支持向量机进行整合,形成报道模型间的相似度。本文选用TDT4中文语料作为测试语料,将上述模型及模糊匹配技术用于话题关联识别。实验表明,多向量模型能够改进话题关联识别的性能,模糊匹配技术也在一定程度上弥补了精确匹配带来的性能损失。
-
关键词
计算机应用
中文信息处理
话题关联识别
多向量表示模型
命名实体模糊匹配
-
Keywords
computer application
Chinese information processing
story link detection
multi-vector model
namedentity fuzzy matching
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名朝向“应许之地”:最近发展区理论的温故与知新
- 3
-
-
作者
郭力平
曾蓓
朱丹瑶
-
机构
华东师范大学教育学部
-
出处
《北京教育学院学报》
2023年第4期26-35,共10页
-
文摘
最近发展区理论是维果茨基在教育心理学领域最广为人知的贡献,其未完成性和深远价值引发了学者们的持续省思与探索。尽管该理论在应用广度上得到极力拓展,但其发展深度有所局限。由于文化背景差异,一些地区在引介和解读该理论时甚至陷入片面窄化的误区。然而,通过理论争鸣与实践探索,最近发展区理论呈现出动态演进的趋势,实现了对维果茨基思想的还原与继承、发展与创新。多向量模型作为该理论的衍生物,整合了维果茨基关于最近发展区的核心思想,强调对人发展全域的观照,并结合反思活动方法,突破了对教与学情境中儿童学习与发展的理解局限,解决了概念方法论上的困境,具有开创性意义。在新时代,多向量模型理论在游戏情境下有拓展的空间,在“五育融合”中有应用的潜能,有望成为当代教育实践的路径选择。
-
关键词
列夫·维果茨基
最近发展区
多向量模型
全面发展
“五育融合”
-
Keywords
Lev Vygotsky
Zone of Proximal Development
multidimensional model
all-round development
"Five Education Integration"
-
分类号
G40
[文化科学—教育学原理]
-
-
题名语义环境下的多维度微博舆情信息关联检测方法
- 4
-
-
作者
庞海杰
刘春强
-
机构
青岛滨海学院信息工程学院
-
出处
《山东科技大学学报(自然科学版)》
CAS
2015年第4期62-66,共5页
-
基金
青岛市科技计划项目(12-1-4-6-(9)-jch)
-
文摘
针对微博舆情信息的特点,提出基于语义理解的微博舆情信息关联检测方法。从舆情信息表示模型和舆情信息相关度计算方法两个方面展开研究。在信息表示方面,使用微博的评论信息扩充微博信息以期较好地应对数据稀疏现象,基于同义词词林来计算词汇相似度,以应对微博草根性带来的问题,将微博舆情信息表示成多个向量空间模型。在相关性计算方面,提出多维度相关性计算方法。实验证明,所提出的方法对关联检测的准确率和召回率都有较好的提升。
-
关键词
微博
语义
关联检测
微博舆情
多向量空间模型
草根
-
Keywords
microblog
semantic mining
link detection, micro blog public opinion
multivector space model
grassroot
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于要素提取关联词对的中文报道关系检测
被引量:2
- 5
-
-
作者
陈智敏
蒙祖强
林啟锋
-
机构
广西大学计算机与电子信息学院
-
出处
《计算机应用》
CSCD
北大核心
2013年第1期182-185,共4页
-
基金
国家自然科学基金资助项目(61063032)
广西自然科学基金资助项目(2012GXNSFAA053225)
-
文摘
针对现有中文报道关系检测的检测代价即误报率和丢失率较高的问题,在多向量空间模型基础上提取不同向量的要素(时间、地点、人物和内容)特征词组成关联词对,使用支持向量机(SVM)方法整合关联词对相似度和余弦相似度,从而提出了一种提取要素关联词对报道关系检测方法。所提方法补充表示了报道内容,为检测提供了更多的比较依据,识别代价降低了将近11%。实验结果验证了算法的有效性。
-
关键词
报道关系识别检测
关联词对
报道要素
多向量空间模型
-
Keywords
story link detection
correlative word
story elements
multi-vector space model
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
TP301
[自动化与计算机技术—计算机系统结构]
-
-
题名基于SVM的中文报道关系识别方法研究
被引量:3
- 6
-
-
作者
王强
张永奎
-
机构
山西大学计算机与信息技术学院
计算智能与中文信息处理省部共建教育部重点实验室
-
出处
《计算机工程与应用》
CSCD
北大核心
2008年第33期141-143,共3页
-
基金
国家自然科学基金No.60475022
山西省自然科学基金No.20041041
山西省回国留学人员基金(No.2002004)。~~
-
文摘
针对网络新闻的特点,从人名、时间名、地点名、组织机构名、内容五个方面抽取特征词形成特征向量。在此基础上,分别进行了相似度计算,其中,人名、组织机构名、内容采用余弦夹角的方法,时间和地点向量,相似度计算采用了引入报道时间和关联度计算。最后,使用这5个相似度作为特征,使用SVM进行训练,并在测试集上进行了测试。测试结果表明,这种方法可以有效地改善系统的性能。
-
关键词
报道关系识别
话题检测与跟踪
多向量表示模型
-
Keywords
story link detection
topic detection and tracking
multi-vector mode
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-