题名 基于CRF模型的短文本信息流话题提取
被引量:2
1
作者
王宗尧
刘金岭
崔俊峰
王敏
机构
淮阴工学院管理工程学院
淮阴工学院计算机与软件学院
淮阴工学院数理学院
淮阴工学院图书馆
出处
《淮阴工学院学报》
CAS
2016年第5期6-9,共4页
基金
江苏高校哲学社会科学研究项目(2015SJD702)
淮阴工学院科研基金项目(HGC1422)
文摘
为更有效地在中文短文本信息流中进行话题提取,给出了一种基于CRF模型的话题提取方法。根据短文本信息流的特点,定义了短文本信息流中关键词语相似度。充分利用上下文信息对特征信息进行全局归一化的处理,进一步得到全局的最优值。在真实的短信文本信息集上将此方法与决策树方法进行比较,取得了较明显的优势。
关键词
短文本
信息流
话题提取
CRF模型
Keywords
short text
the flow of information
topic extraction
CRF model
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 一种基于时序窗口的动态热点话题提取模型
2
作者
马慧芳
尹旻
何清
史忠植
机构
中国科学院计算技术研究所智能信息处理重点实验室
中国科学院研究生院
联想(中国)研究院网络服务研究室
出处
《高技术通讯》
EI
CAS
CSCD
北大核心
2010年第6期590-595,共6页
基金
863计划(2007AA01Z132)
国家自然科学基金(60435010)
+1 种基金
973计划(2007CB311004)
国家科技支撑计划(No.2006BAC08B06)资助项目
文摘
针对新闻领域的专题组织进行了研究,提出了一种基于时序窗口的动态热点话题提取模型。该模型整合了热点话题的两个特点。一方面关注主题词在新闻文本中的广泛性,衡量标准为多频道播报特征项的频率综合,词频越高其广泛性越高;另一方面考虑新闻流主题词的突发性,表现为特定时间段内主题词出现频率显著异常于其它时间段。引入时序窗口进行上升和下降突发模式提取,并结合TF-DF作为主题词赋权值依据。实验结果表明,这种基于时序窗口的动态热点话题提取模型对新闻文本进行主题抽取具有很好的性能。
关键词
话题提取
时序窗口
广泛性
突发性
TF-PDF
Keywords
topic extraction, time window, pervasiveness, burst, TF-PDF
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 一种对BBS语料进行话题提取的聚类算法
被引量:1
3
作者
李卓尔
胡运发
机构
复旦大学计算机信息与技术系
出处
《计算机应用与软件》
CSCD
北大核心
2008年第8期1-3,共3页
基金
国家自然科学基金项目(60173027)
文摘
基于BBS语料的话题提取主要是从大量的BBS论坛讨论信息中,将正在或近期讨论的各种话题提取出来。在自主开发的一套话题提取系统中采用了一个原始聚类算法,能够对真实的BBS语料进行有效话题提取。随后将语料中的关联信息引入到原始聚类算法中进行改进,提高了算法的性能,取得了良好的效果。
关键词
BBS
话题提取
关联信息
聚类算法
Keywords
BBS Topic detection and tracking Related information Clustering algorithm
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
TS744
[轻工技术与工程—制浆造纸工程]
题名 公司话题提取及其趋势分析
4
作者
张禾
机构
青海大学
出处
《中小企业管理与科技》
2013年第19期253-255,共3页
文摘
随着信息技术的发展,人们由一个信息匮乏的时代进入到了信息爆炸的时代,大量信息通过媒体、互联网等各种途径冲击着人们的大脑。面对庞大的数据,人们很难找到他们想要的信息。为解决这种问题,研究者们开始着手在大量数据中挖掘有用的信息、对庞大的信息建立索引、在文档集中提取话题等方向。本文从专利文档角度出发,对公司的专利文档进行分析,提取其潜在的热点话题,并将其集成到专利检索系统Patent Miner中。在挖掘公司潜在信息,提高用户的搜索效率方面具有重要意义。
关键词
话题提取
话题 模型
PLSA
专利分类
GOOGLE
CHART
TOOLS
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
题名 汉语附加语话题提取的句法-语义界面研究
被引量:1
5
作者
高秀雪
机构
青岛农业大学
出处
《现代外语》
CSSCI
北大核心
2015年第4期460-469,583,共10页
基金
国家哲学社科基金一般项目"平行建构理论框架下话题结构的跨语言比较研究"(13BYY003)
教育部人文社会科学研究青年基金项目"中动及其相关去及物性结构--基于句法-语义-语用综合界面的跨语言比较研究"(12YJC740023)的阶段性成果
文摘
句法理论普遍认为,附加语内成分具有不可提取性,附加语为孤岛结构。然而,研究发现,附加语并非总是不能提取。汉语附加语话题提取受事件结构条件制约,只要主从事件融合为单一事件,附加语话题便有可能提取。单一事件结构的形成不仅受事件整体意义的影响,也受语义、语用和句法因素的影响。句法、语义、语用等语言加工因素共同作用,导致对话题附加语提取可接受性判断的梯度性,从而表明汉语附加语话题降级提取的原因在于普遍的言语行为,而不是语言能力。
关键词
孤岛条件
附加语
句法-语义界面
话题提取
Keywords
island condition
adjunct
syntax-semantics interface
topic extraction
分类号
H030
[语言文字—语言学]
题名 基于产品网络舆情话题的供应链风险特征研究
被引量:6
6
作者
林萍
黄卫东
张冲
机构
南京邮电大学管理学院
南京航空航天大学经济与管理学院
出处
《情报杂志》
CSSCI
北大核心
2017年第12期114-118,113,共6页
基金
江苏省社会科学基金项目"大数据时代基于话题演化视角的网络舆情监控与应对路径研究"(编号:15TQB004)
教育部人文社会科学基金项目"供应链的网络舆情风险识别与应对策略研究--基于话题动态网络模型"(编号:16YJCZH055)
+1 种基金
国家自然科学基金面上项目"基于个体情感模型的舆情传播机制研究"(编号:71671093)
国家自然科学基金青年项目"信用支付下基于行为因素的供应链优化与协调策略研究"(编号:71301079)
文摘
[目的/意义]供应链面对产品网络舆情所产生的风险是一种新型的风险,是需求风险和信息风险的组合,准确识别风险并挖掘其分布特征和演化规律,有利于建立高效的供应链风险管理。[方法/过程]以与公众生活密切相关、公众关注度很高的食品网络舆情话题为数据分析对象,通过文本挖掘与人工筛选相结合的方式,提取产品网络舆情在供应链主体中呈现的风险分布特征;通过话题提取和情感极性计算,分析供应链的产品网络舆情特征。[结论/建议]供应链的产品网络舆情风险呈现多维扩散性、多话题衍生、情绪传递等特征。建议通过话题动态网络模型的方式,建立包括供应链多层级主体协同的风险应对平台。
关键词
网络舆情
文本挖掘
情感分析
话题提取
供应链风险
Keywords
netw ork public opinion
text mining
sentiment analysis
topic extraction
supply chain risk
分类号
C931.6
[经济管理—管理学]
题名 高校BBS与微博的用户社交行为特征分析
被引量:3
7
作者
赖清楠
马皓
宋维佳
李婷婷
蒋广学
张蓓
机构
北京大学信息科学技术学院
北京大学计算中心
北京大学青年研究中心
出处
《通信学报》
EI
CSCD
北大核心
2013年第S2期99-106,共8页
基金
国家发展改革委2011年国家信息安全专项基金资助项目~~
文摘
为了扩大信息宣传渠道传播校园正能量,高校会使用官方微博发布BBS的一些关键信息。通过对一个高校BBS微博的研究,实现了一种将微博社交信息反馈至BBS的信息抓取与编辑系统。在此基础上,分析微博用户社交行为特征,提出紧密度和亲密度的概念,很好地实现了用户间的好友关系及关注度。特殊标点符号对微博话题的提取能提供很大的帮助,通过比较基于词典与表情符号和基于不同词典的评论情感分析,得出综合网络词典和表情符号的方法能取得更好效果。
关键词
微博
BBS
用户行为
话题提取
情感分析
Keywords
microblog
BBS
user behavior
topic extraction
sentiment analysis
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 面向综合集成研讨环境的主动信息获取方法
被引量:1
8
作者
倪娜
刘凯
李耀东
机构
中国科学院自动化研究所复杂系统与智能科学重点实验室
出处
《计算机应用研究》
CSCD
北大核心
2010年第11期4058-4062,4066,共6页
基金
国家"973"重点基础研究发展计划资助项目(2007CB311007)
文摘
针对在综合集成研讨环境中,由于存在时间压力,传统的网络信息获取方法难以直接使用,提出了一种面向综合集成研讨环境的主动信息获取方法。该方法将领域词条与通用词条相结合,从发言文本流中实时提取话题,并在话题发生变化时自动生成检索词送入搜索引擎进行检索,再通过多个用户之间的协作推荐实现对重要检索结果的筛选。实验结果表明,这种方法可为综合集成研讨系统的用户提供及时、准确、上下文相关的信息服务。
关键词
综合集成研讨厅
领域词典
话题提取
协作过滤
Keywords
cyberspace for workshop of metasynthetic engineering(CWME)
domain lexicon
topic extraction
collaborative filtering
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 中文短信文本信息流中多话题的分类抽取
被引量:2
9
作者
张永军
刘金岭
马甲林
机构
淮阴工学院中文信息处理研究室
出处
《现代图书情报技术》
CSSCI
北大核心
2014年第7期101-106,共6页
基金
国家级星火计划项目"农村民生建设信息反馈平台建设"(项目编号:2011GA690190)的研究成果之一
文摘
【目的】为更有效地在中文短信文本信息流(SMS Text Message Flow,SM_F)中进行多话题的分类提取,提出一种基于SM_F特点的话题分类抽取方法 SM_F_HT。【方法】将SM_F分割成多个短信文本子集SM_Fi,通过层次的狄利克雷过程信息抽取与TF-IDF相结合,建立短信文本向量集上多个概率分布,采用吉布斯抽样并结合特征词属于临时话题的概率进行SM_F话题分类抽取。【结果】实验结果表明,SM_F_HT在困惑度和对数似然比方面优越于模型CCLDA和CCMix。【局限】在短信文本预处理和特征词的抽取方面,还需进一步优化算法和提高数据质量。【结论】提出的SM_F_HT方法对SM_F的多话题分类抽取是有效的。
关键词
短信文本
信息流
话题提取
狄利克雷
吉布斯抽样
Keywords
Short message text Message flow Topic extract Dirichlet Gibbs sample
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]