期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
用户评论中的标签抽取以及排序 被引量:11
1
作者 李丕绩 马军 +1 位作者 张冬梅 韩晓晖 《中文信息学报》 CSCD 北大核心 2012年第5期14-19,45,共7页
对于一个实体(产品或者商户),往往伴随着成千上万的用户评论。如何从这些冗杂的评论信息中抽取能够描述此实体的精华信息是研究的热点问题。该文提出了一种能够为每个实体抽取特征标签的方法,并且语义去重,保证标签在语义空间内相互独... 对于一个实体(产品或者商户),往往伴随着成千上万的用户评论。如何从这些冗杂的评论信息中抽取能够描述此实体的精华信息是研究的热点问题。该文提出了一种能够为每个实体抽取特征标签的方法,并且语义去重,保证标签在语义空间内相互独立。首先,对于每个实体的所有评论,进行中文分词、词性标注,并且做依存句法分析。然后,根据每个句子中的依存关系,抽取关键标签,构成此实体的标签库,并且对标签库进行显式语义去重。最后通过K-Means聚类以及Latent Dirichlet Allocation(LDA)主题模型将每个标签映射到语义独立的主题空间,再根据每个标签相对该主题的置信度进行排序。通过以上步骤,可以为每个实体抽取语义独立的关键标签描述,实验中,该文通过对返回标签列表的准确性以及语义多样性进行了统计分析,验证了标签抽取方法的可行性和有效性。 展开更多
关键词 意见挖掘 主题模型 语义独立 标签抽取 排序
下载PDF
一种有效的标签抽取和匹配方法
2
作者 邹显春 吴春明 李盛瑜 《计算机科学》 CSCD 北大核心 2012年第5期208-212,共5页
标签抽取和匹配是查询接口理解的重要组成部分。提出了一种基于视觉的标签抽取和匹配方法,深入分析了相关匹配因子,给出了一种对查询接口表单进行重构的方法,它能依据接口HTML源代码自动还原出该表单的视觉布局特征。在最终的匹配算法中... 标签抽取和匹配是查询接口理解的重要组成部分。提出了一种基于视觉的标签抽取和匹配方法,深入分析了相关匹配因子,给出了一种对查询接口表单进行重构的方法,它能依据接口HTML源代码自动还原出该表单的视觉布局特征。在最终的匹配算法中,综合考虑了基于label标记的匹配、基于文本语义的匹配以及基于位置特征的匹配。在8个领域共计277个查询接口上的实验证明了所提方法能取得较高的匹配精度。 展开更多
关键词 标签抽取 位置特征 表单布局 元素-标签匹配
下载PDF
依存句法模板下的商品特征标签抽取研究 被引量:9
3
作者 聂卉 杜嘉忠 《现代图书情报技术》 CSSCI 北大核心 2014年第12期44-50,共7页
【目的】面向在线商品评论,通过探索"产品特征–观点"对应关系的识别方法,抽取商品特征标签,凝练评论精华。在网络资讯良莠混杂的环境下,帮助用户有效获得有价值的资讯。【方法】引入依存语法关系,对评论模板实现自动分类、... 【目的】面向在线商品评论,通过探索"产品特征–观点"对应关系的识别方法,抽取商品特征标签,凝练评论精华。在网络资讯良莠混杂的环境下,帮助用户有效获得有价值的资讯。【方法】引入依存语法关系,对评论模板实现自动分类、过滤、泛化并形成模板库。基于模板库和外部词典提取特征标签,同时确立候选标签的筛选过滤机制。【结果】面向真实的网络评论集,本文方法的性能优于单纯过滤与泛化的抽取方法。F值最优达到56.5%,调整参数后,准确率达到65%。【局限】需要在特征抽取前依据评论语句质量进行前期过滤,考虑特征词库的自动化获取,在模板形成过程中,还需添加更多的句法关系,进一步提高特征标签的抽取准确度。【结论】单纯依据句法模板频率进行模板过滤的方法有提升空间。特征抽取过程考虑模板的长度特征,设定抽取窗口,对特征标签进行筛选、合并特征能获取更好的抽取结果。 展开更多
关键词 评论挖掘 标签抽取 依存句法分析
原文传递
基于自动文摘的作文素材标签提取方法研究 被引量:3
4
作者 朱晓亮 吴逸尘 殷姿 《计算机应用与软件》 北大核心 2019年第2期222-227,322,共7页
作文素材在小学语文作文辅助中的作用不可忽视。但当前存在的作文素材数量繁多却普遍缺乏个性化的推荐模式,极易引起小学生知识过载现象。作文素材的非结构化数据特征使得计算机对其存取操作过于复杂,进而会对数据的有效组织产生阻碍。... 作文素材在小学语文作文辅助中的作用不可忽视。但当前存在的作文素材数量繁多却普遍缺乏个性化的推荐模式,极易引起小学生知识过载现象。作文素材的非结构化数据特征使得计算机对其存取操作过于复杂,进而会对数据的有效组织产生阻碍。通过对作文语料的文本自动摘要处理来去除冗余、提取文本中心内容,可以改善作文辅助中的信息过载问题以及素材语料中存在的大量冗余,对文本标签的获取产生干扰问题。在完善作文标签定义的前提下,提出一种基于文本自动摘要的小学语文作文标签提取方法。 展开更多
关键词 作文素材 文本自动摘要 标签抽取 TextRank
下载PDF
基于艺术语义特征抽取的艺术档案信息聚合初探 被引量:2
5
作者 徐一男 李禾 《图书情报导刊》 2017年第4期52-56,共5页
由于数字艺术档案中信息语义形态多样、辨识度较低以及缺乏普适性的聚合策略,所以当前的艺术档案信息服务呈现零散、低效的状态。从数字艺术档案的艺术语义特征出发,以图像模型抽取、意象标签抽取作为切入点,探索了基于不同载体艺术信... 由于数字艺术档案中信息语义形态多样、辨识度较低以及缺乏普适性的聚合策略,所以当前的艺术档案信息服务呈现零散、低效的状态。从数字艺术档案的艺术语义特征出发,以图像模型抽取、意象标签抽取作为切入点,探索了基于不同载体艺术信息资源的抽取模式,从而提出了区别于纯文本抽取的艺术档案信息聚合途径和思路。 展开更多
关键词 数字艺术档案 艺术语义抽取 图像抽取模型 意象标签抽取
下载PDF
面向严格对齐任务的文本自动生成:以招标技术范本为例
6
作者 卢爽 《计算机科学与应用》 2021年第7期1923-1930,共8页
自动生成的严格对齐的文本,生活中更有常用,例如:自动生成对齐的招投标文件等。然而,自动生成对齐文本时,首先需要的是结构化数据。本文设计了基于历史招标文件的严格对齐文本自动生成模型。方法包括:基于正则匹配的数据清洗和结构化关... 自动生成的严格对齐的文本,生活中更有常用,例如:自动生成对齐的招投标文件等。然而,自动生成对齐文本时,首先需要的是结构化数据。本文设计了基于历史招标文件的严格对齐文本自动生成模型。方法包括:基于正则匹配的数据清洗和结构化关键标签的抽取(例如:招标文件的技术参数等);基于k-means的结构化关键标签聚类;基于word2vec计算词向量之间余弦距离的结构化关键标签去重;最后,基于结构化关键标签,预测出最终的编制范本。实验以专家手工标记的100篇招标文件技术范本为参照,文中算法不仅可以达到与专家人工编制范本之间80%以上的重合度,同时参数覆盖更全面,鲁棒性高,可以满足生产需求。 展开更多
关键词 对齐文本自动生成 关键标签抽取 文本去重
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部