期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于结构驱动的网络论坛采集路径研究 被引量:1
1
作者 李恒训 李南波 +2 位作者 邱泳钦 徐燕 刘金刚 《计算机应用研究》 CSCD 北大核心 2011年第9期3284-3287,共4页
网络论坛中蕴涵着大量具有实用价值和商业价值的信息,是搜索引擎和问答系统信息的重要来源。针对论坛结构复杂、链接种类繁多,以及容易陷入采集陷阱等问题,提出了一种基于结构驱动的采集路径选择方法。首先根据用户标注的少量类型数据,... 网络论坛中蕴涵着大量具有实用价值和商业价值的信息,是搜索引擎和问答系统信息的重要来源。针对论坛结构复杂、链接种类繁多,以及容易陷入采集陷阱等问题,提出了一种基于结构驱动的采集路径选择方法。首先根据用户标注的少量类型数据,利用DOM树对采样网页基于网页结构进行结构聚类;其次根据各节点的评价进行采集路径选择;最后对翻页链接进行有效的识别和处理。实验表明,该方法采集的覆盖率和有效率明显优于传统算法,并且应用在中国科学院计算所舆情监测平台上取得了良好的效果。 展开更多
关键词 信息检索 论坛采集 结构驱动 聚类 路径选择
下载PDF
基于字词联合的变体词规范化研究 被引量:1
2
作者 施振辉 沙灜 +3 位作者 梁棋 李锐 邱泳钦 王斌 《计算机系统应用》 2017年第10期29-35,共7页
社交网络中的文本具有随意性和非正规性等特点,一种常见现象是社交网络文本中存在大量变体词.人们往往为了避免审查、表达情感等将原来的词用变体词替代,原来的词成为目标词.本文研究变体词的规范化任务,即找到变体词所对应的初始目标词... 社交网络中的文本具有随意性和非正规性等特点,一种常见现象是社交网络文本中存在大量变体词.人们往往为了避免审查、表达情感等将原来的词用变体词替代,原来的词成为目标词.本文研究变体词的规范化任务,即找到变体词所对应的初始目标词.本文利用变体词所在文本的时间和语义,结合变体词词性,提出了一种时间和语义结合的方法获取候选目标词,然后提出基于字词联合的词向量方法对候选目标词排序.我们的方法不需要额外的标注数据,实验结果表明,相比于当前最好的方法在准确性上具有一定的提升,针对与目标词存在相同的字的变体词其性能更好. 展开更多
关键词 变体词 变体词规范化 社交网络 词向量 字词联合训练
下载PDF
基于事件图的在线事件检索
3
作者 杨文静 邱泳钦 +2 位作者 李思旭 李锐 王斌 《中文信息学报》 CSCD 北大核心 2017年第4期154-164,共11页
在线事件检索是针对事件查询,按时间序迭代返回小批量数据集中事件相关文档的检索任务。其目标是在时间轴上不断收集新鲜的事件文档,是进行一系列事件相关工作的重要基础。面对此任务,传统方法采用先进的检索模型来提升检索精度,然而却... 在线事件检索是针对事件查询,按时间序迭代返回小批量数据集中事件相关文档的检索任务。其目标是在时间轴上不断收集新鲜的事件文档,是进行一系列事件相关工作的重要基础。面对此任务,传统方法采用先进的检索模型来提升检索精度,然而却没有考虑事件本身的特性。针对这一问题,该文尝试使用两类图(事件关键词共现图、融合事件类型的二部图)对事件建模,提出了一种基于事件图的在线检索框架。案例分析与在两个公开的TREC数据集上的实验结果表明,该文方法显著提升了事件检索精度(P@10最高增幅达30%,平均增幅5.85%),且能自适应在线检索环境,支持事件的演变分析。 展开更多
关键词 事件图 在线事件检索 事件查询模型 事件演变
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部