期刊文献+
共找到41篇文章
< 1 2 3 >
每页显示 20 50 100
结合Skip-gram和加权损失函数的神经网络推荐模型 被引量:4
1
作者 李淑芝 余乐陶 +1 位作者 邓小鸿 李志军 《计算机工程与应用》 CSCD 北大核心 2020年第19期76-85,共10页
针对网络推荐系统中传统的协同过滤技术在实际应用中存在数据稀疏、导致准确率低、推荐单一性等问题,提出一种结合Skip-gram项目嵌入和加权损失函数的深度神经网络的推荐模型DSM。采用了3层ReLU层对输出向量进行回归,在未使用附加信息... 针对网络推荐系统中传统的协同过滤技术在实际应用中存在数据稀疏、导致准确率低、推荐单一性等问题,提出一种结合Skip-gram项目嵌入和加权损失函数的深度神经网络的推荐模型DSM。采用了3层ReLU层对输出向量进行回归,在未使用附加信息的前提下提高了推荐精度;利用Skip-gram进行项目嵌入得到更稠密的表示向量,减少了计算量;并且使用加权损失函数训练深度神经网络的参数,平衡了推荐项目的受欢迎程度,保证了新颖性。在APP数据集和Last.fm数据集的实验结果表明,DSM模型在推荐应用程序和歌曲时,准确性和多样性方面相比现有方法均有一定的提高。 展开更多
关键词 推荐系统 数据稀疏 skip-gram 加权损失函数 深度神经网络
下载PDF
基于Skip-gram词嵌入算法的结构化患者特征表示方法研究 被引量:6
2
作者 黄艳群 王妮 +3 位作者 刘红蕾 费晓璐 巍岚 陈卉 《北京生物医学工程》 2019年第6期568-574,604,共8页
目的基于表示学习中的Skip-gram词嵌入算法,寻找能够克服电子病历中结构化特征的高维性并在语义层次上表示特征的方法。方法本文的数据来源于北京市某三甲医院的电子病历系统,从中提取患者的结构化特征,包括疾病、药物和实验室指标,其... 目的基于表示学习中的Skip-gram词嵌入算法,寻找能够克服电子病历中结构化特征的高维性并在语义层次上表示特征的方法。方法本文的数据来源于北京市某三甲医院的电子病历系统,从中提取患者的结构化特征,包括疾病、药物和实验室指标,其中实验室指标通过正常值范围离散化;利用Skip-gram算法,将电子病历中离散型患者特征(疾病和药物)和离散后的连续型患者特征(实验室指标)嵌入到同一个低维实数向量空间中。通过t-SNE降维可视化方法显示低维实数空间中特征向量的关系,并与特征向量间的余弦距离计算结果相互印证,从而评价特征表示的有效性和揭示特征向量间的潜在联系。结果患者特征的低维实数向量既降低了患者特征的维度,又很好地表征了特征间的潜在联系,临床含义相关的特征表示成的低维实数向量也很相近。结论基于Skip-gram算法将患者结构化特征表示成低维实数向量取得了较好的效果,为解决EMR数据表示的高维性以及结构化特征间潜在关系分析提供一种思路。 展开更多
关键词 电子病历 skip-gram算法 特征表示 自然语言处理 词嵌入
下载PDF
基于Skip-gram模型的微博情感倾向性分析 被引量:4
3
作者 李天彩 王波 +1 位作者 毛二松 席耀一 《计算机应用与软件》 CSCD 2016年第7期114-117,133,共5页
为了更好地对微博进行表示,提高微博情感倾向性识别的准确度,提出一种基于Skip-gram模型的微博情感倾向性分析方法。首先,使用Skip-gram模型在中文数据上进行训练得到词向量;然后,利用词向量在词语表示上的优势,以及一定程度上满足加法... 为了更好地对微博进行表示,提高微博情感倾向性识别的准确度,提出一种基于Skip-gram模型的微博情感倾向性分析方法。首先,使用Skip-gram模型在中文数据上进行训练得到词向量;然后,利用词向量在词语表示上的优势,以及一定程度上满足加法组合运算的特性,通过向量相加获得微博的向量表示以及正负情感向量;最后,通过计算微博向量和正负情感向量的相似度判断微博的情感倾向。在NLP&CC2012数据上进行实验,结果表明,该方法能够有效识别微博的情感倾向,较传统的JST(Joint Sentiment/Topic model)和ASUM(Aspect and Sentiment Unication Model)平均F1值分别提高了23%和26%。 展开更多
关键词 微博 情感分析 skip-gram 模型 词向量 微博向量
下载PDF
基于Skip-gram模型的社区查询算法 被引量:3
4
作者 廖宇 朱福喜 刘世超 《计算机工程与应用》 CSCD 北大核心 2018年第8期143-148,共6页
社会网络的巨大规模和复杂结构使得探索整个网络的社区结构的代价变得高昂。因此,着眼于网络局部结构特征的社区查询有着重要的应用意义。常见的社区查询算法易将与查询无关的子结构合并到目标社区中。利用Skip-gram模型将序列化后的社... 社会网络的巨大规模和复杂结构使得探索整个网络的社区结构的代价变得高昂。因此,着眼于网络局部结构特征的社区查询有着重要的应用意义。常见的社区查询算法易将与查询无关的子结构合并到目标社区中。利用Skip-gram模型将序列化后的社会网络映射到连续的向量空间以求解节点之间的相似度,并结合节点的度这个属性特征修正了原有的社区尺度,以此作为标准进行节点聚类,从而得到查询节点所属的社区结构。经过在真实数据集上的实验,改进的社区查询算法的准确性和查询一致性较已有算法有了较大提高。 展开更多
关键词 社区查询 局部社区发现 skip-gram模型 节点相似度
下载PDF
Skip-Gram模型融合词向量投影的微博新词发现 被引量:3
5
作者 于洁 《计算机系统应用》 2016年第7期130-136,共7页
随着微博等社交网络的普及,新词源源不断涌现,分词系统经常将新词错误切分为单字.新词发现已经成为中文自然语言处理领域的研究热点.现有新词识别方法依赖大规模语料统计数据,对低频新词识别能力差.本文提出一种扩展Skip-gram模型和词... 随着微博等社交网络的普及,新词源源不断涌现,分词系统经常将新词错误切分为单字.新词发现已经成为中文自然语言处理领域的研究热点.现有新词识别方法依赖大规模语料统计数据,对低频新词识别能力差.本文提出一种扩展Skip-gram模型和词向量投影方法,将两者结合后能缓解自然语言处理中常见的数据稀疏问题,有效识别低频新词,进而提高分词系统的准确率和召回率. 展开更多
关键词 skip-gram SOM 词向量 微博 新词发现
下载PDF
基于连续Skip-gram及深度学习的图像描述方法
6
作者 曹刘彬 张丽红 《测试技术学报》 2017年第5期423-427,共5页
图像描述生成依赖于词向量及其质量,为了进一步提高生成图像描述的准确率,本文将连续Skip-gram模型引入生成图像描述的框架中.该框架首先利用连续Skip-gram学习单词的分布式表示,产生高质量的词向量,降低了词向量的计算复杂度,然后利用... 图像描述生成依赖于词向量及其质量,为了进一步提高生成图像描述的准确率,本文将连续Skip-gram模型引入生成图像描述的框架中.该框架首先利用连续Skip-gram学习单词的分布式表示,产生高质量的词向量,降低了词向量的计算复杂度,然后利用区域卷积神经网络对图像进行目标检测及特征提取,最后将词向量与图像特征向量分别作为循环神经网络的输入向量以及偏置向量,进而输出图像描述.实验结果表明:与m-RNN模型、Neural Image Caption模型、多模态循环神经网络模型相比较,采用连续Skip-gram模型的图像描述框架提高了图像描述的准确率及该框架的泛化能力. 展开更多
关键词 深度学习 图像描述生成 skip-gram 词向量
下载PDF
基于Skip-Gram的恶意软件家族检测方法 被引量:1
7
作者 钟红月 彭元康 刘浩因 《办公自动化》 2021年第9期51-53,共3页
随着恶意代码可视化技术的发展,恶意代码的识别准确率有着明显提升,但仍存在部分变种恶意代码无法识别的问题。基于此,本文提出一种基于Skip-Gram模型的恶意代码灰度化改进方法,并构建了恶意代码分类模型。在模型构建中,首先,将恶意软... 随着恶意代码可视化技术的发展,恶意代码的识别准确率有着明显提升,但仍存在部分变种恶意代码无法识别的问题。基于此,本文提出一种基于Skip-Gram模型的恶意代码灰度化改进方法,并构建了恶意代码分类模型。在模型构建中,首先,将恶意软件提取十六进制Bytes文件采用跳字模型对文件字符进行向量化处理并完善数据特征信息;接着,利用完善后的数据矩阵得到恶意代码的灰度图像;最后,采用VGG16神经网络模型进行训练分析,以期提高恶意代码的识别率。实验结果表明,在同等条件下,传统单通道可视化的恶意代码识别模型准确率为92.17%,本文提出的可视化方法模型准确率为97.31%。 展开更多
关键词 恶意代码 VGG16模型 图像可视化 skip-gram模型
下载PDF
结合词嵌入技术的中文输入法词库取证模型研究
8
作者 王子昂 汤艳君 孙晓磊 《警察技术》 2024年第2期73-77,共5页
中文输入法软件在日常生活中的使用非常频繁,词库包含许多能够反应用户行为习惯的关键词。目前关于中文输入法词库的取证研究多为对词库中存储字词的提取与词频分析,并不能高效地为侦查人员提供案件相关线索。针对以上问题,提出了结合... 中文输入法软件在日常生活中的使用非常频繁,词库包含许多能够反应用户行为习惯的关键词。目前关于中文输入法词库的取证研究多为对词库中存储字词的提取与词频分析,并不能高效地为侦查人员提供案件相关线索。针对以上问题,提出了结合词嵌入技术的中文输入法词库取证模型,在输入法取证中使用Word2Vec算法中的Skip-Gram模型提取案件相关文本的词向量,并结合向量的关联性分析,补充字典。通过将基于该模型研发的取证工具与常见电子数据取证工具对同一检材的取证结果进行对比,可以验证模型相对高效地提取词库中与案件相关的关键词,为公安机关打击违法犯罪提供借鉴。 展开更多
关键词 词嵌入技术 中文输入法词库 电子数据取证 skip-gram模型
下载PDF
基于自然语言处理的建筑企业失信行为信息分类研究
9
作者 张振森 任宇轩 曹吉昌 《九江学院学报(自然科学版)》 CAS 2024年第3期99-105,109,共8页
为改善建筑信用管理中对信用信息的文档管理依赖人力劳动的现状,文章提出一种基于自然语言处理技术(NLP)的建筑企业失信行为信息文本分类方法。首先,基于Skip-Gram词向量模型利用已标注数据和大量无标注获取文本的词向量表示;其次,运用... 为改善建筑信用管理中对信用信息的文档管理依赖人力劳动的现状,文章提出一种基于自然语言处理技术(NLP)的建筑企业失信行为信息文本分类方法。首先,基于Skip-Gram词向量模型利用已标注数据和大量无标注获取文本的词向量表示;其次,运用融入注意力机制(attention-mechanism)的双向长短期记忆网络模型(BiLSTM)对已标注数据进行特征提取与文本分类。结果表明:在小样本训练中,使用较大的语料库训练词向量模型可有效提高文本分类模型的分类效果,BiLSTM-Attention模型的分类性能优于对照模型,基于NLP的文本分类方法能够实现对建筑企业失信行为信息的快速自动分类。 展开更多
关键词 失信行为信息 行政处罚 skip-gram词向量 注意力机制 文本分类
下载PDF
基于词向量的微博事件追踪方法 被引量:11
10
作者 张佳明 席耀一 +2 位作者 王波 唐浩浩 李天彩 《计算机工程与应用》 CSCD 北大核心 2016年第17期73-78,117,共7页
微博文本长度短,且网络新词层出不穷,使得传统方法在微博事件追踪中效果不够理想。针对该问题,提出一种基于词向量的微博事件追踪方法。词向量不仅可以计算词语之间的语义相似度,而且能够提高微博间语义相似度计算的准确率。该方法首先... 微博文本长度短,且网络新词层出不穷,使得传统方法在微博事件追踪中效果不够理想。针对该问题,提出一种基于词向量的微博事件追踪方法。词向量不仅可以计算词语之间的语义相似度,而且能够提高微博间语义相似度计算的准确率。该方法首先使用Skip-gram模型在大规模数据集上训练得到词向量;然后通过提取关键词建立初始事件和微博表示模型;最后利用词向量计算微博和初始事件之间的语义相似度,并依据设定阈值进行判决,完成事件追踪。实验结果表明,相比传统方法,该方法能够充分利用词向量引入的语义信息,有效提高微博事件追踪的性能。 展开更多
关键词 微博 事件追踪 短文本 skip-gram模型 词向量 语义信息
下载PDF
基于多元判别分析的汉语句群自动划分方法 被引量:4
11
作者 王荣波 李杰 +3 位作者 黄孝喜 周昌乐 谌志群 王小华 《计算机应用》 CSCD 北大核心 2015年第5期1314-1319,共6页
针对目前句群划分工作缺乏计算语言学数据支持、忽略篇章衔接词的问题以及当前篇章分析较少研究句群语法单位的现象,提出一种汉语句群自动划分方法。该方法以汉语句群理论为指导,构建汉语句群划分标注评测语料,并且基于多元判别分析(MDA... 针对目前句群划分工作缺乏计算语言学数据支持、忽略篇章衔接词的问题以及当前篇章分析较少研究句群语法单位的现象,提出一种汉语句群自动划分方法。该方法以汉语句群理论为指导,构建汉语句群划分标注评测语料,并且基于多元判别分析(MDA)方法设计了一组评价函数J,从而实现汉语句群的自动划分。实验结果表明,引入切分片段长度因素和篇章衔接词因素可以改善句群划分性能,并且利用Skip-Gram Model比传统的向量空间模型(VSM)有更好的效果,其正确分割率Pμ达到85.37%、错误分割率Window Diff降到24.08%。同时该方法在句群划分任务上有更大的优势,比传统MDA方法有更好的句群划分效果。 展开更多
关键词 汉语句群划分 多元判别分析 篇章分析 skip-gram模型 篇章衔接
下载PDF
面向社交网络的潜在药物不良反应发现 被引量:7
12
作者 赵明珍 林鸿飞 +1 位作者 徐博 郝辉辉 《中文信息学报》 CSCD 北大核心 2017年第5期194-202,共9页
随着互联网的发展,社交网络中积累了大量的医疗健康领域的文本数据。该文利用基于信息熵的方法,从健康社交网络中的用药者评论数据中识别药物的潜在不良反应;同时,对于潜在药物不良反应,该文提出了基于Word2vec和Skip-gram模型的蛋白质... 随着互联网的发展,社交网络中积累了大量的医疗健康领域的文本数据。该文利用基于信息熵的方法,从健康社交网络中的用药者评论数据中识别药物的潜在不良反应;同时,对于潜在药物不良反应,该文提出了基于Word2vec和Skip-gram模型的蛋白质关联紧密度函数,尽最大努力发现药物引起其"潜在"不良反应的证据链。实验证明,该方法用来寻求潜在药物不良反应证据链是有效的。 展开更多
关键词 社交网络 药物不良反应 信息熵 Word2vec skip-gram
下载PDF
专业社交媒体中的主题图谱构建方法研究——以汽车论坛为例 被引量:16
13
作者 林杰 苗润生 《情报学报》 CSSCI CSCD 北大核心 2020年第1期68-80,共13页
专业社交媒体中主题图谱的内容包括论坛中的主题及主题之间的关系,其具有挖掘专业产品创新方向、构建专业知识索引等重要应用价值。本文基于深度学习技术与文本挖掘技术,提出了专业社交媒体中的主题图谱构建方法。首先,使用专业社交媒... 专业社交媒体中主题图谱的内容包括论坛中的主题及主题之间的关系,其具有挖掘专业产品创新方向、构建专业知识索引等重要应用价值。本文基于深度学习技术与文本挖掘技术,提出了专业社交媒体中的主题图谱构建方法。首先,使用专业社交媒体中的文本训练Skip-Gram模型,利用该模型的隐藏层权重与模型输出的预测结果,分别获取词语间的语义相似度与上下文关联度。其次,基于该语义相似度与上下文关联度,对已有领域种子本体词汇进行扩充,将语义相似或上下文相邻近的词汇纳入本体词汇,为主题抽取提供高质量的领域词汇。然后,基于扩充的专业本体词汇,使用结合本体词汇的LDA主题模型从专业社交媒体文本中抽取主题与主题词。最后,利用语义相似度与上下文关联度,定义关联度权重,通过图模型与谱聚类,获取主题间与主题词的关联关系与层次结构。本文使用汽车论坛语料进行主题图谱生成实验。实验结果表明,本文方法获取的主题词纯净度相比单独使用LDA模型提升了20.2%,且能够清晰合理地展现主题之间的关系。 展开更多
关键词 专业社交媒体 主题图谱 skip-gram模型 LDA主题模型 图模型
下载PDF
基于图神经网络和通用漏洞分析框架的C类语言漏洞检测方法 被引量:4
14
作者 朱丽娜 马铭芮 朱东昭 《信息网络安全》 CSCD 北大核心 2022年第10期59-68,共10页
现有的自动化漏洞挖掘工具大多泛化能力较差,具有高误报率与漏报率。文章提出一种针对C类语言的多分类漏洞静态检测模型CSVDM。CSVDM运用代码相似性比对模块与通用漏洞分析框架模块从源码层面进行漏洞挖掘,代码相似性比对模块运用最长... 现有的自动化漏洞挖掘工具大多泛化能力较差,具有高误报率与漏报率。文章提出一种针对C类语言的多分类漏洞静态检测模型CSVDM。CSVDM运用代码相似性比对模块与通用漏洞分析框架模块从源码层面进行漏洞挖掘,代码相似性比对模块运用最长公共子序列(Longest Common Subsequence,LCS)算法与图神经网络对待检测源码与漏洞模板实施代码克隆与同源性检测,根据预设阈值生成漏洞相似度列表。通用漏洞分析框架模块对待检测源码进行上下文依赖的数据流与控制流分析,弥补了代码相似性比对模块在检测不是由代码克隆引起的漏洞时高假阴性的缺陷,生成漏洞分析列表。CSVDM综合漏洞相似度列表与漏洞分析列表,生成最终的漏洞检测报告。实验结果表明,CSVDM相较于Checkmarx等漏洞挖掘工具在评价指标方面有较大幅度提升。 展开更多
关键词 通用漏洞分析框架 LCS算法 skip-gram模型 图神经网络 图注意力机制
下载PDF
一种基于网络表示学习的miRNA-疾病关联预测方法 被引量:1
15
作者 耿霞 韩凯健 《计算机应用研究》 CSCD 北大核心 2021年第5期1365-1370,共6页
针对miRNA-疾病关联研究中信息使用不充分、过于依赖网络中节点的相似度信息以及预测准确度较低的问题,提出一种基于网络表示学习的miRNA-疾病关联预测方法(network representation learning miRNA-disease association,NRLMDA)。该方... 针对miRNA-疾病关联研究中信息使用不充分、过于依赖网络中节点的相似度信息以及预测准确度较低的问题,提出一种基于网络表示学习的miRNA-疾病关联预测方法(network representation learning miRNA-disease association,NRLMDA)。该方法通过引入长链非编码RNA(lncRNA)构造出miRNA-lncRNA-疾病异构网络,丰富原有网络的生物学信息;采用网络表征学习node2vec算法在上述提出的异构网络中以一定的游走策略获得节点的近邻序列,并通过skip-gram模型进行深度学习,从而获得节点的低维特征向量;最后基于miRNA-miRNA相似性的关联规则推断方法预测miRNA与疾病的关联。该方法能够挖掘出全局网络的拓扑结构特征,并且不需要负样本。NRLMDA在留一交叉验证和五折交叉验证以及进一步的案例研究上的实验结果优于经典方法。 展开更多
关键词 MIRNA node2vec算法 skip-gram模型
下载PDF
基于多种特征池化的中文文本分类算法 被引量:11
16
作者 阳馨 蒋伟 刘晓玲 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2017年第2期287-292,共6页
文本分类是文本挖掘的一个内容,在信息检索、邮件过滤及网页分类等领域有着广泛的应用价值.目前文本分类算法在特征表示上的信息仍然不足,对此本文提出了基于多种特征池化的文本分类算法.在该算法中,本文首先对分词后的文本采用skip-gra... 文本分类是文本挖掘的一个内容,在信息检索、邮件过滤及网页分类等领域有着广泛的应用价值.目前文本分类算法在特征表示上的信息仍然不足,对此本文提出了基于多种特征池化的文本分类算法.在该算法中,本文首先对分词后的文本采用skip-gram模型获取词向量,然后对整个文本的词向量进行多种池化,最后将多种池化的特征作为一个整体输入到Softmax回归模型中得到文本的类别信息.通过对复旦大学所提供的文本分类语料库(复旦)测试语料的实验,该结果表明,本文所给出的多种特征池化方法能够提高文本分类的准确率,证明了本文算法的有效性. 展开更多
关键词 中文文本分类 池化 分类算法 skip-gram Softmax
下载PDF
基于fastText模型的词向量表示改进算法 被引量:10
17
作者 阴爱英 吴运兵 +1 位作者 郑一江 余小燕 《福州大学学报(自然科学版)》 CAS 北大核心 2019年第3期314-319,共6页
传统词向量表示模型往往忽视了单词间的句法形态结构,导致模型预测准确率不高.为此,提出基于fastText模型的词向量表示改进算法.首先,在训练模型数据集上,引入stopwords处理技术,剔除一些无意义介词等对预测模型干扰,减少噪声数据;其次... 传统词向量表示模型往往忽视了单词间的句法形态结构,导致模型预测准确率不高.为此,提出基于fastText模型的词向量表示改进算法.首先,在训练模型数据集上,引入stopwords处理技术,剔除一些无意义介词等对预测模型干扰,减少噪声数据;其次,针对fastText模型中n-gram分解格式进行限定,将分解条件设置为符合英文单词的组成结构;最后,去除fastText模型中单词前后缀标记符,减少无用分解对模型预测产生干扰.实验结果表明,与fastText模型相比,所提出的改进模型在单词关系评分、语义相似性、句法相似性均取得较好的准确率. 展开更多
关键词 词向量 skip-gram模型 fastText模型 自然语言处理
下载PDF
Word2vec的核心架构及其应用 被引量:68
18
作者 熊富林 邓怡豪 唐晓晟 《南京师范大学学报(工程技术版)》 CAS 2015年第1期43-48,共6页
神经网络概率语言模型是一种新兴的自然语言处理算法,该模型通过学习训练语料获得词向量和概率密度函数,词向量是多维实数向量,向量中包含了自然语言中的语义和语法关系,词向量之间余弦距离的大小代表了词语之间关系的远近,词向量的加... 神经网络概率语言模型是一种新兴的自然语言处理算法,该模型通过学习训练语料获得词向量和概率密度函数,词向量是多维实数向量,向量中包含了自然语言中的语义和语法关系,词向量之间余弦距离的大小代表了词语之间关系的远近,词向量的加减代数运算则是计算机在"遣词造句".近年来,神经网络概率语言模型发展迅速,Word2vec是最新技术理论的合集.首先,重点介绍Word2vec的核心架构CBOW及Skip-gram;接着,使用英文语料训练Word2vec模型,对比两种架构的异同;最后,探讨了Word2vec模型在中文语料处理中的应用. 展开更多
关键词 自然语言处理 Word2vec CBOW skip-gram 中文语言处理
下载PDF
基于同质子图变换的异质网络表示学习 被引量:1
19
作者 尹赢 吉立新 +2 位作者 程晓涛 黄瑞阳 刘正铭 《计算机工程》 CAS CSCD 北大核心 2019年第11期204-212,共9页
目前针对信息网络的研究多数基于同质网络,关于异质信息网络的网络表示学习研究相对较少。为此,提出一种结合不同元路径将异质信息网络转化成带权同质子图的网络表示学习算法。基于不同元路径在同类节点间构建带权重的连边,从异质网络... 目前针对信息网络的研究多数基于同质网络,关于异质信息网络的网络表示学习研究相对较少。为此,提出一种结合不同元路径将异质信息网络转化成带权同质子图的网络表示学习算法。基于不同元路径在同类节点间构建带权重的连边,从异质网络中抽取出带权同质子图,通过带偏置的随机游走方式得到同类节点序列,并利用Skip-gram模型生成该类节点的表示向量。实验结果表明,与只考虑单一路径的算法相比,该算法处理节点分类、相似性搜索等数据挖掘任务时均能得到较好的效果。 展开更多
关键词 网络表示学习 异质网络 元路径 同质子图 随机游走 skip-gram模型
下载PDF
短文本信息流中的用户建模与应用 被引量:1
20
作者 李天彩 刘欣 +2 位作者 王波 席耀一 王晓雯 《信息工程大学学报》 2016年第2期225-230,共6页
社交媒体中存在着大量的短文本信息流,包含着丰富的用户信息。针对短文本信息流的特点,提出一种新的用户建模的方法。首先将用户发表的内容进行合并得到用户数据;然后将用户数据分割为固定长度的词链,在分割处添加用户名构造上下文关系... 社交媒体中存在着大量的短文本信息流,包含着丰富的用户信息。针对短文本信息流的特点,提出一种新的用户建模的方法。首先将用户发表的内容进行合并得到用户数据;然后将用户数据分割为固定长度的词链,在分割处添加用户名构造上下文关系;最后结合外部数据,使用Skip-gram模型进行训练得到用户的向量表示。基于用户向量的用户标签推荐和用户聚类方法在真实聊天记录语料进行实验中都取得了优于传统方法的结果。 展开更多
关键词 用户建模 用户向量 skip-gram模型 用户标签推荐 用户聚类
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部