期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于拼音相似度的中文谐音新词发现方法 被引量:2
1
作者 李瀚臣 张顺香 +1 位作者 朱广丽 王腾科 《计算机应用》 CSCD 北大核心 2023年第9期2715-2720,共6页
新词识别作为自然语言处理的基础任务之一,为构建中文词典、分析词语情感倾向等提供了支持。然而,目前的新词识别方法没有考虑针对谐音新词的识别,导致谐音新词识别的准确率不高。为了解决这一问题,提出一种基于拼音相似度的中文谐音新... 新词识别作为自然语言处理的基础任务之一,为构建中文词典、分析词语情感倾向等提供了支持。然而,目前的新词识别方法没有考虑针对谐音新词的识别,导致谐音新词识别的准确率不高。为了解决这一问题,提出一种基于拼音相似度的中文谐音新词发现方法,引入新旧词拼音比较来提高谐音新词识别的准确率。首先,对文本进行预处理,计算平均互信息(AMI)以判定候选词的内部结合度,并使用改进邻接熵确定候选新词的边界;然后,将保留下的词转换成发音相近的汉语拼音与中文词典中的旧词拼音进行相似度比较,并保留最相似的比较结果;最后,若比较结果超过阈值,则将结果中的新词作为谐音新词,对应的旧词即为谐音新词的原有词。在自建的微博数据集上的实验结果表明,与BNshCNs(Blended Numeric and symbolic homophony Chinese Neologisms)、依存句法与语义信息结合的相似性计算模型(DSSCNN)相比,所提方法的准确率、召回率和F1分数分别提高了0.51和5.27个百分点、2.91和6.31个百分点以及1.75和5.81个百分点。可见所提方法具有更好的中文谐音新词识别效果。 展开更多
关键词 谐音新词 新词识别 拼音相似 平均互信息 邻接熵
下载PDF
云存储中基于拼音相似度的密文模糊搜索方案
2
作者 黄保华 吕琦 莫家威 《计算机工程》 CAS CSCD 北大核心 2019年第1期103-108,共6页
中文关键词模糊密文搜索方案依赖预定义的关键词模糊集,存在搜索复杂度高和存储空间大等不足。为此,提出一种应用于云存储的基于拼音相似度的多关键词密文模糊搜索方案。运用拼音相似度和欧氏距离衡量汉字的相似度,以布隆过滤器为基础,... 中文关键词模糊密文搜索方案依赖预定义的关键词模糊集,存在搜索复杂度高和存储空间大等不足。为此,提出一种应用于云存储的基于拼音相似度的多关键词密文模糊搜索方案。运用拼音相似度和欧氏距离衡量汉字的相似度,以布隆过滤器为基础,利用p-稳定分布的局部哈希函数构造索引,实现多个中文关键词的密文模糊搜索。实验结果表明,与基于关键词的加密云数据模糊搜索方案相比,该方案搜索效率较高,存储代价较小,且能够保证信息安全。 展开更多
关键词 云存储 拼音相似 布隆过滤器 局部敏感哈希 模糊搜索 加密查询
下载PDF
MFCCs和DTW在拼音相似度中的研究
3
作者 徐扬 张嘉宝 +2 位作者 杨满玉 李晶 聂云丽 《电脑知识与技术》 2022年第14期1-4,8,共5页
汉语拼音的模糊匹配在关键词匹配、语音纠错等场景占据着重要地位,而传统的模糊匹配方法无法计算不同声母、韵母之间的听觉相似度,只能简单地将其作为相同和不同的两种情形处理,这在实际使用中,容易受方言、发音习惯等因素影响匹配正确... 汉语拼音的模糊匹配在关键词匹配、语音纠错等场景占据着重要地位,而传统的模糊匹配方法无法计算不同声母、韵母之间的听觉相似度,只能简单地将其作为相同和不同的两种情形处理,这在实际使用中,容易受方言、发音习惯等因素影响匹配正确率。文章针对该问题,提出了一种基于梅尔频率倒谱系数(MFCCs)和加入惩罚系数的动态时间序列规整(DTW)的方法,计算汉语拼音中各部分的相似度。MFCCs能够提取声音频谱中符合人耳听觉特性的特征,而DTW方法能够计算时间序列的相似度。根据实验表明,该方法能较好地区分出汉语拼音中发音相似的音标,能够提高各种拼音模糊匹配场景的匹配性能和准确率。 展开更多
关键词 拼音模糊匹配 拼音相似 梅尔频率倒谱系数 动态时间序列规整
下载PDF
基于谐音干扰词替换的中文仇恨言论检测方法
4
作者 王琰慧 王小龙 +2 位作者 张顺香 周渝皓 汪才钦 《应用科技》 CAS 2024年第3期72-81,共10页
社交网络中的仇恨言论常含有形式多变的谐音干扰词,使得现有方法难以适应此现象,不能满足即时检测的要求。针对此问题,提出一种基于谐音干扰词替换的中文仇恨言论检测方法,提取原义词替换谐音干扰词,解决原有方法处理相对滞后问题。首先... 社交网络中的仇恨言论常含有形式多变的谐音干扰词,使得现有方法难以适应此现象,不能满足即时检测的要求。针对此问题,提出一种基于谐音干扰词替换的中文仇恨言论检测方法,提取原义词替换谐音干扰词,解决原有方法处理相对滞后问题。首先,对文本预处理,通过N-gram提取干扰词候选项,并利用点间互信息和邻接熵进行过滤;然后,计算拼音相似度筛选出谐音干扰词及其对应的候选原义词,通过语法结构和上下文语义相似确定原义词并对相应谐音干扰词进行替换,将替换后的文本作为分类层输入;最后,使用RoBERTa-wmm-ext得到语义特征,并通过Softmax计算仇恨情感倾向以实现检测任务。在数据集上进行实验,结果表明提出的模型有效地提升中文仇恨言论的检测效果。 展开更多
关键词 仇恨言论检测 谐音干扰词 拼音相似 语法结构 上下文语义 RoBERTa-wmm-ext CNN N-GRAM
下载PDF
面向新闻语料的中日命名实体翻译抽取 被引量:3
5
作者 尹存燕 黄书剑 +1 位作者 戴新宇 陈家骏 《小型微型计算机系统》 CSCD 北大核心 2015年第6期1393-1397,共5页
命名实体翻译可以有效地提高跨语言信息检索、统计机器翻译等系统的性能.双语新闻语料包含了丰富的命名实体,利用统计方法可以从中抽取出命名实体翻译.基于中日双语新闻语料,对中日命名实体的翻译特征进行了分析,基于这些特征,提出一种... 命名实体翻译可以有效地提高跨语言信息检索、统计机器翻译等系统的性能.双语新闻语料包含了丰富的命名实体,利用统计方法可以从中抽取出命名实体翻译.基于中日双语新闻语料,对中日命名实体的翻译特征进行了分析,基于这些特征,提出一种中日双语命名实体翻译自动抽取的方法,该方法融合了中日汉字翻译概率、片假名词汇和中文音译词汇的拼音相似度以及双语词汇共现等特征.实验表明本文方法充分利用这些特征,在语料规模不大的情况下,也可以取得较好的效果. 展开更多
关键词 命名实体 双语语料 对齐模型 拼音相似 词汇共现
下载PDF
一种改进的基于Web的新闻视频内容语义分析方法 被引量:1
6
作者 焦黎冰 封化民 +1 位作者 何文才 李雪龙 《江西师范大学学报(自然科学版)》 CAS 北大核心 2008年第2期148-152,共5页
视频内容安全分析是多媒体内容安全的重要研究领域和热点问题.该文针对视频ASR识别精度不高的问题,提出一种改进的基于Web的新闻视频内容语义分析方法.该方法根据脚本在语音上的相似性来优化语义关键词,然后利用Web获得较为准确的新闻... 视频内容安全分析是多媒体内容安全的重要研究领域和热点问题.该文针对视频ASR识别精度不高的问题,提出一种改进的基于Web的新闻视频内容语义分析方法.该方法根据脚本在语音上的相似性来优化语义关键词,然后利用Web获得较为准确的新闻视频内容语义.通过对TRECVID2005内中文新闻视频CCTV4-NEWS进行的实验表明,提出的方法是可行的. 展开更多
关键词 视频分割 语义关键词 拼音相似
下载PDF
一种Web新闻视频内容语义分析
7
作者 焦黎冰 封化民 +1 位作者 何文才 李雪龙 《北京电子科技学院学报》 2008年第4期43-48,42,共7页
视频内容安全分析,是多媒体内容安全的重要研究领域和热点问题。本文提出一种Web新闻视频内容语义分析方法,该方法在新闻视频故事单元分割的基础上,根据ASR(Automatic Speech Recognition)识别的脚本在语音上的相似性,通过计算拼音相似... 视频内容安全分析,是多媒体内容安全的重要研究领域和热点问题。本文提出一种Web新闻视频内容语义分析方法,该方法在新闻视频故事单元分割的基础上,根据ASR(Automatic Speech Recognition)识别的脚本在语音上的相似性,通过计算拼音相似度的方法来获取语义关键词。然后,利用Web获得与脚本相似的网页,从而得到新闻片段比较准确的内容语义。通过对TRECVID2005内中文新闻视频CCTV4_NEWS进行的实验表明,提出的方法是可行的。 展开更多
关键词 视频分割 搜索关键词 拼音相似
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部