期刊文献+
共找到45篇文章
< 1 2 3 >
每页显示 20 50 100
基于小规模尾字特征的中文命名实体识别研究 被引量:26
1
作者 冯元勇 孙乐 +1 位作者 张大鲲 李文波 《电子学报》 EI CAS CSCD 北大核心 2008年第9期1833-1838,共6页
本文针对难度最大的两类命名实体(地名和机构名)在条件随机场框架下首次引入了小规模的常用尾字特征.实验表明,该特征与词类特征具有一定的互补性,联合使用可以以较小的训练代价显著提高专有名词的识别性能,特别是机构名的识别精度.该... 本文针对难度最大的两类命名实体(地名和机构名)在条件随机场框架下首次引入了小规模的常用尾字特征.实验表明,该特征与词类特征具有一定的互补性,联合使用可以以较小的训练代价显著提高专有名词的识别性能,特别是机构名的识别精度.该系统在我国863简体命名实体识别评测语料上专名(人名、地名和机构名)总体F1值达88.76%,超过当年最佳系统8.63个百分点.在SIGHAN 2006命名实体识别语料上的结果也居于前列. 展开更多
关键词 中文命名实体识别 小规模尾字特征 条件随机场 自然语言处理 机器学习
下载PDF
融合字特征的平滑最大熵模型消解交集型歧义 被引量:3
2
作者 任惠 林鸿飞 杨志豪 《中文信息学报》 CSCD 北大核心 2010年第4期18-24,共7页
交集型歧义的切分问题是分词阶段需要解决难点之一。该文将交集型歧义的消解问题转化为分类问题,并利用融合丰富字特征的最大熵模型解决该问题,为了克服最大熵建模时的数据稀疏问题,该文引入了不等式平滑技术和高斯平滑技术。我们在第... 交集型歧义的切分问题是分词阶段需要解决难点之一。该文将交集型歧义的消解问题转化为分类问题,并利用融合丰富字特征的最大熵模型解决该问题,为了克服最大熵建模时的数据稀疏问题,该文引入了不等式平滑技术和高斯平滑技术。我们在第二届国际分词竞赛的四个数据集上比较了高斯平滑技术、不等式平滑技术和频度折扣平滑技术,测试结果表明:不等式平滑技术和高斯平滑技术比频度折扣技术有显著提高,而它们之间不分伯仲,但是不等式平滑技术能使特征选择无缝嵌入到参数估计过程中,显著压缩模型规模。该方法在四个测试集上最终获得了96.27%、96.83%、96.56%、96.52%的消歧正确率,对比实验表明:丰富的特征使消歧性能分别提高了5.87%、5.64%、5.00%、5.00%,平滑技术使消歧性能分别提高了0.99%、0.93%、1.02%、1.37%,不等式平滑使分类模型分别压缩了38.7、19.9、44.6、9.7。 展开更多
关键词 计算机应用 中文信息处理 分词 交集型歧义 融合丰富字特征 最大熵模型 平滑技术
下载PDF
基于字特征的短信分类方法研究 被引量:2
3
作者 崔彩霞 《太原师范学院学报(自然科学版)》 2011年第1期103-105,共3页
随着商业广告短信、色情短信、骚扰短信等通过手机不断地蔓延,严重地影响了人们日常生活和社会的稳定.因此短信分类已经成为自然语言处理的一个重要领域.分析了近年来垃圾短信内容的发展,提出了一种基于字特征的短信分类方法.实验结果表... 随着商业广告短信、色情短信、骚扰短信等通过手机不断地蔓延,严重地影响了人们日常生活和社会的稳定.因此短信分类已经成为自然语言处理的一个重要领域.分析了近年来垃圾短信内容的发展,提出了一种基于字特征的短信分类方法.实验结果表明,和词特征相比,该方法使有用短信的错判率有了明显的降低.总之,字特征用于短信分类是可行的. 展开更多
关键词 短信分类 字特征 KNN方法
下载PDF
中文口语语言理解中依赖引导的字特征槽填充模型 被引量:3
4
作者 朱展标 黄沛杰 +4 位作者 张业兴 刘树东 张华林 黄均曜 林丕源 《中文信息学报》 CSCD 北大核心 2022年第8期118-126,共9页
意图识别和槽信息填充的联合模型将口语语言理解(Spoken Language Understanding,SLU)技术提升到了一个新的水平,但由于存在出现频率低或未见过的槽指称项(0-shot slot mentions),模型的序列标注性能受限,而且这些联合模型往往没有利用... 意图识别和槽信息填充的联合模型将口语语言理解(Spoken Language Understanding,SLU)技术提升到了一个新的水平,但由于存在出现频率低或未见过的槽指称项(0-shot slot mentions),模型的序列标注性能受限,而且这些联合模型往往没有利用输入序列存在的语法知识信息。已有研究表明,序列标注任务可以通过引入依赖树结构,辅助推断序列标注中槽的存在。由于中文话语由一串字序列组成,在中文口语语言理解中,输入话语的字和槽信息是一一对应的,因而槽信息填充模型往往是字特征模型。基于词的依赖树结构无法直接应用于基于字特征的槽填充模型。为了解决字词之间的矛盾,该文提出了一种基于字模型的依赖引导槽填充模型(Dependency-guided Character-based Slot Filling model,DCSF),提供一种简洁的方法用于解决将词级依赖树结构引入中文字特征模型的冲突,同时通过对话语中词汇内部关系进行建模,保留了词级上下文信息和分词信息。在公共基准语料库SMP-ECDT和CrossWOZ上的实验结果表明,该模型优于比较模型,特别是在未见过的槽指称项和低资源情况下有很大的改进。 展开更多
关键词 口语对话理解 槽信息填充 依赖结构 字特征模型
下载PDF
《北庄子汉墓石刻》文字结字特征及应用价值研究
5
作者 王伟卿 孙胜楠 《河北画报》 2022年第16期25-29,共5页
定州北庄子汉墓石刻作为东汉时期皇室墓葬用石,其具备一定的书法典范价值。在这些书写作者中,不仅有齐鲁地区文化程度高的工匠乃至部分低层官吏的书迹,还有一些偏远地区工匠率意性的书写,为东汉书法的发展提供了多样性的参考。对今天的... 定州北庄子汉墓石刻作为东汉时期皇室墓葬用石,其具备一定的书法典范价值。在这些书写作者中,不仅有齐鲁地区文化程度高的工匠乃至部分低层官吏的书迹,还有一些偏远地区工匠率意性的书写,为东汉书法的发展提供了多样性的参考。对今天的学书者而言,这一多样性的书法结字表现无疑是突破两汉典范性、程式化书写的关键,为当代书法的创新提供了丰富的借鉴价值。 展开更多
关键词 汉墓石刻 字特征 书法发展
下载PDF
融合字词特征的互联网敏感言论识别研究
6
作者 闫尚义 王靖亚 +2 位作者 朱少武 崔雨萌 陶知众 《计算机工程与应用》 CSCD 北大核心 2023年第13期129-138,共10页
互联网敏感言论与普通言论之间存在显著差异,为规避过滤规则,其语义较为隐晦,一词多义现象频出,不规范程度较高。为高效识别互联网中的敏感言论并对其进行准确分类,针对敏感言论的特点与现有模型的缺点,对文本卷积神经网络进行了改进,结... 互联网敏感言论与普通言论之间存在显著差异,为规避过滤规则,其语义较为隐晦,一词多义现象频出,不规范程度较高。为高效识别互联网中的敏感言论并对其进行准确分类,针对敏感言论的特点与现有模型的缺点,对文本卷积神经网络进行了改进,结合ALBERT(a Lite BERT)动态字级编码模型、文本卷积神经网络、多头自注意力机制与门控机制的优势,提出了一种融合字词特征的双通道分类模型ALBERT-CCMHSAG。该模型将文本的字级与词级语义信息、局部关键特征与上下文语义进行了充分提取与融合,以此提升敏感言论的分类效果。ALBERTCCMHSAG模型在敏感言论数据集上、噪声敏感言论数据集、小样本敏感言论数据集上的表现均为最优,证明了该模型对敏感言论识别与分类能力更强,能应对噪声数据与适应训练数据不足的情况,鲁棒性更强。在酒店评论数据集上,该模型的性能同样优于对比模型,证明了模型在其他语料上也很可能具有优异表现。 展开更多
关键词 敏感言论识别 字特征 特征 多头自注意力机制 门控机制
下载PDF
一种基于特征字的FTP协议识别方法研究 被引量:3
7
作者 王景中 王伟萌 《信息网络安全》 2015年第7期26-31,共6页
互联网的普及与发展,带动了互联网宽带业务的发展,同时把网络监管技术推向业界人士关注的视野中。网络监管部门和网络服务提供商需要通过网络监管技术来准确了解日趋复杂庞大的互联网流量。随着互联网技术的发展,一些传统网络监管技术... 互联网的普及与发展,带动了互联网宽带业务的发展,同时把网络监管技术推向业界人士关注的视野中。网络监管部门和网络服务提供商需要通过网络监管技术来准确了解日趋复杂庞大的互联网流量。随着互联网技术的发展,一些传统网络监管技术逐渐失去原有作用。其中,现有网络FTP业务采用传统端口识别技术已经无法准确有效地判别出FTP协议。文章提出一种基于特征字的FTP协议识别方法,用以识别流经现有网络的FTP数据包,并准确检测出FTP协议。文章同时提出一种结合FTP协议默认端口识别与FTP协议特征字识别的方案,联合两种识别方法检测FTP流量。相比采用单一FTP协议默认端口识别方法,在不影响识别效率的情况下,联合识别方法提高了FTP协议识别准确性;相比采用单一FTP协议特征字识别方法,在不影响识别准确性的情况下,联合识别方法提高了识别效率。文章最后提出一种自动提取FTP特征的方法,用于对FTP协议自动进行分类。 展开更多
关键词 FTP协议 协议识别 特征检测 协议自动分类
下载PDF
笔迹字间距特征量化检验的统计方法 被引量:1
8
作者 王相臣 王帅帅 《四川警察学院学报》 2017年第4期87-93,共7页
字间距特征是笔迹中可以进行客观测量的一类特征,对字间距特征的比对检验可以转化为双样本均值和方差的一致性检验问题。借助概率论和数理统计中的假设检验和方差分析等方法判断检材与样本的字间距特征是否具有显著性差别,从而实现对字... 字间距特征是笔迹中可以进行客观测量的一类特征,对字间距特征的比对检验可以转化为双样本均值和方差的一致性检验问题。借助概率论和数理统计中的假设检验和方差分析等方法判断检材与样本的字间距特征是否具有显著性差别,从而实现对字间距特征的量化检验,并通过小样本实验对该方法进行实验研究,经实验分析从10个样本中排除掉7个样本并保留了目标样本,从而证明了该方法的可行性。 展开更多
关键词 笔迹 间距特征 量化 假设检验
下载PDF
特征字数据流方法在信号源多目标生成系统中应用
9
作者 姜永华 凌祥 曲洪东 《电子测量技术》 2004年第2期29-30,共2页
介绍特征字数据流方法的原理及其在信号源多目标生成系统中的实现方法。重点描述基于 TMS320VC5402 和双口RAM 的系统设计方案,并详细分析电路的功能。
关键词 特征数据流 信号源 多目标生成系统 TMS320VC5402 双口RAM
下载PDF
基于字位置概率特征的条件随机场中文分词方法 被引量:5
10
作者 沈勤中 周国栋 +2 位作者 朱巧明 孔芳 丁金涛 《苏州大学学报(自然科学版)》 CAS 2008年第3期49-54,共6页
将分词看成是一个对汉字进行分类的过程,然后利用条件随机场(CRFs)模型对每个汉字进行标记,最后转换为相应的分词结果.在现有CRFs模型的基础上,从字的构词能力角度出发,探索了字位置概率特征,提出了基于字位置概率特征的条件随机场中文... 将分词看成是一个对汉字进行分类的过程,然后利用条件随机场(CRFs)模型对每个汉字进行标记,最后转换为相应的分词结果.在现有CRFs模型的基础上,从字的构词能力角度出发,探索了字位置概率特征,提出了基于字位置概率特征的条件随机场中文分词方法.实验表明,字位置概率特征的引入,使得结果F1值提高了3.5%,达到94.5%. 展开更多
关键词 中文分词 条件随机场 位置概率特征
下载PDF
移动CMC中的数字话语字系特征研究 被引量:1
11
作者 李思静 翁克山 《海南大学学报(人文社会科学版)》 CSSCI 2020年第4期129-135,共7页
对移动CMC(计算机中介通信)中的数字话语进行文体特征分析研究,具有重要的社会语言学研究意义。本研究以40名非英语专业研究生在移动英语论坛中输出的短信息为数字话语语料,以本研究构建的"移动CMC数字话语字系特征分析工具"... 对移动CMC(计算机中介通信)中的数字话语进行文体特征分析研究,具有重要的社会语言学研究意义。本研究以40名非英语专业研究生在移动英语论坛中输出的短信息为数字话语语料,以本研究构建的"移动CMC数字话语字系特征分析工具"对其字系特征进行质性和量化分析。研究发现,这种数字话语具有19种典型字系特征,且大部分为文体失范或偏误的特征,表明这种数字话语存在显著的语言异变现象。但受试输出的文本信息含词量越多、句法复杂度越高,则不规范字系特征出现概率将相应降低。整体而言,这种数字话语具有"简约"与"繁琐"共存、"规范性"与"非规范性"并举的文体学特征。 展开更多
关键词 特征 文体 话语 移动计算机中介通信
下载PDF
融合字位置特征的铁路事故命名实体识别 被引量:3
12
作者 陈业明 戴齐 刘捷 《计算机系统应用》 2022年第12期211-219,共9页
铁路事故的相关信息以事故概况文本的形式存在,对于铁路安全工作有重要意义.但由于缺乏有效的信息抽取手段,导致分散在文本中的铁路事故知识没有得到充分的利用.命名实体识别是信息抽取的重要子任务,目前关于事故领域的命名实体识别问... 铁路事故的相关信息以事故概况文本的形式存在,对于铁路安全工作有重要意义.但由于缺乏有效的信息抽取手段,导致分散在文本中的铁路事故知识没有得到充分的利用.命名实体识别是信息抽取的重要子任务,目前关于事故领域的命名实体识别问题研究较少.针对铁路事故命名实体识别问题,提出一种融合字位置特征的命名实体识别模型,该模型通过全连接神经网络获取字的位置特征,并与语义层面的字向量合并作为字的最终向量表示输入BiLSTM-CRF模型获取最优标签序列.实验结果表明,模型在铁路事故文本命名实体识别问题上的准确率、召回率和F1值分别为93.29%、94.77%和94.02%,相比于传统模型,取得了更好的效果,为铁路事故知识图谱的构建奠定基础. 展开更多
关键词 命名实体识别 铁路事故 位置特征 双向长短期记忆网络(BiLSTM) 条件随机场 知识图谱 自然语言处理
下载PDF
基于HTTP协议特征字的识别研究 被引量:3
13
作者 吴欢 宋力 刘遇哲 《计算机与网络》 2015年第9期32-35,共4页
在网络应用日益膨胀的互联网时代,HTTP协议凭借自身众多的优点,应用于大部分的网络应用中,如何通过协议的载荷特征字识别出应用,是当前DPI面临的重要挑战。针对这个挑战,在当前采用的识别技术基础上,对软件更新类应用的识别方法进行了... 在网络应用日益膨胀的互联网时代,HTTP协议凭借自身众多的优点,应用于大部分的网络应用中,如何通过协议的载荷特征字识别出应用,是当前DPI面临的重要挑战。针对这个挑战,在当前采用的识别技术基础上,对软件更新类应用的识别方法进行了简要介绍,主要解决识别过程中识别率低和出现误识别2个问题,采用优化后的特征匹配顺序和资源方法顺序相结合的方法,进行应用识别测试,通过对比前后的测试结果,从而论证特征匹配顺和资源方法顺序的合理性以及识别方法的科学性。 展开更多
关键词 特征 特征匹配 资源方法 识别率 误识别 DPI HTTP
下载PDF
最简方案理论下汉语无标记项‘被’字句的分析
14
作者 王喜霞 《湖南医科大学学报(社会科学版)》 2007年第3期86-88,共3页
根据形式主义语言学,英语被动句产生于动词被动化和名词提升这一机制。这种机制也应用于汉语“被”字句的生成(无标记项)。在本文的分析当中,采用了最简方案中的一些规则诸如动词套组结构等。本文比较了不同流派对“被”字特征的不... 根据形式主义语言学,英语被动句产生于动词被动化和名词提升这一机制。这种机制也应用于汉语“被”字句的生成(无标记项)。在本文的分析当中,采用了最简方案中的一些规则诸如动词套组结构等。本文比较了不同流派对“被”字特征的不同看法,通过使用句法理论当中的“画树”澄清了“被”字的功能特征,将其定性为次动词——即功能介于介词和动词之间的一类词。 展开更多
关键词 格理论 格核查 域外论元 域内论元 字特征 动词词组套组结构 最简方案
下载PDF
从手写汉字识别系统的技术方法中探讨计算机笔迹鉴别的一些途径 被引量:3
15
作者 艾小伟 吴小平 +1 位作者 王金林 付松 《河北公安警察职业学院学报》 2005年第3期22-26,共5页
本文介绍了目前国内手写汉字识别研究的现状、存在的困难、识别的过程及其技术路线和方法,探讨了计算机笔迹鉴别智能系统应包含的主要内容及其研发途径。
关键词 手写汉识别 笔迹鉴别智能系统 特征挑选 笔迹特征提取 特征价值 样品
下载PDF
汉字记忆中错误联接的码相加效应
16
作者 王红椿 刘鸣 张积家 《心理与行为研究》 CSSCI 2009年第3期213-218,共6页
采用错误联接的实验范式考察汉字记忆中的码相加效应。实验1采用形码加义码,结果发现对义似形似组的特征诱字错误再认率显著高于义异形似组的。实验2采用形码加音码,结果发现对音似形似组的诱字的错误再认率显著高于音异形似组的。研究... 采用错误联接的实验范式考察汉字记忆中的码相加效应。实验1采用形码加义码,结果发现对义似形似组的特征诱字错误再认率显著高于义异形似组的。实验2采用形码加音码,结果发现对音似形似组的诱字的错误再认率显著高于音异形似组的。研究表明汉语记忆中的错误联接存在码相加效应。研究结果可用激活混淆来源理论解释。 展开更多
关键词 错误联结 特征 码相加效应 SAC模型
下载PDF
汉字字形与语篇衔接
17
作者 曹德和 王卫兵 《贵州工程应用技术学院学报》 2020年第6期1-8,共8页
借助汉字字形方面的信息联系,以建构或加强语篇的内部衔接,乃是汉语语用字用的老传统。近年来随着网络交流的普及化和频繁化,这一老传统又有了新发展。前述老传统及其新发展主要体现在字谜创作中,以及主要体现在带有游戏性质的对联和具... 借助汉字字形方面的信息联系,以建构或加强语篇的内部衔接,乃是汉语语用字用的老传统。近年来随着网络交流的普及化和频繁化,这一老传统又有了新发展。前述老传统及其新发展主要体现在字谜创作中,以及主要体现在带有游戏性质的对联和具有幽默色彩的话语的创作中。就此开展专题研究,有助于揭示其中的语用字用规律,有助于加深对于汉语语用字用文化特征的认识。 展开更多
关键词 形与衔接 汉语语用用规律 汉语语用用文化特征
下载PDF
商代甲金文中“天”字构形及用法小考
18
作者 王蕴智 赵伟 《中国文字研究》 2020年第2期1-9,共9页
殷墟甲骨卜辞中的天字具有不同的典型写法,大体可划分出四种特征字形。A形主要用作地名“天邑商”之天;B形主要用作“朕天”之天,指人首之颠;C形与商代金文族徽名用法相当,主要用作族氏名;D形主要用表祭祀对象“天某”之天。“天”或为... 殷墟甲骨卜辞中的天字具有不同的典型写法,大体可划分出四种特征字形。A形主要用作地名“天邑商”之天;B形主要用作“朕天”之天,指人首之颠;C形与商代金文族徽名用法相当,主要用作族氏名;D形主要用表祭祀对象“天某”之天。“天”或为“天某”之简称,这种用法特指祖先神,而不是天神。 展开更多
关键词 商代 特征 用法
下载PDF
基于字频统计和数据挖掘技术的不良网页过滤模式的构建与应用
19
作者 唐坚刚 熊国萍 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2007年第A02期69-71,共3页
为快速有效地过滤不良网页以保障校园网信息安全,创造性地提出了一个基于字频统计和数据挖掘技术的不良网页过滤模式,通过自适应样本库构建不良类类别特征字库,并以此为基础构建智能化的不良类类别模式,用以实现不良网页的过滤.实验表明... 为快速有效地过滤不良网页以保障校园网信息安全,创造性地提出了一个基于字频统计和数据挖掘技术的不良网页过滤模式,通过自适应样本库构建不良类类别特征字库,并以此为基础构建智能化的不良类类别模式,用以实现不良网页的过滤.实验表明,该模式能以较快的速度和较高的准确率过滤测试文档集中的不良网页. 展开更多
关键词 网页过滤 频统计 特征 数据挖掘
下载PDF
P2P软件流量特征比对提取技术
20
作者 谢延 田蔚蔚 《广东通信技术》 2011年第11期14-17,共4页
文章综述了现有网络流量的识别方法,然后提出通过比对法获取P2P流媒体软件流量的特征字,并在此基础上提出了一些未来的展望。
关键词 特征P2P流媒体软件流量 流识别
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部