期刊文献+
共找到24篇文章
< 1 2 >
每页显示 20 50 100
Word 2007文件雕复方法研究 被引量:4
1
作者 张海平 林蔚 徐明 《杭州电子科技大学学报(自然科学版)》 2012年第3期49-52,共4页
目前在字处理领域中占有优势地位的Microsoft Word文件是一种重要的数字证据来源,因此开展针对Word文件雕复技术的研究是非常必要的。该文在研究Word 2007文件结构特点和内容特征的基础上,结合已有的雕复技术,提出了一个新的Word 2007... 目前在字处理领域中占有优势地位的Microsoft Word文件是一种重要的数字证据来源,因此开展针对Word文件雕复技术的研究是非常必要的。该文在研究Word 2007文件结构特点和内容特征的基础上,结合已有的雕复技术,提出了一个新的Word 2007文件雕复方法,该方法可以雕复二分片、非关键部位数据损坏或丢失的word 2007文件。在实际磁盘数据集上的对比实验表明该雕复算法与同类算法相比具有更好的准确性。研究成果期望为进一步发展文件雕复技术提供一种新的思路,也为实现更加实用的数据恢复系统打下基础。 展开更多
关键词 文件雕复 字处理 分片
下载PDF
基于图文多模态融合的文档片段语义相似度判定算法
2
作者 潘媛 梁国迪 +1 位作者 邵馨叶 李芹 《电子设计工程》 2024年第3期106-109,114,共5页
为使网络主机的差异性赋值能力得到保障,实现对相似性文档片段语义信息的准确判别,提出基于图文多模态融合的文档片段语义相似度判定算法。在多模态融合条件的基础上,联合图像区域检测结果、文本区域检测结果,建立完整的词袋模型,实现... 为使网络主机的差异性赋值能力得到保障,实现对相似性文档片段语义信息的准确判别,提出基于图文多模态融合的文档片段语义相似度判定算法。在多模态融合条件的基础上,联合图像区域检测结果、文本区域检测结果,建立完整的词袋模型,实现基于图文多模态融合的文档片段标注。根据文本数据预处理条件,确定关键词权值指标,联合已知文档片段语义信息,求取相似性度量值的准确计算结果,完成文档片段语义相似度判定算法的设计。对比实验结果可知,在图文多模态融合技术的支持下,差异性赋值指标的平均值达到了1.0,对于网络主机而言,其在准确判别相似性文档片段语义信息方面的应用能力得到了保障。 展开更多
关键词 图文多模态融合 文档片段 语义相似度 词袋模型 关键词权值 差异性赋值
下载PDF
基于词片的语言模型及在汉语语音检索中的应用 被引量:5
3
作者 郑铁然 韩纪庆 李海洋 《通信学报》 EI CSCD 北大核心 2009年第3期84-88,共5页
在汉语语音检索研究中,为充分利用汉语中音节相互搭配的语言学知识,提出了一种新的汉语语言模型构造基元——"词片"(word fragment),研究了最佳词片选择算法。汉语语音识别实验和语音检索实验表明,采用基于词片的语音模型后,... 在汉语语音检索研究中,为充分利用汉语中音节相互搭配的语言学知识,提出了一种新的汉语语言模型构造基元——"词片"(word fragment),研究了最佳词片选择算法。汉语语音识别实验和语音检索实验表明,采用基于词片的语音模型后,音节正确率有所提高,并取得了更好的语音检索性能。 展开更多
关键词 汉语语音检索 语言模型 词片 互信息
下载PDF
改进的正向最大匹配分词算法 被引量:11
4
作者 张彩琴 袁健 《计算机工程与设计》 CSCD 北大核心 2010年第11期2595-2597,2633,共4页
为了降低正向最大匹配分词算法的切分错误率,分析了产生这个错误率的原因,提出了一种改进的正向最大匹配分词算法,即增加一个交集型歧义字段处理模块。该方法对待切文本进行预处理,在传统正向最大匹配的过程中,调用交集型歧义字段处理模... 为了降低正向最大匹配分词算法的切分错误率,分析了产生这个错误率的原因,提出了一种改进的正向最大匹配分词算法,即增加一个交集型歧义字段处理模块。该方法对待切文本进行预处理,在传统正向最大匹配的过程中,调用交集型歧义字段处理模块,该模块主要是在每一次正向匹配后进行回溯匹配,即通过检测当前处理词条的尾字和下一字的成词情况,分别计算该尾字和不含该字的当前处理词条的互信息与尾字和下一字的互信息,通过比较两者的互信息大小来决定切分,最后对分词碎片进行了处理。通过对随机抽取的语料进行测试,结果表明该方法是有效的。 展开更多
关键词 正向最大匹配算法 交集型歧义 预处理 互信息 分词碎片
下载PDF
基于重复字串的微博新词非监督自动抽取 被引量:4
5
作者 孙晓 李承程 +1 位作者 叶嘉麒 任福继 《合肥工业大学学报(自然科学版)》 CAS CSCD 北大核心 2014年第6期674-678,724,共6页
文章基于重复字串的统计特征,同时分析微博中存在的口语化语言特点制定相应的语言规则,采用统计和规则相结合的方法,首先对微博的语料进行分词,然后从分词碎片中提取重复出现2次及2次以上的新词,通过多层过滤,得到最终的候选新词。实验... 文章基于重复字串的统计特征,同时分析微博中存在的口语化语言特点制定相应的语言规则,采用统计和规则相结合的方法,首先对微博的语料进行分词,然后从分词碎片中提取重复出现2次及2次以上的新词,通过多层过滤,得到最终的候选新词。实验结果证明,该方法有效地保证了较高的准确率和召回率,同时保证了新词的抽取速度。 展开更多
关键词 自然语言处理 中文分词 重复字串 分词碎片
下载PDF
双耳分听和补笔对立即回忆、延迟回忆影响的实验研究 被引量:2
6
作者 郭春彦 朱滢 侯培庄 《心理科学》 CSSCI CSCD 北大核心 1998年第2期118-121,共4页
通过两个实验探讨集中注意和补笔练习对立即回忆、延迟回忆的影响。实验一以英语单词为学习材料,使用组间设计方法,实验组采用附加追随程序和补笔练习;控制组为自定学习方式。学习结果表明:在自由回忆英文单词、听写英文单词和中译... 通过两个实验探讨集中注意和补笔练习对立即回忆、延迟回忆的影响。实验一以英语单词为学习材料,使用组间设计方法,实验组采用附加追随程序和补笔练习;控制组为自定学习方式。学习结果表明:在自由回忆英文单词、听写英文单词和中译英三个方面,实验组的学习成绩明显高于控制组;实验组的学习方式更有利于低分组学生的学习。实验二的学习方式与实验一相同,通过4次测试的回归分析发现,实验组的学习发展水平明显高于控制组。 展开更多
关键词 补笔 双耳分听 记忆 立即回忆 延迟回忆
下载PDF
藏文自动分词中未登录词处理方法研究 被引量:5
7
作者 羊毛卓玛 高定国 《计算机工程》 CAS CSCD 2012年第17期46-48,共3页
藏文中后接成份出现频率较高,分词中未登录词的后缀单切现象会影响分词的正确率,为此,采用词(语素)+缀归并的方法,将藏文后接成份与前一词(语素)归并为一个切分单位输出。针对藏文中大量人名、地名、单位名等未登录词在分词时出现的碎... 藏文中后接成份出现频率较高,分词中未登录词的后缀单切现象会影响分词的正确率,为此,采用词(语素)+缀归并的方法,将藏文后接成份与前一词(语素)归并为一个切分单位输出。针对藏文中大量人名、地名、单位名等未登录词在分词时出现的碎片切分现象,使用分词碎片整合方法,将多次出现的词条碎片整合为一个切分单位输出。实验结果表明,2种方法能提高藏文自动分词的识别正确率。 展开更多
关键词 藏文信息处理 词缀归并 未登录词 分词碎片整合
下载PDF
基于片词模糊匹配的智能化查收查引系统研究 被引量:3
8
作者 周文云 马云辉 +1 位作者 李菲菲 张薇 《情报探索》 2020年第10期36-41,共6页
[目的/意义]旨在实现查收查引过程的智能化处理,提高馆员的工作效率和质量。[方法/过程]提出了一个基于片词模糊匹配的智能化查收查引系统,贯穿了查收查引的整个流程,不仅可以自动去自引、提供全程提醒服务,还能自动生成报告、分析历史... [目的/意义]旨在实现查收查引过程的智能化处理,提高馆员的工作效率和质量。[方法/过程]提出了一个基于片词模糊匹配的智能化查收查引系统,贯穿了查收查引的整个流程,不仅可以自动去自引、提供全程提醒服务,还能自动生成报告、分析历史数据。[结果/结论]该系统在消耗时间、准确率和数据重复利用等多方面的性能要优于人工方式,使用户和馆员双方都有良好的体验。 展开更多
关键词 查收查引 片词 模糊匹配 去自引 数据分析
下载PDF
大谷文书中十三则《千字文》残片之定名与缀合 被引量:3
9
作者 张新朋 《敦煌研究》 CSSCI 北大核心 2013年第5期67-72,共6页
对于大谷文书中的《千字文》写卷,国内外学者多有关注,但未能网罗无遗。笔者在翻阅《大谷文书集成》过程中,新认定了前人未曾定名或未能准确定名的《千字文》残片13片,并与其他《千字文》写卷之间的关系略作梳理。同时,就部分前人已认定... 对于大谷文书中的《千字文》写卷,国内外学者多有关注,但未能网罗无遗。笔者在翻阅《大谷文书集成》过程中,新认定了前人未曾定名或未能准确定名的《千字文》残片13片,并与其他《千字文》写卷之间的关系略作梳理。同时,就部分前人已认定,但有进一步研讨必要的写卷,也略作探讨。 展开更多
关键词 大谷文书 《千字文》 残片 考辨
下载PDF
Internet中的新词识别 被引量:7
10
作者 李钝 曹元大 万月亮 《北京邮电大学学报》 EI CAS CSCD 北大核心 2008年第1期26-29,共4页
针对Internet中新词不断出现且难以被及时有效识别的问题,在分析其出现特征的基础上,利用单字之间的同现词频信息以及它们出现的时间规律确定候选新词字串.利用候选字串中各字符相邻、有序、频繁出现的特点,提出采用改进的关联规则挖掘... 针对Internet中新词不断出现且难以被及时有效识别的问题,在分析其出现特征的基础上,利用单字之间的同现词频信息以及它们出现的时间规律确定候选新词字串.利用候选字串中各字符相邻、有序、频繁出现的特点,提出采用改进的关联规则挖掘算法进行新词的识别.实验表明,该方法不仅可以根据词串的出现规律区分出新词和常用的单字组合,改善传统方法因固定n元模式匹配而导致的僵化现象,而且解决了"长词中包含短词"的问题,提高了新词识别的准确率. 展开更多
关键词 新词识别 关联规则 时间函数 分词碎片
下载PDF
东巴文记录语段向记录语词的发展趋势探析 被引量:2
11
作者 白小丽 《西北民族大学学报(哲学社会科学版)》 CSSCI 2012年第6期147-155,共9页
文字是用来记录语言的书写符号。东巴经是用东巴文书写的文献材料,其中记录语言的情况较为复杂。有的情况不是简单并存的共时现象,而是东巴文记录语言历时演变的结果。东巴文按记录语段的完整度大致可分为两种情况:省略式和包蕴式。二... 文字是用来记录语言的书写符号。东巴经是用东巴文书写的文献材料,其中记录语言的情况较为复杂。有的情况不是简单并存的共时现象,而是东巴文记录语言历时演变的结果。东巴文按记录语段的完整度大致可分为两种情况:省略式和包蕴式。二者各有其特点。就发展趋势而言,省略式是逐渐补充出未得到记录的音节符号,而包蕴式则更为复杂。发展的根本原因是一字一音节的推动。 展开更多
关键词 东巴文 语段 语词 发展趋势
下载PDF
基于碎片分词的未登录词识别方法 被引量:2
12
作者 周蕾 《常熟理工学院学报》 2007年第2期77-81,共5页
提出了一种新的基于碎片分词的未登录词识别方法。该方法首先对文本进行分词,然后对分词结果中的碎片进行全切分生成临时词典,并利用规则和频度信息给临时词典中的每个字串赋权值,最后利用贪心算法获得每个碎片的最长路径,从而提取碎片... 提出了一种新的基于碎片分词的未登录词识别方法。该方法首先对文本进行分词,然后对分词结果中的碎片进行全切分生成临时词典,并利用规则和频度信息给临时词典中的每个字串赋权值,最后利用贪心算法获得每个碎片的最长路径,从而提取碎片中的未登录词。实验证明该方法开放测试的准确率达到82.88%,召回率达到87.51%。 展开更多
关键词 未登录词识别 碎片分词 贪心算法
下载PDF
图片和汉字的激活水平及知觉干扰效应的比较 被引量:12
13
作者 王权红 李菲菲 何敏 《心理科学》 CSSCI CSCD 北大核心 2007年第2期332-336,共5页
研究使用8个残缺水平下的图片及其中文名(汉字双字词)为实验材料,试图比较图片与汉字双字词识别激活水平的差异,接着比较二者产生知觉干扰效应的条件,并把二者产生知觉干扰的条件与英文单词产生知觉干扰的条件进行比较。实验一结果发现... 研究使用8个残缺水平下的图片及其中文名(汉字双字词)为实验材料,试图比较图片与汉字双字词识别激活水平的差异,接着比较二者产生知觉干扰效应的条件,并把二者产生知觉干扰的条件与英文单词产生知觉干扰的条件进行比较。实验一结果发现,在材料较清晰的条件下,汉字双字词的命名成绩高于图片,表明汉字双字词的激活水平不比图片低,但在材料很残缺的条件下,汉字双字词的命名成绩低于图片。实验二发现双字词和图片在没有事先学习情况下都产生知觉干扰效应,已有研究表明单个汉字无需事先学习也可以产生干扰效应,而英文单词需要事先学习。因此,图片和汉字的干扰效应与英文单词的差别跟图片、汉字的激活水平比英文单词高有关。 展开更多
关键词 图片识别 双宇词识别 激活水平 知觉干扰效应 残缺刺激
下载PDF
基于规则和N-Gram算法的新词识别研究 被引量:6
14
作者 姜如霞 黄水源 +1 位作者 段隆振 罗丽娟 《现代电子技术》 北大核心 2019年第4期166-170,共5页
当前的分词工具分词后会出现很多单字碎片,分词之后意义与原意相差甚远。同时因为新词的构词规则具有自由度大的特点,当前分词方法不能有效识别网络中的新词。在ICTCLAS2016分词系统的基础上,结合新词结构制定规则构建碎片库,利用Bi-gra... 当前的分词工具分词后会出现很多单字碎片,分词之后意义与原意相差甚远。同时因为新词的构词规则具有自由度大的特点,当前分词方法不能有效识别网络中的新词。在ICTCLAS2016分词系统的基础上,结合新词结构制定规则构建碎片库,利用Bi-gram和Tri-gram模式提取碎片库中的候选字串,再采用左右邻接熵进行扩展及过滤,最后提出基于规则和N-Gram算法的新词识别方法。结果表明使用该方法的分词效果准确率、召回率和F值都有所提高。实验结果表明,该新词识别方法能有效构造候选新词集合,提高中文分词效果。 展开更多
关键词 新词识别 N-Gram算法 构词规则 中文分词 碎片库 召回率
下载PDF
记忆的碎片与语词的密林——墨白的长篇小说《来访的陌生人》
15
作者 高俊林 《平顶山学院学报》 2008年第4期44-47,共4页
将碎片化的记忆以多重视角的方式连缀在一起,精心营造一座语词的密林,使情节既跌宕起伏又扑朔迷离,是墨白长篇小说《来访的陌生人》的最大特点。这充分显示了墨白作为先锋派作家在处理真实与虚构、想象与记忆、逻辑与经验等几组关系时... 将碎片化的记忆以多重视角的方式连缀在一起,精心营造一座语词的密林,使情节既跌宕起伏又扑朔迷离,是墨白长篇小说《来访的陌生人》的最大特点。这充分显示了墨白作为先锋派作家在处理真实与虚构、想象与记忆、逻辑与经验等几组关系时所秉持的独特创作理念。同时,墨白在语词的编织上也注意照顾到了民间、传统与现代,并在它们之间寻找一种恰当的均衡。所有这些都使得墨白在当代文坛上独树一帜,成为极富有个性化色彩的作家。 展开更多
关键词 墨白 悬念 碎片 语词
下载PDF
我国碎片化学习研究热点及趋势分析 被引量:10
16
作者 缪茜 秦健 《中国医学教育技术》 2018年第3期263-266,共4页
随着互联网的发展及智能终端设备的普及,碎片化学习在学习与日常生活中愈发重要。通过分析中国知网2010—2016年收录的372篇碎片化学习相关文献,结合词频分析和关键词共现网络图,总结了近六年碎片化学习的研究热点,提出后续研究建议。... 随着互联网的发展及智能终端设备的普及,碎片化学习在学习与日常生活中愈发重要。通过分析中国知网2010—2016年收录的372篇碎片化学习相关文献,结合词频分析和关键词共现网络图,总结了近六年碎片化学习的研究热点,提出后续研究建议。我国碎片化学习的研究主要包含:内涵解读、利弊及策略分析、教学设计与平台研究、碎片化学习背景下微课程资源设计开发与碎片化移动学习。今后还须加深理论研究,重视碎片化学习资源与平台的研发应用,完善碎片化学习的模式设计与应用研究。 展开更多
关键词 碎片化学习 研究热点词频分析 现状及趋势
下载PDF
A Fast Recognition System for Isolated Printed Characters Using Center of Gravity and Principal Axis 被引量:1
17
作者 Ahmed M. Shaffie Galal A. Elkobrosy 《Applied Mathematics》 2013年第9期1313-1319,共7页
The purpose of this paper is to propose a new multi stage algorithm for the recognition of isolated characters. It was similar work done before using only the center of gravity (This paper is extended version of “A f... The purpose of this paper is to propose a new multi stage algorithm for the recognition of isolated characters. It was similar work done before using only the center of gravity (This paper is extended version of “A fast recognition system for isolated printed characters using center of gravity”, LAP LAMBERT Academic Publishing 2011, ISBN: 978-38465-0002-6), but here we add using principal axis in order to make the algorithm rotation invariant. In my previous work which is published in LAP LAMBERT, I face a big problem that when the character is rotated I can’t recognize the character. So this adds constrain on the document to be well oriented but here I use the principal axis in order to unify the orientation of the character set and the characters in the scanned document. The algorithm can be applied for any isolated character such as Latin, Chinese, Japanese, and Arabic characters but it has been applied in this paper for Arabic characters. The approach uses normalized and isolated characters of the same size and extracts an image signature based on the center of gravity of the character after making the character principal axis vertical, and then the system compares these values to a set of signatures for typical characters of the set. The system then provides the closeness of match to all other characters in the set. 展开更多
关键词 OCR Pattern Recognition CONFUSION Matrix Image SIGNATURE word Segmentation CHARACTER fragmentATION
下载PDF
俄敦《大方广佛华严经音》残片三题
18
作者 谭兴富 《敦煌研究》 CSSCI 北大核心 2023年第3期134-143,共10页
《俄藏敦煌文献》第17册收有10余件佛典音义文献残片,这些残片均从一部完整的《大方广佛华严经音》分裂而来,所存字目均出自《八十华严》。经比勘发现:一是残片所存音义与高丽藏再雕本《八十华严》卷末所附音义源自同一祖本;二是残片所... 《俄藏敦煌文献》第17册收有10余件佛典音义文献残片,这些残片均从一部完整的《大方广佛华严经音》分裂而来,所存字目均出自《八十华严》。经比勘发现:一是残片所存音义与高丽藏再雕本《八十华严》卷末所附音义源自同一祖本;二是残片所存多条音义为高丽藏再雕本所无,其中有4条当是在传写过程中糅合底本多条音义;三是дх.18982残片亦来自于《大方广佛华严经音》,所存字目出自《八十华严》卷62,可与дх.19007残片缀合。 展开更多
关键词 《八十华严》 音义 词条糅合 残片缀合
下载PDF
高速破片侵彻舰船双层横舱壁结构研究
19
作者 张伟 沈中祥 陈继业 《舰船科学技术》 北大核心 2023年第14期7-12,共6页
反舰导弹战斗部爆炸产生的高速破片会对舰船内部人员、武器设备等造成严重毁伤。为研究舰船防护结构的抗侵彻性能,在传统加筋板架舱壁结构的基础上提出一种双层平板舱壁结构,对高速破片侵彻薄板的理论和经验公式进行分析,验证计算方法... 反舰导弹战斗部爆炸产生的高速破片会对舰船内部人员、武器设备等造成严重毁伤。为研究舰船防护结构的抗侵彻性能,在传统加筋板架舱壁结构的基础上提出一种双层平板舱壁结构,对高速破片侵彻薄板的理论和经验公式进行分析,验证计算方法的可行性;对两者在高速破片侵彻载荷作用下的失效特性、动态响应以及吸能情况进行比较分析,双层舱壁结构抗侵彻性能明显优于传统单层结构;对不同侵彻速度、不同舱壁板厚对双层舱壁结构性能的影响进行研究,和试验数据结果对比,计算结果与之相吻合,并给出舱壁结构吸能特性的影响参数,为双层舱壁结构进行优化设计提供参考。 展开更多
关键词 高速破片 侵彻 双层横舱壁结构
下载PDF
Chinese New Word Identification:A Latent Discriminative Model with Global Features 被引量:11
20
作者 孙晓 黄德根 +1 位作者 宋海玉 任福继 《Journal of Computer Science & Technology》 SCIE EI CSCD 2011年第1期14-24,共11页
Chinese new words are particularly problematic in Chinese natural language processing. With the fast development of Internet and information explosion, it is impossible to get a complete system lexicon for application... Chinese new words are particularly problematic in Chinese natural language processing. With the fast development of Internet and information explosion, it is impossible to get a complete system lexicon for applications in Chinese natural language processing, as new words out of dictionaries are always being created. The procedure of new words identification and POS tagging are usually separated and the features of lexical information cannot be fully used. A latent discriminative model, which combines the strengths of Latent Dynamic Conditional Random Field (LDCRF) and semi-CRF, is proposed to detect new words together with their POS synchronously regardless of the types of new words from Chinese text without being pre-segmented. Unlike semi-CRF, in proposed latent discriminative model, LDCRF is applied to generate candidate entities, which accelerates the training speed and decreases the computational cost. The complexity of proposed hidden semi-CRF could be further adjusted by tuning the number of hidden variables and the number of candidate entities from the Nbest outputs of LDCRF model. A new-word-generating framework is proposed for model training and testing, under which the definitions and distributions of new words conform to the ones in real text. The global feature called "Global Fragment Features" for new word identification is adopted. We tested our model on the corpus from SIGHAN-6. Experimental results show that the proposed method is capable of detecting even low frequency new words together with their POS tags with satisfactory results. The proposed model performs competitively with the state-of-the-art models. 展开更多
关键词 new word identification new words POS tagging conditional random fields hidden semi-CRF global fragment features
原文传递
上一页 1 2 下一页 到第
使用帮助 返回顶部