期刊文献+
共找到35篇文章
< 1 2 >
每页显示 20 50 100
基于逆向匹配的电子商务网站实体模板半自动构建方法
1
作者 傅彦 徐昭邦 +1 位作者 夏虎 周俊临 《中文信息学报》 CSCD 北大核心 2015年第2期157-162,178,共7页
Web页面中的主题信息一般分布比较集中,可利用网页的这一特性进行网页主题信息的自动提取。网页源代码中的HTML标签不规范,使得正向匹配难以生成嵌套结构准确的DOM树,该文提出一种通过逆向匹配的方法,构建完整的网页源代码DOM树。通过对... Web页面中的主题信息一般分布比较集中,可利用网页的这一特性进行网页主题信息的自动提取。网页源代码中的HTML标签不规范,使得正向匹配难以生成嵌套结构准确的DOM树,该文提出一种通过逆向匹配的方法,构建完整的网页源代码DOM树。通过对DOM树进行剪枝,删除无关节点,对保留下来的信息块的节点标签进行人工选择与唯一性判定,从而生成提取模板。该方法能够实现对电子商务网站源网页中的主题信息进行提取,是一种半自动、通用的方法,可用于信息检索系统中的信息采集。 展开更多
关键词 逆向匹配 DOM树 模板构建 信息提取
下载PDF
一种改进的逆向匹配快速切分算法
2
作者 李娟 周贤善 《信息系统工程》 2010年第2期133-134,142,共3页
在中文切分算法设计上,好的算法一般要注重两个方面,一个是提高切分精度,另一个是提高切分速度。本文在逆向最大匹配的算法切分基础上,结合临近匹配算法在中文切分速度方面的优势,提出了一种逆向匹配快速切分算法。此算法由于使用了索... 在中文切分算法设计上,好的算法一般要注重两个方面,一个是提高切分精度,另一个是提高切分速度。本文在逆向最大匹配的算法切分基础上,结合临近匹配算法在中文切分速度方面的优势,提出了一种逆向匹配快速切分算法。此算法由于使用了索引排序查找,所以在速度上比一般的全库扫描更快;在切分精度上,根据汉语语句中心语偏后的特点,采用了逆序匹配,可以更进一步提高切分精度。并通过在综合语料库中的语料上的分析,交集型歧义的自动消解上有着很好的优势。 展开更多
关键词 中文自动分词 逆向最大匹配算法 临近匹配算法 改进的逆向匹配快速切分算法 交集型歧义消解
下载PDF
一种基于逆向匹配算法的中文文本分类技术 被引量:3
3
作者 刘新 刘任任 《计算机应用》 CSCD 北大核心 2008年第4期945-947,共3页
针对中文文本的自动分类问题,提出了一种逆向匹配算法。该算法的基本思路是构造一个带权值的分类主题词表,然后用词表中的关键词在待分类的文档中进行逆向匹配,并统计匹配成功的权值和,以权值和最大者作为分类结果。本算法可以避开中文... 针对中文文本的自动分类问题,提出了一种逆向匹配算法。该算法的基本思路是构造一个带权值的分类主题词表,然后用词表中的关键词在待分类的文档中进行逆向匹配,并统计匹配成功的权值和,以权值和最大者作为分类结果。本算法可以避开中文分词的难点和它对分类结果的影响。理论分析和实验结果表明,该技术分类结果的准确度和时间效率都比较高,其综合性能达到了目前主流技术的水平。 展开更多
关键词 文本分类 逆向匹配算法 增益权值 主题词表
下载PDF
基于Hash结构的逆向最大匹配分词算法的改进 被引量:26
4
作者 丁振国 张卓 黎靖 《计算机工程与设计》 CSCD 北大核心 2008年第12期3208-3211,3265,共5页
分析中文的语义,首先要对句子进行分词。中文分词是中文信息处理中最重要的预处理,分词的速度和精度直接影响信息处理的结果。对传统的分词词典和算法进行了改进,提出了基于Hash结构的分词词典机制,并给出了一种改进的逆向最大匹配分词... 分析中文的语义,首先要对句子进行分词。中文分词是中文信息处理中最重要的预处理,分词的速度和精度直接影响信息处理的结果。对传统的分词词典和算法进行了改进,提出了基于Hash结构的分词词典机制,并给出了一种改进的逆向最大匹配分词算法(RMM)。该算法在重点考虑切分速度的同时兼顾了切分精度,在很大程度上消除了传统的最大匹配算法可能产生的歧义。实验结果表明,该分词算法在运行效率和结果的准确性方法有了很大的提高。 展开更多
关键词 中文分词 哈希结构 逆向最大匹配算法 分词词典 消除歧义
下载PDF
基于逆向最大匹配分词算法的汉盲翻译系统 被引量:7
5
作者 杨文珍 徐豪杰 +4 位作者 汪文妃 宣建强 赵维 吴新丽 潘海鹏 《计算机应用与软件》 北大核心 2021年第10期84-91,共8页
汉盲翻译是把汉字源文本自动翻译为对应的盲文文本,目前存在着多音字混淆、未登录词不能增加、不符合盲文分词连写规则等挑战。构建一个基于逆向最大匹配分词算法的汉盲翻译系统,能够较好识别多音字,自主添加未登录词,得到较正确的分词... 汉盲翻译是把汉字源文本自动翻译为对应的盲文文本,目前存在着多音字混淆、未登录词不能增加、不符合盲文分词连写规则等挑战。构建一个基于逆向最大匹配分词算法的汉盲翻译系统,能够较好识别多音字,自主添加未登录词,得到较正确的分词连写结果,有效提高了汉盲翻译的准确率。该系统基于词库可以区分出大多数多音字,能够得到较符合盲文分词连写规则的分词结果,并可向词库自主添加未登录词,进而提高中文分词的准确率。实验结果表明该系统能够降低因中文分词错误引起的语句歧义,减少因多音字混淆引起的翻译错误,避免因音节结构分散导致的盲文方数繁多,具有一定的开放性和实用性。 展开更多
关键词 汉盲翻译 中文分词 未登录词 逆向最大匹配
下载PDF
基于反序词典的中文逆向最大匹配分词系统设计 被引量:12
6
作者 张李义 李亚子 《现代图书情报技术》 CSSCI 北大核心 2006年第8期42-45,30,共5页
介绍几种常见的分词算法,在改进传统的反序词典、优化逆向最大匹配算法的基础上,设计并实现基于逆向最大匹配的中文分词系统,试验证明速度和精度都有显著提高。
关键词 反序词典 最大匹配 逆向最大匹配 自动分词
下载PDF
一种改进的长词优先逆向最大匹配分词消歧策略 被引量:1
7
作者 田占霄 韩宪忠 王克俭 《河北农业大学学报》 CAS CSCD 北大核心 2009年第4期100-102,107,共4页
为提高逆向最大匹配算法的分词精度,本研究利用词频阙值,单字函数等方法取得了较好的消歧效果。实验结果表明:该分词算法既能遵循长词优先的原则,又能进一步识别和消除覆盖歧义。改进的RMM不仅在速度上仍保持较大优势而且在分词准确率... 为提高逆向最大匹配算法的分词精度,本研究利用词频阙值,单字函数等方法取得了较好的消歧效果。实验结果表明:该分词算法既能遵循长词优先的原则,又能进一步识别和消除覆盖歧义。改进的RMM不仅在速度上仍保持较大优势而且在分词准确率上有了进一步的提高,对使用机械分词算法的中小型搜索引擎在提高分词精度方面具有一定的实用价值。 展开更多
关键词 中文分词 逆向最大匹配算法 单字率 词频
下载PDF
一种改进的统计与后串最大匹配的中文分词算法研究 被引量:7
8
作者 吴涛 张毛迪 陈传波 《计算机工程与科学》 CSCD 2008年第8期79-82,共4页
在比较各种传统分词方法优缺点的基础上,本文提出了一种新的分词算法。它采用改进的双向Markov链统计方法对词库进行更新,再利用基于词典的有穷自动机后串最大匹配算法以及博弈树搜索算法进行分词。实验结果表明,该分词算法在分词准确... 在比较各种传统分词方法优缺点的基础上,本文提出了一种新的分词算法。它采用改进的双向Markov链统计方法对词库进行更新,再利用基于词典的有穷自动机后串最大匹配算法以及博弈树搜索算法进行分词。实验结果表明,该分词算法在分词准确性、效率以及生词辨识上取得了良好的效果。 展开更多
关键词 正向最大前串匹配 逆向最大前串匹配 统计法 有穷自动机
下载PDF
基于Hash结构词典的逆向回溯中文分词技术研究 被引量:5
9
作者 梁桢 李禹生 《计算机工程与设计》 CSCD 北大核心 2010年第23期5158-5160,F0003,共4页
为了提高现有的中文分词效率,提出了基于Hash结构词典的逆向回溯中文分词方法。针对首字Hash结构词典的不足,设计了能够记录词长的Hash结构尾字词典,然后对逆向最大匹配分词算法进行了分析,为了解决其存在的中文分词歧义问题,设计出一... 为了提高现有的中文分词效率,提出了基于Hash结构词典的逆向回溯中文分词方法。针对首字Hash结构词典的不足,设计了能够记录词长的Hash结构尾字词典,然后对逆向最大匹配分词算法进行了分析,为了解决其存在的中文分词歧义问题,设计出一种逆向回溯最大匹配算法,该改进算法采用的回溯机制能够有效消除分词中可能存在的一些歧义问题。实验结果表明,该方法实现了提高中文分词速度并减少交集型歧义字符串切分错误的设计目标。 展开更多
关键词 中文分词 哈希结构 尾字词典 逆向最大匹配算法 分词歧义 逆向回溯算法
下载PDF
基于预训练模型的中文电子病历实体识别 被引量:3
10
作者 李晓林 胡泽荣 《计算机工程与设计》 北大核心 2023年第2期535-540,共6页
为提升传统中文电子病历实体识别预训练模型的语义特征提取能力并增强中文隐含特征表示,提出基于改进预训练语言模型的医疗命名实体识别方法。提出动态词长的逆向最大匹配算法对病历文本进行标注歧义处理,在此基础上构建用户自定义医疗... 为提升传统中文电子病历实体识别预训练模型的语义特征提取能力并增强中文隐含特征表示,提出基于改进预训练语言模型的医疗命名实体识别方法。提出动态词长的逆向最大匹配算法对病历文本进行标注歧义处理,在此基础上构建用户自定义医疗实体字典辅助PKU分词,提高预训练模型掩码效果。输入向量层加入字向量,引入注意力机制学习字向量的全局语义特征。改进预训练模型mask策略和机制并去掉下一句预测,提升词向量语义表征能力。实验结果表明,该方法有效提高了医疗实体的识别效果,F1值达到90.57%。 展开更多
关键词 中文电子病历 命名实体识别 预训练模型 标注歧义 注意力机制 逆向最大匹配算法 医疗实体字典
下载PDF
基于Cortex-M3的汉盲翻译SoC设计
11
作者 毛扬 梁宏博 +3 位作者 邹成洋 毛方涛 吴新丽 杨文珍 《计算机系统应用》 2023年第10期132-139,共8页
汉盲翻译是一种将中文文本自动翻译为对应的盲文数据的过程.在嵌入式环境下,汉盲翻译的速度较慢,难以达到复杂环境下的实时性需求.为此设计出专用的汉盲翻译IP核,通过实现逆向最大匹配分词算法、汉盲转换,最终得到准确的盲文数据.为了... 汉盲翻译是一种将中文文本自动翻译为对应的盲文数据的过程.在嵌入式环境下,汉盲翻译的速度较慢,难以达到复杂环境下的实时性需求.为此设计出专用的汉盲翻译IP核,通过实现逆向最大匹配分词算法、汉盲转换,最终得到准确的盲文数据.为了验证设计的合理性,以Cortex-M3为微处理器构建SoC,搭载串口、LCD驱动和汉盲翻译IP核,并使用FPGA实验平台进行功能验证和性能测试.测试结果表明,该SoC可准确进行汉盲翻译,翻译速度达5 079.37 B/s. 展开更多
关键词 CORTEX-M3 片上系统 现场可编程逻辑门阵列 逆向最大匹配
下载PDF
一种改进的公式结构分析方法 被引量:1
12
作者 田学东 王菲 《计算机应用与软件》 CSCD 北大核心 2008年第4期40-42,共3页
结构分析是印刷体数学公式识别系统的关键部分,目前相关研究还很欠缺。针对结构分析的基准线方法的一些不足之处,提出一种逆向匹配方法,并结合语义规则对分析后的数学公式进行后处理。实验表明,提出的方法能够有效提高数学公式结构分析... 结构分析是印刷体数学公式识别系统的关键部分,目前相关研究还很欠缺。针对结构分析的基准线方法的一些不足之处,提出一种逆向匹配方法,并结合语义规则对分析后的数学公式进行后处理。实验表明,提出的方法能够有效提高数学公式结构分析的正确率和鲁棒性。 展开更多
关键词 数学公式识别 结构分析 后处理 逆向匹配
下载PDF
基于计算机自动分词的研究 被引量:3
13
作者 李瑞芳 孙健 李娜 《沈阳化工学院学报》 2008年第3期255-259,共5页
时代发展对中文分词的要求越来越高,在原有机械分词方法中双向匹配理论的基础上,对其进行改进,以提高分词的速度和准确率.在原方法上分别为正向匹配和逆向匹配增加了一个词头表,利用Java语言中Map和Set具有Hash结构的特性,进行程序设计... 时代发展对中文分词的要求越来越高,在原有机械分词方法中双向匹配理论的基础上,对其进行改进,以提高分词的速度和准确率.在原方法上分别为正向匹配和逆向匹配增加了一个词头表,利用Java语言中Map和Set具有Hash结构的特性,进行程序设计.设计以《红楼梦》为例,对改进的方法进行测试,结果证明改进的方法可行,与原有方法比较,在速度上和准确率上都有较大的提高. 展开更多
关键词 中文分词 双向匹配 正向匹配 逆向匹配 JAVA
下载PDF
基于自动标引的自然语言检索方法研究 被引量:1
14
作者 王丹 杨晓蓉 马健 《图书馆杂志》 CSSCI 北大核心 2016年第6期66-72,共7页
自从自然语言进入计算机检索系统以来,就因其不受不同职业、不同知识背景、不同检索经验的影响等特点受到终端用户的青睐。由于中文文献的标题是中文文献内容的集中体现,它反映了文献的中心思想。本文介绍的自然语言检索方法,限定在文... 自从自然语言进入计算机检索系统以来,就因其不受不同职业、不同知识背景、不同检索经验的影响等特点受到终端用户的青睐。由于中文文献的标题是中文文献内容的集中体现,它反映了文献的中心思想。本文介绍的自然语言检索方法,限定在文献标题层面进行主题标引。该方法的基本思想是用自动标引方法分别对检索系统中数据库的文献标题和用于检索的自然语言进行自动赋词标引,对给定的关键词进行概念控制,即词义转换,形成最终标引词;然后,用向量空间模型对数据库的索引数据进行"或"运算检索,形成命中文献集合B,对B集合中的每篇文献标题再进行自动标引,形成的标引词与用于检索的自然语言标引词进行相似度计算,根据B集合中的每篇文献的相似度进行排序,把最符合检索要求的文献最先呈现给用户。此方法是一种简便、实用的自然语言检索方法。 展开更多
关键词 转换、自动赋予标引词的主题词、同义词、近义词、相关词和网罗词 有基于字符串匹配的分词方法 基于理解的分词方法和基于统计的分词方法.基于字符串匹配的分词方法是按照一定的策略将待分析的汉字串与词典中的词条进行匹配 匹配成功则给出一个标引词.按照扫描方向的不同 可分为正向匹配逆向匹配 按照不同长度优先匹配的不 自动标引 自然语言检索 方法
下载PDF
基于条件随机场的中文领域分词研究 被引量:14
15
作者 朱艳辉 刘璟 +2 位作者 徐叶强 田海龙 马进 《计算机工程与应用》 CSCD 北大核心 2016年第15期97-100,共4页
针对条件随机场分词不具有良好的领域自适应性,提出一种条件随机场与领域词典相结合的方法提高领域自适应性,并根据构词规则提出了固定词串消解,动词消解,词概率消解三种方法消除歧义。实验结果表明,该分词流程和方法,提高了分词的准确... 针对条件随机场分词不具有良好的领域自适应性,提出一种条件随机场与领域词典相结合的方法提高领域自适应性,并根据构词规则提出了固定词串消解,动词消解,词概率消解三种方法消除歧义。实验结果表明,该分词流程和方法,提高了分词的准确率和自适应性,在计算机领域和医学领域的分词结果 F值分别提升了7.6%和8.7%。 展开更多
关键词 中文分词 条件随机场 领域自适应 歧义消解 领域分词 逆向最大匹配算法
下载PDF
基于折叠式散列映射的K-merIndex方法 被引量:2
16
作者 吴佩洁 史伟 何航宇 《电脑与信息技术》 2015年第6期22-24,共3页
关于DNA序列的K-mer Index的问题,文章通过设计了一种基于折叠式散列映射的数据索引方法,实现了对固定k值的目标碱基片段的快速查找与定位,并通过建立灰色层次分析模型进行综合评价,得到每个k值所对应的最优折叠系数,最后通过编程实现&q... 关于DNA序列的K-mer Index的问题,文章通过设计了一种基于折叠式散列映射的数据索引方法,实现了对固定k值的目标碱基片段的快速查找与定位,并通过建立灰色层次分析模型进行综合评价,得到每个k值所对应的最优折叠系数,最后通过编程实现"自动匹配最优折叠系数"的功能,使得本数据索引方法更加的高效、完善。 展开更多
关键词 散列映射 折叠系数 逆向匹配 灰色层次分析法
下载PDF
关于搜索引擎的中文分词与页面排序的研究 被引量:4
17
作者 王锡钢 王正 陈虎 《计算机应用与软件》 CSCD 北大核心 2013年第9期211-214,共4页
从搜索流程的分词和页面排序出发,由于中文分词比较复杂,鉴于正向最大分词算法和逆向最大分词算法的优缺点,提出基于正向最大和逆向最大匹配的双向匹配算法,该算法在一定程度提高了分词的准确性。页面排序也是影响用户搜索效率的一个重... 从搜索流程的分词和页面排序出发,由于中文分词比较复杂,鉴于正向最大分词算法和逆向最大分词算法的优缺点,提出基于正向最大和逆向最大匹配的双向匹配算法,该算法在一定程度提高了分词的准确性。页面排序也是影响用户搜索效率的一个重要因素,而网页相关度和网页的链接都是直接影响网页权值的重要因素,因而提出一种基于网页相关性的PageRank算法。新的页面排序算法既防治了页面漂移的可能性,也防治了全部依赖网页相关性的排序结果。 展开更多
关键词 正向最大匹配逆向最大匹配PageRank VSM
下载PDF
基于双哈希结构的整词二分词典机制 被引量:3
18
作者 张贤坤 李亚南 田雪 《计算机工程与设计》 CSCD 北大核心 2014年第11期3956-3960,共5页
为提高逆向最大匹配分词算法的速率,分析传统的整词二分词典机制,针对哈希结构尾字词典的不足,提出一种基于双哈希结构的整词二分词典机制,并改进对应的逆向最大匹配算法。利用记录词长的尾字词典机制,使用双哈希结构保存词条,降低词典... 为提高逆向最大匹配分词算法的速率,分析传统的整词二分词典机制,针对哈希结构尾字词典的不足,提出一种基于双哈希结构的整词二分词典机制,并改进对应的逆向最大匹配算法。利用记录词长的尾字词典机制,使用双哈希结构保存词条,降低词典的词条匹配时间复杂度。实验结果表明,该词典机制将逆向最大匹配算法的分词速率提高近一倍。 展开更多
关键词 中文分词 词典机制 尾字词典 哈希结构 逆向最大匹配算法
下载PDF
采用多分辨率运动先验的地面目标稳定跟踪 被引量:1
19
作者 孙抗 周志强 《光电工程》 CAS CSCD 北大核心 2013年第5期34-39,共6页
由于理论上的局限性,逆向复合模板匹配算法难以在末制导阶段的高动态环境下实现对目标的稳定跟踪。针对这一问题,本文提出一种基于多分辨率运动先验的逆向复合跟踪算法。算法将跟踪问题分为离线训练和在线跟踪两个阶段。在离线计算阶段... 由于理论上的局限性,逆向复合模板匹配算法难以在末制导阶段的高动态环境下实现对目标的稳定跟踪。针对这一问题,本文提出一种基于多分辨率运动先验的逆向复合跟踪算法。算法将跟踪问题分为离线训练和在线跟踪两个阶段。在离线计算阶段,将目标运动的幅值按"coarse-to-fine"的顺序划分为多个层次,并采用分层训练的方式获得多分辨率先验误差雅可比矩阵。将该先验知识应用于逆向复合跟踪算法,能够在不增加在线计算复杂度的前提下实现对地面固定目标的实时稳定跟踪。对比实验证实,在高动态环境下,算法具有良好的收敛特性,同时,对目标图像的旋转、尺度缩放和光照变化等干扰因素也具有良好的稳定性。 展开更多
关键词 末制导 高动态 逆向复合匹配 多分辨率先验 稳定跟踪
下载PDF
无词典抽词的RMMFS和BMMFS方法及其比较研究 被引量:5
20
作者 姜韶华 党延忠 宣照国 《情报学报》 CSSCI 北大核心 2006年第4期499-503,共5页
针对作为中文信息处理基础的抽词问题,本文在作者提出的正向串频最大匹配法(MMFS)的基础上,提出了逆向串频最大匹配法(RMMFS)及双向串频最大匹配法(BMMFS).这两种方法分别采用逆向和双向长串优先与串频统计的思路,并引进规则和支... 针对作为中文信息处理基础的抽词问题,本文在作者提出的正向串频最大匹配法(MMFS)的基础上,提出了逆向串频最大匹配法(RMMFS)及双向串频最大匹配法(BMMFS).这两种方法分别采用逆向和双向长串优先与串频统计的思路,并引进规则和支持度指标筛选,不需要词典,不需要事先进行语料库学习,不需要建立字索引,通过串匹配获取中文文本中的汉字共现模式,实时地抽取出包含专业术语及专有名词等未登录词在内的专指语义串、短语和词.实验研究了抽词准确率受规则的影响及随文本大小和词频变化的分布,结果表明BMMFS可以取得更好的抽词效果. 展开更多
关键词 逆向串频最大匹配 双向串频最大匹配 自动抽词 汉字共现模式
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部