期刊文献+
共找到2,526篇文章
< 1 2 127 >
每页显示 20 50 100
基于MacBERT和标签平滑的新冠疫情公众情感分析研究
1
作者 王坤朋 禹龙 +2 位作者 王博 周铁军 田生伟 《东北师大学报(自然科学版)》 CAS 北大核心 2024年第2期83-90,共8页
针对BERT预训练与下游任务微调阶段存在不匹配差异,以及人工对文本数据进行情感倾向性标注可能存在误差的问题,提出一种基于MacBERT和标签平滑的网络模型(MacLMC).首先,在BERT的基础上引入MLM as correction策略,利用近义词替换被掩码词... 针对BERT预训练与下游任务微调阶段存在不匹配差异,以及人工对文本数据进行情感倾向性标注可能存在误差的问题,提出一种基于MacBERT和标签平滑的网络模型(MacLMC).首先,在BERT的基础上引入MLM as correction策略,利用近义词替换被掩码词,通过MacBERT预训练模型获取词向量;其次,经过双层LSTM学习长距离依赖;再次,采用双通道多卷积核的卷积操作,分别提取信息的最大特征和均值特征;最后,利用标签平滑策略降低模型预测类别的概率,提升模型对于标签的容错能力,提高模型泛化性.实验结果表明:与现有主流模型相比,本文模型在多种数据集上性能表现更佳,能够更好地用于新冠疫情公众情感分析任务. 展开更多
关键词 新冠疫情 MacBERT 标签平滑 情感分析
下载PDF
基于混合预训练语言模型的中文词汇简化方法
2
作者 陈丽丽 刘康 +1 位作者 强继朋 李云 《扬州大学学报(自然科学版)》 CAS 2024年第5期25-32,共8页
针对中文词汇简化(Chinese lexical simplification,CLS)任务缺乏关注的问题,提出一种基于混合预训练语言模型的CLS方法。采用回译策略构建一个大规模复述语料,首次实现基于复述模型的CLS方法;在实现当前最优的4种CLS方法的基础上,提出... 针对中文词汇简化(Chinese lexical simplification,CLS)任务缺乏关注的问题,提出一种基于混合预训练语言模型的CLS方法。采用回译策略构建一个大规模复述语料,首次实现基于复述模型的CLS方法;在实现当前最优的4种CLS方法的基础上,提出一种基于顺序的多数投票机制,以选择最佳的替换词。实验结果表明,与基线方法相比,混合方法优于其他所有单一方法,其简化准确性得以显著提升。 展开更多
关键词 词汇简化 复述模型 预训练语言模型
下载PDF
基于弱语义样本的对比学习句嵌入方法
3
作者 徐斌斌 严大川 +1 位作者 王建尚 王小敏 《兰州交通大学学报》 CAS 2024年第1期51-58,共8页
为了有效消除句嵌入在语义特征空间的各向异性问题,提出一种基于弱语义样本的对比学习句嵌入方法,旨在生成有效句嵌入的同时,提升模型对文本语义相似性的识别效果。首先,采用标记重复算法构建相似样本并作为遮掩语言模型的输入,预测生... 为了有效消除句嵌入在语义特征空间的各向异性问题,提出一种基于弱语义样本的对比学习句嵌入方法,旨在生成有效句嵌入的同时,提升模型对文本语义相似性的识别效果。首先,采用标记重复算法构建相似样本并作为遮掩语言模型的输入,预测生成包含弱语义关系的样本;然后,将原始样本重复输入不同失活率的转换器,抽取不同的全局语义特征;最后,通过对比学习调整特征权重值,构建句嵌入。在公开数据集上进行系列对比实验,结果表明:基于弱语义样本的句嵌入表示方法性能优于其他方法,获得77.38%的相似性评估分数,为句嵌入生成和语义相似度识别任务提供了一种有效的解决方案。 展开更多
关键词 句嵌入 对比学习 弱语义样本 文本相似性
下载PDF
标准电子文件转WORD校验方法
4
作者 谭笑 王海虹 +2 位作者 杨萌 张劲松 梅朗一 《中国标准化》 2024年第16期45-49,共5页
随着标准电子文件在各个领域的广泛应用,文件格式的转换及其后续校验工作变得日益重要。本研究聚焦于探讨标准文档格式转换为Word格式的过程中所面临的挑战,并提出了一个全面的校验流程,以确保转换的准确性和高效性。阐述了标准电子文... 随着标准电子文件在各个领域的广泛应用,文件格式的转换及其后续校验工作变得日益重要。本研究聚焦于探讨标准文档格式转换为Word格式的过程中所面临的挑战,并提出了一个全面的校验流程,以确保转换的准确性和高效性。阐述了标准电子文件在石油等领域的广泛应用以及转换为Word格式的必要性,强调了校验过程的重要性,旨在确保转换后的文件与原始文件在错误率万分之五以内的一致性。 展开更多
关键词 标准行业 标准电子文件转换 Word校验 OCR识别 文件质量控制
下载PDF
北京大学现代汉语语料库基本加工规范 被引量:126
5
作者 俞士汶 段慧明 +1 位作者 朱学锋 孙斌 《中文信息学报》 CSCD 北大核心 2002年第5期49-64,共16页
北京大学计算语言学研究所已经完成了一个有2700万汉字的现代汉语语料库的基本加工。加工项目除词语切分和词性标注外,还包括专有名词(人名、地名、团体机构名称等)标注、语素子类标注以及动词、形容词的特殊用法标注。这项大规模语... 北京大学计算语言学研究所已经完成了一个有2700万汉字的现代汉语语料库的基本加工。加工项目除词语切分和词性标注外,还包括专有名词(人名、地名、团体机构名称等)标注、语素子类标注以及动词、形容词的特殊用法标注。这项大规模语言工程的顺利完成得益于事先制订并不断完善的规范。发表《北京大学现代汉语语料库基本加工规范》是为了抛砖引玉,更广泛地向专家、同行征询意见,以便进一步修订。 展开更多
关键词 北京大学 现代汉语语料库 基本加工规范 词语切分 词性标注 汉字处理系统 名词标注 语素子类标注
下载PDF
基于向量空间模型的文本自动分类系统的研究与实现 被引量:293
6
作者 庞剑锋 卜东波 白硕 《计算机应用研究》 CSCD 北大核心 2001年第9期23-26,共4页
随着网络信息的迅猛发展 ,信息处理已经成为人们获取有用信息不可缺少的工具。文本自动分类系统是信息处理的重要研究方向 ,它是指在给定的分类体系下 ,根据文本的内容自动判别文本类别的过程。对文本分类中所涉及的关键技术 ,包括向量... 随着网络信息的迅猛发展 ,信息处理已经成为人们获取有用信息不可缺少的工具。文本自动分类系统是信息处理的重要研究方向 ,它是指在给定的分类体系下 ,根据文本的内容自动判别文本类别的过程。对文本分类中所涉及的关键技术 ,包括向量空间模型、特征提取、机器学习方法等进行了研究和探讨 ,并且提出了基于向量空间模型的文本分类系统的结构 。 展开更多
关键词 中文信息处理 向量空间模型 文本自动分类系统 人工智能 计算机
下载PDF
中文搜索引擎中的中文信息处理技术 被引量:35
7
作者 邹海山 吴勇 +1 位作者 吴月珠 陈阵 《计算机应用研究》 CSCD 2000年第12期21-24,共4页
就中文搜索引擎中的若干中文信息处理技术作了较深入地探讨,对诸如中文分词、中文码制转换和中文全半角处理等方面提出了较完整的解决方案。
关键词 中文搜索引擎 中文信息处理技术 中文分词 码制转换 全半角处理 汉字编码 Internet
下载PDF
汉字的数学表达式研究 被引量:29
8
作者 孙星明 殷建平 +2 位作者 陈火旺 吴泉源 景新海 《计算机研究与发展》 EI CSCD 北大核心 2002年第6期707-711,共5页
通过深入分析汉字的有关结构知识,提出了一种全新的汉字的数学表达方法,该方法将汉字表示成由505个部件作为操作数、部件间的6种位置关系作为运算符号的数学表达式.这种表达方法接近自然,结构简单,而且可像普通的数学表达式一样按一定... 通过深入分析汉字的有关结构知识,提出了一种全新的汉字的数学表达方法,该方法将汉字表示成由505个部件作为操作数、部件间的6种位置关系作为运算符号的数学表达式.这种表达方法接近自然,结构简单,而且可像普通的数学表达式一样按一定的运算规则处理,它可广泛应用于排版印刷、广告、包装设计、网络传输及中文移动通信等领域.已成功地应用在汉字字形自动生成、互联网上跨平台传播汉字信息、挖掘有关汉字结构知识等方面. 展开更多
关键词 汉字 数学表达式 数据结构 部件 笔画 汉字识别
下载PDF
基于无指导学习策略的无词表条件下的汉语自动分词 被引量:37
9
作者 孙茂松 肖明 邹嘉彦 《计算机学报》 EI CSCD 北大核心 2004年第6期736-742,共7页
探讨了基于无指导学习策略和无词表条件下的汉语自动分词方法 ,以期对研制开放环境下健壮的分词系统有所裨益 .全部分词知识源自从生语料库中自动获得的汉字Bigram .在字间互信息和t 测试差的基础上 ,提出了一种将两者线性叠加的新的统... 探讨了基于无指导学习策略和无词表条件下的汉语自动分词方法 ,以期对研制开放环境下健壮的分词系统有所裨益 .全部分词知识源自从生语料库中自动获得的汉字Bigram .在字间互信息和t 测试差的基础上 ,提出了一种将两者线性叠加的新的统计量md ,并引入了峰和谷的概念 ,进而设计了相应的分词算法 .大规模开放测试结果显示 ,该算法关于字间位置的分词正确率为 85 .88% ,较单独使用互信息或t 测试差分别提高了 2 4 7%和 5 6 6 % . 展开更多
关键词 无指导学习 汉语自动分词 汉字Bigram 互信息 t-测试差 线性叠加 统计量 中文信息处理应用系统
下载PDF
全二分最大匹配快速分词算法 被引量:39
10
作者 李振星 徐泽平 +1 位作者 唐卫清 唐荣锡 《计算机工程与应用》 CSCD 北大核心 2002年第11期106-109,共4页
分词对于中文信息处理的诸多领域都是一个非常重要的基本组成部分,对于诸如搜索引擎等海量信息处理的应用,分词的速度是至关重要的。该文在对中文编码体系和中文分词的算法进行研究的基础上,提出一种新的分词词典,基于这种分词设计了一... 分词对于中文信息处理的诸多领域都是一个非常重要的基本组成部分,对于诸如搜索引擎等海量信息处理的应用,分词的速度是至关重要的。该文在对中文编码体系和中文分词的算法进行研究的基础上,提出一种新的分词词典,基于这种分词设计了一种快速的分词算法,给出了算法的实现过程。 展开更多
关键词 全二分最大匹配快速分词算法 自动分词 中文信息处理 数据结构
下载PDF
一个无需词典支持和切词处理的中文文档分类系统 被引量:23
11
作者 周水庚 关佶红 +1 位作者 胡运发 周傲英 《计算机研究与发展》 EI CSCD 北大核心 2001年第7期839-844,共6页
报道了一个无需词典支持和切词处理的中文文档分类系统 .其特点是利用 N - gram信息进行中文文档分类 ,使中文文档分类摆脱了对词典和切词处理的依赖 ,实现了中文文档分类的领域无关性和时间无关性 ;采用开放的体系结构使文档分类系统... 报道了一个无需词典支持和切词处理的中文文档分类系统 .其特点是利用 N - gram信息进行中文文档分类 ,使中文文档分类摆脱了对词典和切词处理的依赖 ,实现了中文文档分类的领域无关性和时间无关性 ;采用开放的体系结构使文档分类系统易于功能扩充和性能完善 .测试结果表明该系统具有令人满意的分类性能 . 展开更多
关键词 中文文档分类系统 词典支持 切词处理 中文信息处理 INTERNET
下载PDF
汉语多重关系复句的关系层次分析 被引量:24
12
作者 鲁松 白硕 +1 位作者 李素建 刘群 《软件学报》 EI CSCD 北大核心 2001年第7期987-995,共9页
汉语多重关系复句的句法分析问题主要由复句中的关系分析和层次分析两部分组成 .将多重关系复句中的层次分析作为研究对象 .它是针对多种逻辑或并列关系 ,按照一定层次组成复杂主从关系复句而进行的关系层次分析过程 .为了有效地形式化... 汉语多重关系复句的句法分析问题主要由复句中的关系分析和层次分析两部分组成 .将多重关系复句中的层次分析作为研究对象 .它是针对多种逻辑或并列关系 ,按照一定层次组成复杂主从关系复句而进行的关系层次分析过程 .为了有效地形式化地表示多重关系复句的层次结构 ,提出了关系层次树的概念 ,并以此为基础构造文法 ,采用部分数据驱动的确定性移进 归约算法实现多重关系复句的关系层次分析 .通过开放测试对计算机实现的多重关系复句句法分析器进行考察 ,93.56 %的正确率使所提出的分析方法的有效性和正确性得到了充分的验证 . 展开更多
关键词 句法分析 关系层次树 汉语多重关系复句 自然语言理解
下载PDF
一种中文分词词典新机制——双字哈希机制 被引量:108
13
作者 李庆虎 陈玉健 孙家广 《中文信息学报》 CSCD 北大核心 2003年第4期13-18,共6页
汉语自动分词是汉语信息处理的前提 ,词典是汉语自动分词的基础 ,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典机制在中文分词中的重要性及已有的三种典型词典机制 ,并在此基础上根据汉语中双字词语较多... 汉语自动分词是汉语信息处理的前提 ,词典是汉语自动分词的基础 ,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典机制在中文分词中的重要性及已有的三种典型词典机制 ,并在此基础上根据汉语中双字词语较多的特点提出了一种新的分词词典机制———双字哈希机制 ,在不提升已有典型词典机制空间复杂度与维护复杂度的情况下 ,提高了中文分词的速度和效率。 展开更多
关键词 汉语自动分词 汉语信息处理 分词词典机制 双字哈希机制 分词速度 分词效率
下载PDF
基于SVM和k-NN结合的汉语交集型歧义切分方法 被引量:19
14
作者 李蓉 刘少辉 +1 位作者 叶世伟 史忠植 《中文信息学报》 CSCD 北大核心 2001年第6期13-18,共6页
本文提出了基于支持向量机 (SVM)和k 近邻 (k NN)相结合的一种分类方法 ,用于解决交集型伪歧义字段。首先将交集型伪歧义字段的歧义切分过程形式化为一个分类过程并给出一种歧义字段的表示方法。求解过程是一个有教师学习过程 ,从歧义... 本文提出了基于支持向量机 (SVM)和k 近邻 (k NN)相结合的一种分类方法 ,用于解决交集型伪歧义字段。首先将交集型伪歧义字段的歧义切分过程形式化为一个分类过程并给出一种歧义字段的表示方法。求解过程是一个有教师学习过程 ,从歧义字段中挑选出一些高频伪歧义字段 ,人工将其正确切分并代入SVM训练。对于待识别歧义字段通过使用SVM和k NN相结合的分类算法即可得到切分结果。实验结果显示使用此方法可以正确处理 91 .6%的交集歧义字段 ,而且该算法具有一定的稳定性。 展开更多
关键词 支持向量 类代表点 交集型歧义 汉语自动分词 歧义切分 SVM K-近邻 分类方法
下载PDF
基于对数模型的词义自动消歧 被引量:13
15
作者 朱靖波 李珩 +1 位作者 张跃 姚天顺 《软件学报》 EI CSCD 北大核心 2001年第9期1405-1412,共8页
提出了一种对数模型 (logarithm model,简称 L M) ,构造了一个词义自动消歧系统 LM-WSD(word sensedisambiguation based on logarithm model) .在词义自动消歧实验中 ,构造了 4种计算模型进行词义消歧 ,根据 4个计算模型的消歧结果 ,... 提出了一种对数模型 (logarithm model,简称 L M) ,构造了一个词义自动消歧系统 LM-WSD(word sensedisambiguation based on logarithm model) .在词义自动消歧实验中 ,构造了 4种计算模型进行词义消歧 ,根据 4个计算模型的消歧结果 ,分析了高频率词义、指示词、特定领域、固定搭配和固定用法信息对名词和动词词义消歧的影响 .目前 ,该词义自动消歧系统 L M-WSD已经应用于基于词层的英汉机器翻译系统 (汽车配件专业领域 )中 ,有效地提高了翻译性能 . 展开更多
关键词 词义自动消歧 机器翻译 对数模型 自然语言处理 计算机
下载PDF
无词典高频字串快速提取和统计算法研究 被引量:36
16
作者 韩客松 王永成 陈桂林 《中文信息学报》 CSCD 北大核心 2001年第2期23-30,共8页
本文提出了一种快速的高频字串提取和统计方法。使用Hash技术 ,该方法不需要词典 ,也不需要语料库的训练 ,不进行分词操作 ,依靠统计信息 ,提取高频字串。用语言学知识进行前缀后缀等处理后 ,得到的高频字串可以作为未登录词处理、歧义... 本文提出了一种快速的高频字串提取和统计方法。使用Hash技术 ,该方法不需要词典 ,也不需要语料库的训练 ,不进行分词操作 ,依靠统计信息 ,提取高频字串。用语言学知识进行前缀后缀等处理后 ,得到的高频字串可以作为未登录词处理、歧义消解和加权处理等的辅助信息。实验显示了该方法速度较快且不受文章本身的限制 。 展开更多
关键词 Hash技术 高频字串 统计 算法 提取 文本信息处理 语料库 前缀处理 后缀处理
下载PDF
字典与统计相结合的中文分词方法 被引量:42
17
作者 翟凤文 赫枫龄 左万利 《小型微型计算机系统》 CSCD 北大核心 2006年第9期1766-1771,共6页
提出了一种字典与统计相结合的中文分词方法,该方法首先利用基于字典的分词方法进行第一步处理,然后利用统计的方法处理第一步所产生的歧义问题和未登录词问题.本算法在基于字典的处理过程中,通过改进字典的存储结构,提高了字典匹配的速... 提出了一种字典与统计相结合的中文分词方法,该方法首先利用基于字典的分词方法进行第一步处理,然后利用统计的方法处理第一步所产生的歧义问题和未登录词问题.本算法在基于字典的处理过程中,通过改进字典的存储结构,提高了字典匹配的速度;在基于统计的处理过程中,通过统计和规则相结合的方法提高了交集型歧义切分的准确率,并且一定条件下解决了语境中高频未登录词问题,实验结果表明,由本文算法实现的分词系统DS fenc i的分全率达99.52%,准确率达98.52%. 展开更多
关键词 中文分词 基于字典的分词 基于统计的分词 交集型分词歧义
下载PDF
利用串匹配技术实现网上新闻的主题提取(英文) 被引量:11
18
作者 尹中航 王永成 +1 位作者 蔡巍 韩客松 《软件学报》 EI CSCD 北大核心 2002年第2期159-167,共9页
从文本中提取主题串是自然语言处理的重要基础之一.传统的提取方法主要是依据“词典加匹配”的模式.由于词典的更新速度无法同步于网上新闻中新词汇涌现的速度,而且词典的内容也无法完全涵盖网上新闻的范围, 因此这种方法不适用于网上... 从文本中提取主题串是自然语言处理的重要基础之一.传统的提取方法主要是依据“词典加匹配”的模式.由于词典的更新速度无法同步于网上新闻中新词汇涌现的速度,而且词典的内容也无法完全涵盖网上新闻的范围, 因此这种方法不适用于网上新闻的主题提取.提出并实现了一种不用词典即可提取新闻主题的新方法.该方法利用网上新闻的特殊结构,在标题和正文间寻找重复的字串.经过简单地处理,这些字串能够较好地反映新闻的主题.实验结果显示该方法能够准确、有效地提取出绝大部分网上新闻的主题,满足新闻自动处理的需要.该方法同样适用于其它亚洲语言和西方语言. 展开更多
关键词 网页 信息处理 网上新闻 主题提取 自然语言处理 串匹配技术
下载PDF
北京大学现代汉语语料库基本加工规范(续) 被引量:18
19
作者 俞士汶 段慧明 +1 位作者 朱学锋 孙斌 《中文信息学报》 CSCD 北大核心 2002年第6期58-65,共8页
北京大学计算语言学研究所已经完成了一个有 2 70 0万汉字的现代汉语语料库的基本加工。加工项目除词语切分和词性标注外 ,还包括专有名词 (人名、地名、团体机构名称等 )标注、语素子类标注以及动词、形容词的特殊用法标注。这项大规... 北京大学计算语言学研究所已经完成了一个有 2 70 0万汉字的现代汉语语料库的基本加工。加工项目除词语切分和词性标注外 ,还包括专有名词 (人名、地名、团体机构名称等 )标注、语素子类标注以及动词、形容词的特殊用法标注。这项大规模语言工程的顺利完成得益于事先制订并不断完善的规范。发表《北京大学现代汉语语料库基本加工规范》是为了抛砖引玉 ,更广泛地向专家、同行征询意见 ,以便进一步修订。 展开更多
关键词 北京大学 现代汉语语料库 加工规范 词语切分 词性标注 名词标注 汉字处理系统
下载PDF
基于规则的汉语句法分析方法研究 被引量:13
20
作者 王鹏 戴新宇 +1 位作者 陈家骏 王启祥 《计算机工程与应用》 CSCD 北大核心 2003年第29期63-66,169,共5页
该文从汉语的句法结构特点出发对基于规则的汉语句法分析方法进行讨论,从中总结出这类方法的一般特征,提出实用化的基于规则的汉语句法分析器必须引入其它辅助分析手段才能提高性能和可靠性。
关键词 句法分析 上下文无关文法 汉语 语料库 知识库
下载PDF
上一页 1 2 127 下一页 到第
使用帮助 返回顶部