期刊文献+
共找到110篇文章
< 1 2 6 >
每页显示 20 50 100
Text Mining Based on the Korean Word Segmentation System in the Context of Big Data
1
作者 Yongmin Quan Na Niu +1 位作者 Hongyi Li Zhezhi Jin 《信息工程期刊(中英文版)》 2018年第1期1-7,共7页
Text mining is a text data analysis,found that the relationship between concepts and underlying concepts from unstructured text,it is extracted from large text database has not yet been realized patterns or associatio... Text mining is a text data analysis,found that the relationship between concepts and underlying concepts from unstructured text,it is extracted from large text database has not yet been realized patterns or associations,some information retrieval and text processing system can find the relationship between words and paragraphs.This article first describes the data sources and a brief introduction to the related platforms and functional components.Secondly,it explains the Chinese word segmentation and the Korean word segmentation system.At last,it takes the news,documents and materials of the Korean Peninsula as well as the various public opinion data on the network as the basic data for the research.The examples of word frequency graph and word cloud graph is carried out to show the results of text mining through Chinese word segmentation system and Korean word segmentation system. 展开更多
关键词 BIG Data Platform chinese word segmentation SYSTEM KOREAN word segmentation SYSTEM TEXT Mining
下载PDF
基于ElasticSearch的输变电工程全文检索研究
2
作者 张建广 徐鲲 +3 位作者 董鉥涛 刘迪 王向上 李春林 《黑龙江科学》 2024年第16期94-97,共4页
随着输变电工程建设工作的开展,多源异构的全过程非结构化文档体量日益增大,需要对这些非结构化文档进行稳定管理。为实现输变电工程非结构化文档的高效检索,研究了基于ElasticSearch的输变电工程全文检索方案,构建电网专用术语词典对... 随着输变电工程建设工作的开展,多源异构的全过程非结构化文档体量日益增大,需要对这些非结构化文档进行稳定管理。为实现输变电工程非结构化文档的高效检索,研究了基于ElasticSearch的输变电工程全文检索方案,构建电网专用术语词典对智能化分词进行辅助优化,融合输变电工程资料的特征信息,对分词成果进行语义赋值,基于语义标签改进分词算法,进一步提升全文检索效率和准确率,搭建了输变电工程全文检索系统,以验证此技术方案的可行性。 展开更多
关键词 输变电工程 全文检索 ElasticSearch 中文分词 语义检索
下载PDF
基于BERT的电力领域无监督分词方法
3
作者 陆斯悦 张禄 +3 位作者 李香龙 邢其敬 段大鹏 林华 《信息技术》 2024年第1期96-103,共8页
目前,已有一些分词工具实现了通用领域分词,而在电力领域中进行分词面临相关文本少,缺乏已标注数据且人工标注工作成本高等问题。为了克服这些困难,提出了一种基于BERT特征编码的无监督分词工具,采用遮蔽语言模型(MLM),基于BERT计算部... 目前,已有一些分词工具实现了通用领域分词,而在电力领域中进行分词面临相关文本少,缺乏已标注数据且人工标注工作成本高等问题。为了克服这些困难,提出了一种基于BERT特征编码的无监督分词工具,采用遮蔽语言模型(MLM),基于BERT计算部分被遮蔽的句子的特征编码来度量句子各部分相似度,并将相似度较低的部分进行拆分,再通过N-Gram对于拆分结果进行重新组合,实现电力领域的无监督分词。实验结果表明,文中方法在通用领域优于现有分词工具,尤其在电力领域的分词任务中取得了较好的效果。 展开更多
关键词 电力文本 中文分词 无监督 BERT 遮蔽语言模型
下载PDF
基于朴素贝叶斯算法的微博垃圾信息自动识别系统
4
作者 崔凯雯 《移动信息》 2024年第6期291-294,共4页
贝叶斯算法是一种利用数学概率来计算可能性的算法,被广泛用于各种分类器,其将所有事件都假设为相互独立的事件,从而降低算法难度。文中设计并实现了一种基于朴素贝叶斯算法的微博垃圾信息自动识别系统。该系统基于MyEclipse8.6工具,采... 贝叶斯算法是一种利用数学概率来计算可能性的算法,被广泛用于各种分类器,其将所有事件都假设为相互独立的事件,从而降低算法难度。文中设计并实现了一种基于朴素贝叶斯算法的微博垃圾信息自动识别系统。该系统基于MyEclipse8.6工具,采用Java语言进行开发,首先使用爬虫程序对微博评论区内容进行抓取,并以txt格式保存评论区内容以备后续训练使用,随后采用MMAnalyzer算法进行中文文本分词,提取文本特征,最后使用朴素贝叶斯分类器进行分类。实验结果表明,基于朴素贝叶斯算法的分类器设计简单、使用方便且正确率较高,是一种具有良好前景的初级分类器。 展开更多
关键词 朴素贝叶斯算法 分类器 中文分词 文本分类
下载PDF
第一届古代汉语分词和词性标注国际评测 被引量:5
5
作者 李斌 袁义国 +4 位作者 芦靖雅 冯敏萱 许超 曲维光 王东波 《中文信息学报》 CSCD 北大核心 2023年第3期46-53,64,共9页
中文古籍数量庞大,亟待智能处理方法进行自动处理。古文的自动分词和词性标注,是古汉语信息处理的基础任务。而大规模词库和标注语料库的缺失,导致古汉语自动分析技术发展较慢。该文介绍了第一届古代汉语分词和词性标注国际评测的概况,... 中文古籍数量庞大,亟待智能处理方法进行自动处理。古文的自动分词和词性标注,是古汉语信息处理的基础任务。而大规模词库和标注语料库的缺失,导致古汉语自动分析技术发展较慢。该文介绍了第一届古代汉语分词和词性标注国际评测的概况,评测以人工标校的精加工语料库作为统一的训练数据,以F_(1)值作为评测指标,比较了古汉语词法分析系统在测试数据(基测集和盲测集)上的优劣。评测还根据是否使用外部资源,区分出开放和封闭两种测试模式。该评测在第十三届语言资源与评测会议的第二届历史和古代语言技术研讨会上举办,共有14支队伍参赛。在基测集上,封闭测试模式分词和词性标注的F_(1)值分别达到了96.16%和92.05%,开放测试模式分词和词性标注的F_(1)值分别达到了96.34%和92.56%。在盲测集上,封闭测试分词和词性标注的F_(1)值分别达到93.64%和87.77%,开放测试分词和词性标注F_(1)值则分别达到95.03%和89.47%。未登录词依然是古代汉语词法分析的瓶颈。该评测的最优系统把目前古汉语词法分析提高到新的水平,深度学习和预训练模型有力地提高了古汉语自动分析的效果。 展开更多
关键词 古汉语 评测 自动分词 词性标注 古文信息处理
下载PDF
中文工艺规范文本分词语料的构建与研究 被引量:1
6
作者 王裴岩 张莹欣 +3 位作者 付小强 陈佳欣 徐楠 蔡东风 《计算机科学》 CSCD 北大核心 2023年第S02期63-68,共6页
中文分词是处理工艺规范文本的一项基本任务,并且在工艺知识图谱与智能问答等下游任务中发挥着重要作用。工艺规范文本分词面临的一个挑战是缺乏高质量标注的语料,特别是面向术语、名词短语、工艺参数、数量词等特殊语言现象的分词规范... 中文分词是处理工艺规范文本的一项基本任务,并且在工艺知识图谱与智能问答等下游任务中发挥着重要作用。工艺规范文本分词面临的一个挑战是缺乏高质量标注的语料,特别是面向术语、名词短语、工艺参数、数量词等特殊语言现象的分词规范。文中面向工艺规范文本制定了专用分词规范,收集并标注了一个中文工艺规范文本分词语料(WS-MPST),含11900个句子与255160个词,4名标注者分词标注一致性达95.25%。在WS-MPST语料上对著名的BiLSTM-CRF与BERT-CRF模型进行了对比实验,F1值分别达到92.61%与93.69%。实验结果表明,构建专用的工艺规范分词语料是必要的。对实验结果的深入分析揭示了未登录词与中文非中文字符混合构成的词是工艺规范文本分词的难点,也为今后工艺规范文本及相关领域的分词研究提供了一定的指导。 展开更多
关键词 中文分词 工艺规范文本 分词规范 分词语料 分词模型
下载PDF
智能时代的网络舆情分析技术应用 被引量:1
7
作者 周洪斌 贾苏 许礼捷 《微型电脑应用》 2023年第12期66-68,共3页
网络舆情具有集中式、爆发式的特点,因此对网络舆情进行s及时有效的分析是当今社会治理必须面对的问题。智能技术的发展为网络舆情数据的高效收集、分析提供了全新的方式、方法。采用网络爬虫、中文分词以及文本情感分析技术,实现新闻... 网络舆情具有集中式、爆发式的特点,因此对网络舆情进行s及时有效的分析是当今社会治理必须面对的问题。智能技术的发展为网络舆情数据的高效收集、分析提供了全新的方式、方法。采用网络爬虫、中文分词以及文本情感分析技术,实现新闻评论的自动化采集、可视化分析,为网络舆情分析与引导提供帮助。 展开更多
关键词 网络舆情分析 网络爬虫 中文分词 文本情感分析
下载PDF
基于图卷积神经网络的古汉语分词研究 被引量:5
8
作者 唐雪梅 苏祺 +1 位作者 王军 杨浩 《情报学报》 CSSCI CSCD 北大核心 2023年第6期740-750,共11页
古汉语的语法有省略、语序倒置的特点,词法有词类活用、代词名词丰富的特点,这些特点增加了古汉语分词的难度,并带来严重的out-of-vocabulary(OOV)问题。目前,深度学习方法已被广泛地应用在古汉语分词任务中并取得了成功,但是这些研究... 古汉语的语法有省略、语序倒置的特点,词法有词类活用、代词名词丰富的特点,这些特点增加了古汉语分词的难度,并带来严重的out-of-vocabulary(OOV)问题。目前,深度学习方法已被广泛地应用在古汉语分词任务中并取得了成功,但是这些研究更关注的是如何提高分词效果,忽视了分词任务中的一大挑战,即OOV问题。因此,本文提出了一种基于图卷积神经网络的古汉语分词框架,通过结合预训练语言模型和图卷积神经网络,将外部知识融合到神经网络模型中来提高分词性能并缓解OOV问题。在《左传》《战国策》和《儒林外史》3个古汉语分词数据集上的研究结果显示,本文模型提高了3个数据集的分词表现。进一步的研究分析证明,本文模型能够有效地融合词典和N-gram信息;特别是N-gram有助于缓解OOV问题。 展开更多
关键词 古汉语 汉语分词 图卷积神经网络 预训练语言模型 BERT(bidirectional encoder representations from transformers)
下载PDF
上古汉语分词与词性标注加工规范——基于《史记》深加工语料库的标注实践 被引量:1
9
作者 郑童哲恒 李斌 《语言文字应用》 CSSCI 北大核心 2023年第4期93-104,共12页
上古(先秦两汉)时期流传至今的古籍经典数量大、价值高,亟需进行计算处理和挖掘,作为词法分析的分词与词性标注就成为古汉语信息处理的基础性工作。古汉语文本具有缺乏词语边界、内容艰深、与现代汉语差异大、不同时期差异大等特点,古... 上古(先秦两汉)时期流传至今的古籍经典数量大、价值高,亟需进行计算处理和挖掘,作为词法分析的分词与词性标注就成为古汉语信息处理的基础性工作。古汉语文本具有缺乏词语边界、内容艰深、与现代汉语差异大、不同时期差异大等特点,古文分词与词性标注一直处于研究不足、缺乏标注规范的状态,限制了语料库构建和自动分析的研究。本文针对这一问题,根据现代汉语研究领域相关成果以及上古汉语词汇特点,构建出信息处理用上古汉语分词与词性标注规范。规范由原则和细则两部分组成。原则部分包括单字词优先等7条分词原则,具体语境中的语法功能等3条词类划分及词性标注原则。古汉语词类划分为14个一级类和15个二级类,细则部分包含了大量语言现象标注实例。该规范在45万余字《史记》语料库的建设过程中不断修改完善。语料统计得出了《史记》单字词和多字词的词例数量以及最高频词类。本文可以为上古汉语深加工语料库建设提供基础支撑,助推古汉语信息处理标准化和规范化。 展开更多
关键词 上古汉语 词语切分 词性标注 规范 《史记》
下载PDF
基于改进T5 PEGASUS模型的新闻文本摘要生成 被引量:5
10
作者 张琪 范永胜 《电子科技》 2023年第12期72-78,共7页
生成任务旨在解决用户在阅读新闻时无法快速把握内容重点而造成的时间损耗和阅读疲劳等问题。目前面向中文的文本摘要模型效果较佳的是T5 PEGASUS模型,但针对该模型的研究较少。文中针对T5 PEGASUS模型的中文分词方面进行改进,使用更适... 生成任务旨在解决用户在阅读新闻时无法快速把握内容重点而造成的时间损耗和阅读疲劳等问题。目前面向中文的文本摘要模型效果较佳的是T5 PEGASUS模型,但针对该模型的研究较少。文中针对T5 PEGASUS模型的中文分词方面进行改进,使用更适用于新闻领域的Pkuseg分词方法进行处理,并在NLPCC2017、LCSTS、SogouCS这3种新闻长度不同的公开数据集上验证其有效性。研究发现Pkuseg分词方法更适合T5 PEGASUS模型,模型生成摘要的ROUGE(Recall-Oriented Understudy for Gisting Evaluation)值与新闻文本长度成正相关,训练集损失值和损失值下降速度与新闻文本长度成负相关,在面对少量训练集时能得到较高的ROUGE分数,因此该模型具有较强的小样本学习能力。 展开更多
关键词 文本摘要生成 生成式模型 T5 PEGASUS 新闻文本 中文分词 Pkuseg 小样本学习 ROUGE
下载PDF
基于改进BERT的电力领域中文分词方法 被引量:1
11
作者 夏飞 陈帅琦 +1 位作者 华珉 蒋碧鸿 《计算机应用》 CSCD 北大核心 2023年第12期3711-3718,共8页
针对电力领域中文文本包含大量专有词时分词效果不佳的问题,提出一种基于改进BERT(Bidirectional Encoder Representation from Transformers)的电力领域中文分词(CWS)方法。首先,构建分别涵盖通用、领域词的词典,并设计双词典匹配融合... 针对电力领域中文文本包含大量专有词时分词效果不佳的问题,提出一种基于改进BERT(Bidirectional Encoder Representation from Transformers)的电力领域中文分词(CWS)方法。首先,构建分别涵盖通用、领域词的词典,并设计双词典匹配融合机制将词特征直接融入BERT模型,使模型更有效地利用外部知识;其次,通过引入DEEPNORM方法提高模型对于特征的提取能力,并使用贝叶斯信息准则(BIC)确定模型的最佳深度,使BERT模型稳定加深至40层;最后,采用ProbSparse自注意力机制层替换BERT模型中的经典自注意力机制层,并利用粒子群优化(PSO)算法确定采样因子的最优值,在降低模型复杂度的同时确保模型性能不变。在人工标注的电力领域专利文本数据集上进行了分词性能测试。实验结果表明,所提方法在该数据集分词任务中的F1值达到了92.87%,相较于隐马尔可夫模型(HMM)、多标准分词模型METASEG(pre-training model with META learning for Chinese word SEGmentation)与词典增强型BERT(LEBERT)模型分别提高了14.70、9.89与3.60个百分点,验证了所提方法有效提高了电力领域中文文本的分词质量。 展开更多
关键词 中文分词 领域分词 改进BERT 电力文本 深度学习 自然语言处理
下载PDF
基于二阶隐马尔可夫模型的中文分词在文本情感分析中的应用 被引量:1
12
作者 李沅静 叶仁玉 冷婷 《安庆师范大学学报(自然科学版)》 2023年第3期44-48,共5页
传统一阶隐马尔可夫分词模型只考虑相邻变量间的条件概率,其在获取上下文信息方面潜力有限。基于此,本文利用二阶隐马尔可夫模型来充分联系上下文语义信息并对文本进行精确分词,同时提出了一种基于二阶隐马尔可夫模型的情感分析方法,可... 传统一阶隐马尔可夫分词模型只考虑相邻变量间的条件概率,其在获取上下文信息方面潜力有限。基于此,本文利用二阶隐马尔可夫模型来充分联系上下文语义信息并对文本进行精确分词,同时提出了一种基于二阶隐马尔可夫模型的情感分析方法,可以利用Baum-Welch算法对参数模型进行有效估计。实证结果表明,该方法的情感分类准确率达到72.23%,比一阶隐马尔可夫模型方法高出0.95%。 展开更多
关键词 文本情感分析 中文分词 二阶隐马尔可夫模型 Baum-Welch算法
下载PDF
基于文本挖掘的倒闸操作票智能校核方法及应用
13
作者 关振坚 唐涛涛 +2 位作者 刘志欣 吕叶卿 陈月辉 《电工技术》 2023年第18期138-140,143,共4页
倒闸操作票的准确性直接影响电力设备与人身安全,现有的出票方法和出票软件存在四大问题,导致操作票出错的情况时有发生。为了解决这些问题,利用操作票规律性强、句式固定、词汇单一等特点,提出了基于文本挖掘的操作票智能校核方法,运... 倒闸操作票的准确性直接影响电力设备与人身安全,现有的出票方法和出票软件存在四大问题,导致操作票出错的情况时有发生。为了解决这些问题,利用操作票规律性强、句式固定、词汇单一等特点,提出了基于文本挖掘的操作票智能校核方法,运用汉语分词与正则表达式技术挖掘历史操作票文本,自动生成校核用的知识库与数据库,进而实现操作票的智能校核。最后,在中山市某变电站的应用实践证明了该方法的有效性和可靠性。 展开更多
关键词 倒闸操作票 智能校核 文本挖掘 汉语分词 正则表达式
下载PDF
基于自适应中文分词和近似SVM的文本分类算法 被引量:21
14
作者 冯永 李华 +1 位作者 钟将 叶春晓 《计算机科学》 CSCD 北大核心 2010年第1期251-254,293,共5页
中文分词的难点在于处理歧义和识别未登录词,传统字典的匹配算法很大程度上是依靠字典的代表性而无法有效地识别新词,特别是对于各种行业领域的知识管理。基于二元统计模型的分词算法能很好地适应不同的语料信息,且时间和精度都能满足... 中文分词的难点在于处理歧义和识别未登录词,传统字典的匹配算法很大程度上是依靠字典的代表性而无法有效地识别新词,特别是对于各种行业领域的知识管理。基于二元统计模型的分词算法能很好地适应不同的语料信息,且时间和精度都能满足文本知识管理的应用需要。近似支持向量机是将问题归结成仅含线性等式约束的二次规划问题,该算法的时间复杂度和空间复杂度比传统SVM算法的均有降低。在利用自适应分词算法进行分词的基础上,再利用近似支持向量机进行文本分类。实验表明,该方法能够自动适应行业领域的知识管理,且满足文本知识管理对训练时间敏感和需要处理大量文本的苛刻环境要求,从而具备较大的实用价值。 展开更多
关键词 自适应中文分词 近似支持向量机 文本分类 知识管理
下载PDF
具有三级索引词库结构的中文分词方法研究 被引量:16
15
作者 肖红 许少华 李欣 《计算机应用研究》 CSCD 北大核心 2006年第8期49-51,共3页
提出了一种分组并具有三级索引结构的词库组织体系,给出了合适的索引密度间隔;针对系统基本词库的扩充问题,考虑了一种基于词频统计并具有过滤功能的关键词自动抽取和小词条添加方法。大量仿真实验结果表明,采用该方法可较大提高中文文... 提出了一种分组并具有三级索引结构的词库组织体系,给出了合适的索引密度间隔;针对系统基本词库的扩充问题,考虑了一种基于词频统计并具有过滤功能的关键词自动抽取和小词条添加方法。大量仿真实验结果表明,采用该方法可较大提高中文文本的切词速度及信息的查全查准率。 展开更多
关键词 中文切词 正向最大匹配 词库 索引密度 全文检索
下载PDF
中文病历文本分词方法研究 被引量:8
16
作者 李国垒 陈先来 +1 位作者 夏冬 杨荣 《中国生物医学工程学报》 CAS CSCD 北大核心 2016年第4期477-481,共5页
探索适合医学文本的分词方法,为医学数据挖掘和临床决策支持的语义分析奠定基础。分别使用单纯中科院ICTCLAS分词、ICTCLAS+自定义词典、ICTCLAS+统计分词和ICTCLAS+自定义词典结合互信息统计分词4种策略,对1 500份出院记录中的病历文... 探索适合医学文本的分词方法,为医学数据挖掘和临床决策支持的语义分析奠定基础。分别使用单纯中科院ICTCLAS分词、ICTCLAS+自定义词典、ICTCLAS+统计分词和ICTCLAS+自定义词典结合互信息统计分词4种策略,对1 500份出院记录中的病历文本进行分词处理,并从准确率、召回率和综合指标值等3个方面对分词结果进行评价。以人工分词的50份出院记录结果为标准依据,4种分词策略的综合指标值分别为45.77%、58.76%、64.93%和78.06%。结果证实,自定义词典结合基于互信息的统计分词方法,能够有效地对病历中出院记录文本进行分词处理,可以满足临床数据分析的需求,具有良好的推广意义。 展开更多
关键词 病历文本 中文分词 统计分词 词典分词 出院记录
下载PDF
基于Lucene的地名数据库快速检索系统 被引量:20
17
作者 张文元 周世宇 谈国新 《计算机应用研究》 CSCD 北大核心 2017年第6期1756-1761,共6页
针对传统关系型数据库海量地名数据检索效率低下的问题,提出了一种盘古分词和Lucene全文检索相结合的地名数据库快速检索方法。首先,设计了一种地名数据表结构,比较了几种常用开源分词器的中文分词性能,并选用性能优异的盘古中文分词器... 针对传统关系型数据库海量地名数据检索效率低下的问题,提出了一种盘古分词和Lucene全文检索相结合的地名数据库快速检索方法。首先,设计了一种地名数据表结构,比较了几种常用开源分词器的中文分词性能,并选用性能优异的盘古中文分词器,通过扩展其词典来实现中文地名的有效分词。其次,利用内存索引和多线程并行处理技术提高Lucene创建倒排索引效率,并依据地名类别和显示优先级属性优化了检索结果相关度排序策略。最后,开发了一套具有快速搜索和地图定位展示的Web地名检索系统,使用500万条真实地名数据测试了其检索性能,查询平均耗时不到1s,比MySQL数据库模糊检索效率提高了15倍,匹配结果也更加准确,能够提供高效灵活的海量地名公共检索服务。 展开更多
关键词 LUCENE 地名 全文检索 数据库 中文分词 相关度排序
下载PDF
基于Lucene的站内搜索设计与实现 被引量:12
18
作者 朱学昊 王儒敬 +1 位作者 余锋林 唐昱 《计算机应用与软件》 CSCD 北大核心 2008年第10期6-8,共3页
简述了站内全文检索的必要性,介绍了一种基于Lucene的全文检索系统模型,相对于Google的站内检索和传统的数据库检索都有较为明显的优势。该模型引入更好的中文分词技术,可自定义最终结果的排序。能够保证检索的前100条记录最符合检索者... 简述了站内全文检索的必要性,介绍了一种基于Lucene的全文检索系统模型,相对于Google的站内检索和传统的数据库检索都有较为明显的优势。该模型引入更好的中文分词技术,可自定义最终结果的排序。能够保证检索的前100条记录最符合检索者的需要。 展开更多
关键词 全文检索 LUCENE 中文分词 信息抽取
下载PDF
一种快速中文分词词典机制 被引量:16
19
作者 吴晶晶 荆继武 +1 位作者 聂晓峰 王平建 《中国科学院研究生院学报》 CAS CSCD 北大核心 2009年第5期703-711,共9页
通过研究目前中文分词领域各类分词机制,注意到中文快速分词机制的关键在于对单双字词的识别,在这一思想下,提出了一种快速中文分词机制:双字词-长词哈希机制,通过提高单双字词的查询效率来实现对中文分词机制的改进.实验证明,该机制提... 通过研究目前中文分词领域各类分词机制,注意到中文快速分词机制的关键在于对单双字词的识别,在这一思想下,提出了一种快速中文分词机制:双字词-长词哈希机制,通过提高单双字词的查询效率来实现对中文分词机制的改进.实验证明,该机制提高了中文文本分词的效率. 展开更多
关键词 文本实时处理 中文分词 词典法分词 双字词-长词哈希机制
下载PDF
中文生物医学文本无词典分词方法研究 被引量:4
20
作者 王军辉 胡铁军 +2 位作者 李丹亚 钱庆 方安 《情报学报》 CSSCI 北大核心 2011年第2期197-203,共7页
为了在不利用词典的条件下实现对中文生物医学文本的有效切分,结合中文生物医学文本专业术语多、新术语不断出现和结构式摘要的特点,引入一种基于重现原理的无词典分词方法,并在实际应用过程中从分词长度上限值的设定和层次特征项抽取... 为了在不利用词典的条件下实现对中文生物医学文本的有效切分,结合中文生物医学文本专业术语多、新术语不断出现和结构式摘要的特点,引入一种基于重现原理的无词典分词方法,并在实际应用过程中从分词长度上限值的设定和层次特征项抽取两方面对其进行了改进.实验结果表明,该方法可以在不需要词典和语料库学习的情况下,实现对生物医学文本中关键性专业术语的有效抽取,分词准确率约为84.51%.最后,基于本研究中的分词结果,对生物医学领域的词长分布进行了初步探讨,结果表明中文生物医学领域的词长分布与普通汉语文本有非常大的差异.研究结果对在处理中文生物医学文本时N-gram模型中N值的确定具有一定的参考价值. 展开更多
关键词 无词典分词 结构式摘要 生物医学文本
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部