期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
汉语语言的无词典分词模型系统 被引量:22
1
作者 韩客松 王永成 陈桂林 《计算机应用研究》 CSCD 1999年第10期8-9,共2页
本文主要人人知识的自动获取出发;介绍了研究中的汉语语言的无词典分词模型系统、通过算法的自然语言描述,阐述了模型的思想,分析了它与传统方法相比的优点,提出了要使系统达到实用还需解决的几个问题。
关键词 中文信息处理 知识自动获取 分词模型 汉语语言
下载PDF
基于统计的汉语分词模型及实现方法 被引量:6
2
作者 沈达阳 孙茂松 黄昌宁 《中文信息》 1998年第2期96-98,共3页
本文介绍了一种基于统计的汉语分词模型以及该模型在不同资源要求下的实现方法,并进一步讨论了这种方法的优缺点,最后,作者实现了这些方法,并给出相应的实验结果和结论。
关键词 中文信息处理 汉语分词 统计 汉语分词模型
下载PDF
基于SentencePiece的中医学分词模型建模研究 被引量:1
3
作者 刘双巧 周璐 +7 位作者 李彩艳 袁慧敏 张异卓 李昱达 刘锦钢 郑丰杰 孙燕 李宇航 《世界中医药》 CAS 2021年第6期981-985,990,共6页
目的:探索构建适用于中医学领域的分词模型。方法:采用基于SentencePiece的无监督学习分词方法,提出利用出版教材、名家著作及中医临床病历这3种不同类型的文献构建中医学分词模型;选择中医临床病历、名医医案作为测试集进行模型测试。... 目的:探索构建适用于中医学领域的分词模型。方法:采用基于SentencePiece的无监督学习分词方法,提出利用出版教材、名家著作及中医临床病历这3种不同类型的文献构建中医学分词模型;选择中医临床病历、名医医案作为测试集进行模型测试。结果:中医学分词模型在测试集中的Kappa系数为0.79(一致性程度很高),准确率为0.84,宏观精确率为0.84,宏观召回率为0.83,宏观f1得分为0.83。结论:所构建的分词模型对于中医学专业术语有着较好的切分效果,表明该方法可运用于中医学领域的分词模型的构建,可为进一步地研究中医学分词提供方法学参考。 展开更多
关键词 分词 中文分词 分词模型 无监督学习 无监督分词 SentencePiece
下载PDF
基于CRF模型的维吾尔语分词研究
4
作者 李成华 孙雅婧 +1 位作者 张世娟 艾提日也古丽·艾尼瓦尔 《中南民族大学学报(自然科学版)》 CAS 2019年第4期596-604,共9页
条件随机场能够很好地处理序列标注问题.引入条件随机场进行维吾尔语分词方法研究,主要包括制定词性和分词单独标注与一体化标注集并建成语料库;设计不同特征模板进行训练测试,反复比较实验结果,总结优化以获取最佳的特征模板.在设计特... 条件随机场能够很好地处理序列标注问题.引入条件随机场进行维吾尔语分词方法研究,主要包括制定词性和分词单独标注与一体化标注集并建成语料库;设计不同特征模板进行训练测试,反复比较实验结果,总结优化以获取最佳的特征模板.在设计特征模板时充分结合维吾尔语语言形态特征,采用了对称特征组合非对称特征的设计方法,并将获得的最佳分词模板应用到分步预测词性和分词实验中.相比单独分词标注,分词时加入词性特征列进行分词与词性一体化标注能展现更优的分词性能. 展开更多
关键词 条件随机场 维吾尔语分词 特征模板 分词模型 分步实验
下载PDF
中文工艺规范文本分词语料的构建与研究
5
作者 王裴岩 张莹欣 +3 位作者 付小强 陈佳欣 徐楠 蔡东风 《计算机科学》 CSCD 北大核心 2023年第S02期63-68,共6页
中文分词是处理工艺规范文本的一项基本任务,并且在工艺知识图谱与智能问答等下游任务中发挥着重要作用。工艺规范文本分词面临的一个挑战是缺乏高质量标注的语料,特别是面向术语、名词短语、工艺参数、数量词等特殊语言现象的分词规范... 中文分词是处理工艺规范文本的一项基本任务,并且在工艺知识图谱与智能问答等下游任务中发挥着重要作用。工艺规范文本分词面临的一个挑战是缺乏高质量标注的语料,特别是面向术语、名词短语、工艺参数、数量词等特殊语言现象的分词规范。文中面向工艺规范文本制定了专用分词规范,收集并标注了一个中文工艺规范文本分词语料(WS-MPST),含11900个句子与255160个词,4名标注者分词标注一致性达95.25%。在WS-MPST语料上对著名的BiLSTM-CRF与BERT-CRF模型进行了对比实验,F1值分别达到92.61%与93.69%。实验结果表明,构建专用的工艺规范分词语料是必要的。对实验结果的深入分析揭示了未登录词与中文非中文字符混合构成的词是工艺规范文本分词的难点,也为今后工艺规范文本及相关领域的分词研究提供了一定的指导。 展开更多
关键词 中文分词 工艺规范文本 分词规范 分词语料 分词模型
下载PDF
中文自动分词系统的设计模型 被引量:13
6
作者 邓宏涛 《计算机与数字工程》 2005年第4期138-140,共3页
介绍了常用的中文自动分词方法,在此基础上,给出了中文自动分词系统的理论模型,指出评价自动分词系统优劣的性能指标,并对分词系统的发展作了探讨。
关键词 分词方法 分词系统模型 性能指标
下载PDF
关于中文分词问题数据结构模型的讨论
7
作者 张青 李大农 《黄冈师范学院学报》 2013年第6期72-76,共5页
在分词工作常用数据结构模型的基础上,提出了字符串完全分词网络模型,讨论了该模型的基本性质,给出了其中的路径查找基本算法。该模型能反映中文分词问题自身的特点,便于分析分词问题中的统一性质。利用该模型将全切分图的生成、修改、... 在分词工作常用数据结构模型的基础上,提出了字符串完全分词网络模型,讨论了该模型的基本性质,给出了其中的路径查找基本算法。该模型能反映中文分词问题自身的特点,便于分析分词问题中的统一性质。利用该模型将全切分图的生成、修改、路径查找等工作分解为统一平台上相对独立的过程,能较好地配合多种常用分词算法,简化对各种算法的研究和描述。该模型与自然语言理解后续工作使用的数据结构如句法树等也有很好的相似性。 展开更多
关键词 自然语言处理 中文分词 分词网络模型 最大匹配算法 最短路径算法
下载PDF
基于分词矩阵模型的模糊匹配查重算法研究 被引量:4
8
作者 李成龙 杨冬菊 韩燕波 《计算机科学》 CSCD 北大核心 2017年第B11期55-60,83,共7页
针对中文文本查重的需求,利用分词的结果,将待查重的目标文本和查重样本文本转换为分词矩阵模型,然后扫描和分析矩阵,得到查重结果。由此提出了一种查重算法,并通过实例验证了该算法具有一定的实用效果。
关键词 相似度 分词矩阵模型 模糊匹配 查重算法
下载PDF
汉语自动分词研究及其在信息检索中的应用 被引量:18
9
作者 曹倩 丁艳 +1 位作者 王超 潘金贵 《计算机应用研究》 CSCD 北大核心 2004年第5期71-74,91,共5页
汉语自动分词问题是中文信息检索的基础问题,也是阻碍其向前发展的“瓶颈”问题。介绍了分词技术的发展状况,分析了分词技术在信息检索过程中的应用,并讨论了信息检索和分词技术结合的方式和需要以及解决的关键技术问题。
关键词 汉语分词 分词模型 歧义分析 中文信息检索
下载PDF
一种基于EM非监督训练的自组织分词歧义解决方案 被引量:14
10
作者 王伟 钟义信 +1 位作者 孙建 杨力 《中文信息学报》 CSCD 北大核心 2001年第2期38-44,共7页
本文旨在提供一种基于非监督训练的分词歧义解决方案和一种分词算法。基于EM的思想 ,每个句子所对应的所有 (或一定范围内 )的分词结果构成训练集 ,通过这个训练集和初始的语言模型可以估计出一个新的语言模型。最终的语言模型通过多次... 本文旨在提供一种基于非监督训练的分词歧义解决方案和一种分词算法。基于EM的思想 ,每个句子所对应的所有 (或一定范围内 )的分词结果构成训练集 ,通过这个训练集和初始的语言模型可以估计出一个新的语言模型。最终的语言模型通过多次迭代而得到。通过一种基于该最终语言模型的统计分词算法 ,对于每个句子至少带有一个歧义的测试集的正确切分精度达到 85 .36 % (以句子为单位 ) 展开更多
关键词 EM算法 分词歧义 非监督训练 分词语言模型 歧义消除 汉语处理 训练算法 分词算法
下载PDF
基于上下文相关的最大概率汉语自动分词算法 被引量:8
11
作者 金瑜 陆启明 高峰 《计算机工程》 CAS CSCD 北大核心 2004年第16期146-148,共3页
提出了一种新的汉语自动分词算法,其主要思想是通过前后两次对文章的扫描来解决分词过程中出现的交叉歧义问题,介绍了一种新的有效的字段切分算法,它能够排除类似穷举算法中冗余的单字词的切分可能。
关键词 上下文相关 汉语自动分词 分词统计模型
下载PDF
中文地名地址成分信息识别
12
作者 王钟岳 刘洋 《数字技术与应用》 2023年第4期65-67,共3页
在随着人工智能的快速发展和大数据时代的到来,如何在大量的数据中快速的并准确的获取我们所有需要的数据成为了现在计算机技术发展的重要方向,由于中文地名的复杂性对当前的地名地址识别工作起到了较大的困扰。本文利用基于深度学习的... 在随着人工智能的快速发展和大数据时代的到来,如何在大量的数据中快速的并准确的获取我们所有需要的数据成为了现在计算机技术发展的重要方向,由于中文地名的复杂性对当前的地名地址识别工作起到了较大的困扰。本文利用基于深度学习的模型对中文机构名的识别和匹配进行研究,先通过CRF++训练分词模型,然后通过有限状态机模型结合的状态转移函数,对分词后的地址进行识别,能够准确地对地名地址进行识别,研究结果有很大的现实意义。 展开更多
关键词 状态转移函数 人工智能 有限状态机模型 信息识别 大数据时代 深度学习 分词模型 地名地址
下载PDF
基于用户评论的自动化音乐分类方法 被引量:2
13
作者 郝建林 黄章进 顾乃杰 《计算机系统应用》 2018年第1期154-161,共8页
针对现有音乐平台分类类别固定、检索内容限制过多的问题,本文提出了一种基于用户评论的自动化音乐分类方法.首先,通过linear CRF统计分词模型、n元取词和紧密度分析方法学习得到适合音乐语料分词的字典.其次,使用linear CRF在上述字典... 针对现有音乐平台分类类别固定、检索内容限制过多的问题,本文提出了一种基于用户评论的自动化音乐分类方法.首先,通过linear CRF统计分词模型、n元取词和紧密度分析方法学习得到适合音乐语料分词的字典.其次,使用linear CRF在上述字典的基础上进行分词,对分词结果进行分合测试,修正分词结果.然后,使用优化后的TFIDF关键词提取算法进行标签提取,再经过标签合并得到音乐的候选标签.接着,从全局角度出发对标签进一步筛选,得到音乐的关联标签.最后,建立音乐和标签之间的概率分类模型,对音乐进行分类.实验结果表明,该音乐分类方法准确率较高,可以从用户评论中自动地获取音乐多个维度的分类标签,为个性化的音乐检索提供了保障. 展开更多
关键词 音乐分类 分词模型 紧密度分析 关键词提取 关联标签
下载PDF
基于知识图谱的变电站安全隐患动态分析方法 被引量:7
14
作者 郭素芹 郑建宁 +3 位作者 陈坤 林瑞安 张勃波 宗鑫 《电力系统及其自动化学报》 CSCD 北大核心 2021年第12期125-133,共9页
由于变电站安全隐患非结构化的文本格式导致无法进行隐患知识提取与推理,难以挖掘潜在隐患间的关系和规律,提出一种变电站安全隐患动态分析方法。首先,对非结构化的隐患文本数据解析抽取,构建了基于ElasticSearch弹性分布式隐患数据搜... 由于变电站安全隐患非结构化的文本格式导致无法进行隐患知识提取与推理,难以挖掘潜在隐患间的关系和规律,提出一种变电站安全隐患动态分析方法。首先,对非结构化的隐患文本数据解析抽取,构建了基于ElasticSearch弹性分布式隐患数据搜索引擎。其次,利用隐马尔科夫模型对引擎内数据进行分词训练,结合维特比算法求解隐藏的状态序列以完成隐患实体分词标注。最后,采用Neo4j图数据库动态生成变电站安全隐患知识图谱。以某地区变电站安全隐患数据进行算例分析,证明该方法的有效性。 展开更多
关键词 变电站安全 知识图谱 搜索引擎 隐马尔科夫分词模型 图数据库
下载PDF
基于多特征的柳州螺蛳粉购买评论情感倾向性分析
15
作者 余婷 黄李韦 《建模与仿真》 2022年第1期66-75,共10页
新冠疫情催生了“宅经济”,袋装柳州螺蛳粉强势崛起,成为全国热销的方便食品之一。目前网购平台上开设的螺蛳粉网店高达1.2万家,在竞争如此激烈的情况下,挖掘大众的喜好变得尤为重要。本文拟采用关键词提取、词云图可视化分析、LDA主题... 新冠疫情催生了“宅经济”,袋装柳州螺蛳粉强势崛起,成为全国热销的方便食品之一。目前网购平台上开设的螺蛳粉网店高达1.2万家,在竞争如此激烈的情况下,挖掘大众的喜好变得尤为重要。本文拟采用关键词提取、词云图可视化分析、LDA主题分析以及评论分词主题模型等情感分析方法对螺蛳粉购买评论数据进行分析,挖掘大众对螺蛳粉的喜好,为商家改进商品提供有利参考,提升产品的用户体验,从而提高销量。 展开更多
关键词 文本挖掘 情感分析 评论分词模型 螺蛳粉
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部