期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
15
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
汉语语言的无词典分词模型系统
被引量:
22
1
作者
韩客松
王永成
陈桂林
《计算机应用研究》
CSCD
1999年第10期8-9,共2页
本文主要人人知识的自动获取出发;介绍了研究中的汉语语言的无词典分词模型系统、通过算法的自然语言描述,阐述了模型的思想,分析了它与传统方法相比的优点,提出了要使系统达到实用还需解决的几个问题。
关键词
中文信息处理
知识自动获取
分词模型
汉语语言
下载PDF
职称材料
基于统计的汉语分词模型及实现方法
被引量:
6
2
作者
沈达阳
孙茂松
黄昌宁
《中文信息》
1998年第2期96-98,共3页
本文介绍了一种基于统计的汉语分词模型以及该模型在不同资源要求下的实现方法,并进一步讨论了这种方法的优缺点,最后,作者实现了这些方法,并给出相应的实验结果和结论。
关键词
中文信息处理
汉语
分词
统计
汉语
分词模型
下载PDF
职称材料
基于SentencePiece的中医学分词模型建模研究
被引量:
1
3
作者
刘双巧
周璐
+7 位作者
李彩艳
袁慧敏
张异卓
李昱达
刘锦钢
郑丰杰
孙燕
李宇航
《世界中医药》
CAS
2021年第6期981-985,990,共6页
目的:探索构建适用于中医学领域的分词模型。方法:采用基于SentencePiece的无监督学习分词方法,提出利用出版教材、名家著作及中医临床病历这3种不同类型的文献构建中医学分词模型;选择中医临床病历、名医医案作为测试集进行模型测试。...
目的:探索构建适用于中医学领域的分词模型。方法:采用基于SentencePiece的无监督学习分词方法,提出利用出版教材、名家著作及中医临床病历这3种不同类型的文献构建中医学分词模型;选择中医临床病历、名医医案作为测试集进行模型测试。结果:中医学分词模型在测试集中的Kappa系数为0.79(一致性程度很高),准确率为0.84,宏观精确率为0.84,宏观召回率为0.83,宏观f1得分为0.83。结论:所构建的分词模型对于中医学专业术语有着较好的切分效果,表明该方法可运用于中医学领域的分词模型的构建,可为进一步地研究中医学分词提供方法学参考。
展开更多
关键词
分词
中文
分词
分词模型
无监督学习
无监督
分词
SentencePiece
下载PDF
职称材料
基于CRF模型的维吾尔语分词研究
4
作者
李成华
孙雅婧
+1 位作者
张世娟
艾提日也古丽·艾尼瓦尔
《中南民族大学学报(自然科学版)》
CAS
2019年第4期596-604,共9页
条件随机场能够很好地处理序列标注问题.引入条件随机场进行维吾尔语分词方法研究,主要包括制定词性和分词单独标注与一体化标注集并建成语料库;设计不同特征模板进行训练测试,反复比较实验结果,总结优化以获取最佳的特征模板.在设计特...
条件随机场能够很好地处理序列标注问题.引入条件随机场进行维吾尔语分词方法研究,主要包括制定词性和分词单独标注与一体化标注集并建成语料库;设计不同特征模板进行训练测试,反复比较实验结果,总结优化以获取最佳的特征模板.在设计特征模板时充分结合维吾尔语语言形态特征,采用了对称特征组合非对称特征的设计方法,并将获得的最佳分词模板应用到分步预测词性和分词实验中.相比单独分词标注,分词时加入词性特征列进行分词与词性一体化标注能展现更优的分词性能.
展开更多
关键词
条件随机场
维吾尔语
分词
特征模板
分词模型
分步实验
下载PDF
职称材料
中文工艺规范文本分词语料的构建与研究
5
作者
王裴岩
张莹欣
+3 位作者
付小强
陈佳欣
徐楠
蔡东风
《计算机科学》
CSCD
北大核心
2023年第S02期63-68,共6页
中文分词是处理工艺规范文本的一项基本任务,并且在工艺知识图谱与智能问答等下游任务中发挥着重要作用。工艺规范文本分词面临的一个挑战是缺乏高质量标注的语料,特别是面向术语、名词短语、工艺参数、数量词等特殊语言现象的分词规范...
中文分词是处理工艺规范文本的一项基本任务,并且在工艺知识图谱与智能问答等下游任务中发挥着重要作用。工艺规范文本分词面临的一个挑战是缺乏高质量标注的语料,特别是面向术语、名词短语、工艺参数、数量词等特殊语言现象的分词规范。文中面向工艺规范文本制定了专用分词规范,收集并标注了一个中文工艺规范文本分词语料(WS-MPST),含11900个句子与255160个词,4名标注者分词标注一致性达95.25%。在WS-MPST语料上对著名的BiLSTM-CRF与BERT-CRF模型进行了对比实验,F1值分别达到92.61%与93.69%。实验结果表明,构建专用的工艺规范分词语料是必要的。对实验结果的深入分析揭示了未登录词与中文非中文字符混合构成的词是工艺规范文本分词的难点,也为今后工艺规范文本及相关领域的分词研究提供了一定的指导。
展开更多
关键词
中文
分词
工艺规范文本
分词
规范
分词
语料
分词模型
下载PDF
职称材料
中文自动分词系统的设计模型
被引量:
13
6
作者
邓宏涛
《计算机与数字工程》
2005年第4期138-140,共3页
介绍了常用的中文自动分词方法,在此基础上,给出了中文自动分词系统的理论模型,指出评价自动分词系统优劣的性能指标,并对分词系统的发展作了探讨。
关键词
分词
方法
分词
系统
模型
性能指标
下载PDF
职称材料
关于中文分词问题数据结构模型的讨论
7
作者
张青
李大农
《黄冈师范学院学报》
2013年第6期72-76,共5页
在分词工作常用数据结构模型的基础上,提出了字符串完全分词网络模型,讨论了该模型的基本性质,给出了其中的路径查找基本算法。该模型能反映中文分词问题自身的特点,便于分析分词问题中的统一性质。利用该模型将全切分图的生成、修改、...
在分词工作常用数据结构模型的基础上,提出了字符串完全分词网络模型,讨论了该模型的基本性质,给出了其中的路径查找基本算法。该模型能反映中文分词问题自身的特点,便于分析分词问题中的统一性质。利用该模型将全切分图的生成、修改、路径查找等工作分解为统一平台上相对独立的过程,能较好地配合多种常用分词算法,简化对各种算法的研究和描述。该模型与自然语言理解后续工作使用的数据结构如句法树等也有很好的相似性。
展开更多
关键词
自然语言处理
中文
分词
分词
网络
模型
最大匹配算法
最短路径算法
下载PDF
职称材料
基于分词矩阵模型的模糊匹配查重算法研究
被引量:
4
8
作者
李成龙
杨冬菊
韩燕波
《计算机科学》
CSCD
北大核心
2017年第B11期55-60,83,共7页
针对中文文本查重的需求,利用分词的结果,将待查重的目标文本和查重样本文本转换为分词矩阵模型,然后扫描和分析矩阵,得到查重结果。由此提出了一种查重算法,并通过实例验证了该算法具有一定的实用效果。
关键词
相似度
分词
矩阵
模型
模糊匹配
查重算法
下载PDF
职称材料
汉语自动分词研究及其在信息检索中的应用
被引量:
18
9
作者
曹倩
丁艳
+1 位作者
王超
潘金贵
《计算机应用研究》
CSCD
北大核心
2004年第5期71-74,91,共5页
汉语自动分词问题是中文信息检索的基础问题,也是阻碍其向前发展的“瓶颈”问题。介绍了分词技术的发展状况,分析了分词技术在信息检索过程中的应用,并讨论了信息检索和分词技术结合的方式和需要以及解决的关键技术问题。
关键词
汉语
分词
分词模型
歧义分析
中文信息检索
下载PDF
职称材料
一种基于EM非监督训练的自组织分词歧义解决方案
被引量:
14
10
作者
王伟
钟义信
+1 位作者
孙建
杨力
《中文信息学报》
CSCD
北大核心
2001年第2期38-44,共7页
本文旨在提供一种基于非监督训练的分词歧义解决方案和一种分词算法。基于EM的思想 ,每个句子所对应的所有 (或一定范围内 )的分词结果构成训练集 ,通过这个训练集和初始的语言模型可以估计出一个新的语言模型。最终的语言模型通过多次...
本文旨在提供一种基于非监督训练的分词歧义解决方案和一种分词算法。基于EM的思想 ,每个句子所对应的所有 (或一定范围内 )的分词结果构成训练集 ,通过这个训练集和初始的语言模型可以估计出一个新的语言模型。最终的语言模型通过多次迭代而得到。通过一种基于该最终语言模型的统计分词算法 ,对于每个句子至少带有一个歧义的测试集的正确切分精度达到 85 .36 % (以句子为单位 )
展开更多
关键词
EM算法
分词
歧义
非监督训练
分词
语言
模型
歧义消除
汉语处理
训练算法
分词
算法
下载PDF
职称材料
基于上下文相关的最大概率汉语自动分词算法
被引量:
8
11
作者
金瑜
陆启明
高峰
《计算机工程》
CAS
CSCD
北大核心
2004年第16期146-148,共3页
提出了一种新的汉语自动分词算法,其主要思想是通过前后两次对文章的扫描来解决分词过程中出现的交叉歧义问题,介绍了一种新的有效的字段切分算法,它能够排除类似穷举算法中冗余的单字词的切分可能。
关键词
上下文相关
汉语自动
分词
分词
统计
模型
下载PDF
职称材料
中文地名地址成分信息识别
12
作者
王钟岳
刘洋
《数字技术与应用》
2023年第4期65-67,共3页
在随着人工智能的快速发展和大数据时代的到来,如何在大量的数据中快速的并准确的获取我们所有需要的数据成为了现在计算机技术发展的重要方向,由于中文地名的复杂性对当前的地名地址识别工作起到了较大的困扰。本文利用基于深度学习的...
在随着人工智能的快速发展和大数据时代的到来,如何在大量的数据中快速的并准确的获取我们所有需要的数据成为了现在计算机技术发展的重要方向,由于中文地名的复杂性对当前的地名地址识别工作起到了较大的困扰。本文利用基于深度学习的模型对中文机构名的识别和匹配进行研究,先通过CRF++训练分词模型,然后通过有限状态机模型结合的状态转移函数,对分词后的地址进行识别,能够准确地对地名地址进行识别,研究结果有很大的现实意义。
展开更多
关键词
状态转移函数
人工智能
有限状态机
模型
信息识别
大数据时代
深度学习
分词模型
地名地址
下载PDF
职称材料
基于用户评论的自动化音乐分类方法
被引量:
2
13
作者
郝建林
黄章进
顾乃杰
《计算机系统应用》
2018年第1期154-161,共8页
针对现有音乐平台分类类别固定、检索内容限制过多的问题,本文提出了一种基于用户评论的自动化音乐分类方法.首先,通过linear CRF统计分词模型、n元取词和紧密度分析方法学习得到适合音乐语料分词的字典.其次,使用linear CRF在上述字典...
针对现有音乐平台分类类别固定、检索内容限制过多的问题,本文提出了一种基于用户评论的自动化音乐分类方法.首先,通过linear CRF统计分词模型、n元取词和紧密度分析方法学习得到适合音乐语料分词的字典.其次,使用linear CRF在上述字典的基础上进行分词,对分词结果进行分合测试,修正分词结果.然后,使用优化后的TFIDF关键词提取算法进行标签提取,再经过标签合并得到音乐的候选标签.接着,从全局角度出发对标签进一步筛选,得到音乐的关联标签.最后,建立音乐和标签之间的概率分类模型,对音乐进行分类.实验结果表明,该音乐分类方法准确率较高,可以从用户评论中自动地获取音乐多个维度的分类标签,为个性化的音乐检索提供了保障.
展开更多
关键词
音乐分类
分词模型
紧密度分析
关键词提取
关联标签
下载PDF
职称材料
基于知识图谱的变电站安全隐患动态分析方法
被引量:
7
14
作者
郭素芹
郑建宁
+3 位作者
陈坤
林瑞安
张勃波
宗鑫
《电力系统及其自动化学报》
CSCD
北大核心
2021年第12期125-133,共9页
由于变电站安全隐患非结构化的文本格式导致无法进行隐患知识提取与推理,难以挖掘潜在隐患间的关系和规律,提出一种变电站安全隐患动态分析方法。首先,对非结构化的隐患文本数据解析抽取,构建了基于ElasticSearch弹性分布式隐患数据搜...
由于变电站安全隐患非结构化的文本格式导致无法进行隐患知识提取与推理,难以挖掘潜在隐患间的关系和规律,提出一种变电站安全隐患动态分析方法。首先,对非结构化的隐患文本数据解析抽取,构建了基于ElasticSearch弹性分布式隐患数据搜索引擎。其次,利用隐马尔科夫模型对引擎内数据进行分词训练,结合维特比算法求解隐藏的状态序列以完成隐患实体分词标注。最后,采用Neo4j图数据库动态生成变电站安全隐患知识图谱。以某地区变电站安全隐患数据进行算例分析,证明该方法的有效性。
展开更多
关键词
变电站安全
知识图谱
搜索引擎
隐马尔科夫
分词模型
图数据库
下载PDF
职称材料
基于多特征的柳州螺蛳粉购买评论情感倾向性分析
15
作者
余婷
黄李韦
《建模与仿真》
2022年第1期66-75,共10页
新冠疫情催生了“宅经济”,袋装柳州螺蛳粉强势崛起,成为全国热销的方便食品之一。目前网购平台上开设的螺蛳粉网店高达1.2万家,在竞争如此激烈的情况下,挖掘大众的喜好变得尤为重要。本文拟采用关键词提取、词云图可视化分析、LDA主题...
新冠疫情催生了“宅经济”,袋装柳州螺蛳粉强势崛起,成为全国热销的方便食品之一。目前网购平台上开设的螺蛳粉网店高达1.2万家,在竞争如此激烈的情况下,挖掘大众的喜好变得尤为重要。本文拟采用关键词提取、词云图可视化分析、LDA主题分析以及评论分词主题模型等情感分析方法对螺蛳粉购买评论数据进行分析,挖掘大众对螺蛳粉的喜好,为商家改进商品提供有利参考,提升产品的用户体验,从而提高销量。
展开更多
关键词
文本挖掘
情感分析
评论
分词模型
螺蛳粉
下载PDF
职称材料
题名
汉语语言的无词典分词模型系统
被引量:
22
1
作者
韩客松
王永成
陈桂林
机构
上海交通大学图象处理与模式识别研究所
出处
《计算机应用研究》
CSCD
1999年第10期8-9,共2页
文摘
本文主要人人知识的自动获取出发;介绍了研究中的汉语语言的无词典分词模型系统、通过算法的自然语言描述,阐述了模型的思想,分析了它与传统方法相比的优点,提出了要使系统达到实用还需解决的几个问题。
关键词
中文信息处理
知识自动获取
分词模型
汉语语言
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于统计的汉语分词模型及实现方法
被引量:
6
2
作者
沈达阳
孙茂松
黄昌宁
机构
汕头大学计算机科研所
清华大学计算机系
出处
《中文信息》
1998年第2期96-98,共3页
文摘
本文介绍了一种基于统计的汉语分词模型以及该模型在不同资源要求下的实现方法,并进一步讨论了这种方法的优缺点,最后,作者实现了这些方法,并给出相应的实验结果和结论。
关键词
中文信息处理
汉语
分词
统计
汉语
分词模型
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于SentencePiece的中医学分词模型建模研究
被引量:
1
3
作者
刘双巧
周璐
李彩艳
袁慧敏
张异卓
李昱达
刘锦钢
郑丰杰
孙燕
李宇航
机构
北京中医药大学中医学院
出处
《世界中医药》
CAS
2021年第6期981-985,990,共6页
基金
国家重点研发计划项目(2017YFC1700303,2017YFC1700300)。
文摘
目的:探索构建适用于中医学领域的分词模型。方法:采用基于SentencePiece的无监督学习分词方法,提出利用出版教材、名家著作及中医临床病历这3种不同类型的文献构建中医学分词模型;选择中医临床病历、名医医案作为测试集进行模型测试。结果:中医学分词模型在测试集中的Kappa系数为0.79(一致性程度很高),准确率为0.84,宏观精确率为0.84,宏观召回率为0.83,宏观f1得分为0.83。结论:所构建的分词模型对于中医学专业术语有着较好的切分效果,表明该方法可运用于中医学领域的分词模型的构建,可为进一步地研究中医学分词提供方法学参考。
关键词
分词
中文
分词
分词模型
无监督学习
无监督
分词
SentencePiece
Keywords
Word segmentation
Chinese word segmentation
Word segmentation model
Unsupervised learning
Unsupervised word segmentation
Sentence piece
分类号
R2-03 [医药卫生—中医学]
下载PDF
职称材料
题名
基于CRF模型的维吾尔语分词研究
4
作者
李成华
孙雅婧
张世娟
艾提日也古丽·艾尼瓦尔
机构
中南民族大学电子信息工程学院
中南民族大学教育学院
出处
《中南民族大学学报(自然科学版)》
CAS
2019年第4期596-604,共9页
基金
湖北省自然科学基金资助项目(2017CFB784)
中央高校基本科研业务费专项资金资助项目(CZW15043,CZQ14001)
文摘
条件随机场能够很好地处理序列标注问题.引入条件随机场进行维吾尔语分词方法研究,主要包括制定词性和分词单独标注与一体化标注集并建成语料库;设计不同特征模板进行训练测试,反复比较实验结果,总结优化以获取最佳的特征模板.在设计特征模板时充分结合维吾尔语语言形态特征,采用了对称特征组合非对称特征的设计方法,并将获得的最佳分词模板应用到分步预测词性和分词实验中.相比单独分词标注,分词时加入词性特征列进行分词与词性一体化标注能展现更优的分词性能.
关键词
条件随机场
维吾尔语
分词
特征模板
分词模型
分步实验
Keywords
conditional random fields
Uyghur word segmentation
feature template
segmentation model
test
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
中文工艺规范文本分词语料的构建与研究
5
作者
王裴岩
张莹欣
付小强
陈佳欣
徐楠
蔡东风
机构
沈阳航空航天大学人机智能研究中心
中国商飞上海飞机制造有限公司航空制造技术研究所
出处
《计算机科学》
CSCD
北大核心
2023年第S02期63-68,共6页
基金
辽宁省应用基础研究计划(2022JH2/101300248)。
文摘
中文分词是处理工艺规范文本的一项基本任务,并且在工艺知识图谱与智能问答等下游任务中发挥着重要作用。工艺规范文本分词面临的一个挑战是缺乏高质量标注的语料,特别是面向术语、名词短语、工艺参数、数量词等特殊语言现象的分词规范。文中面向工艺规范文本制定了专用分词规范,收集并标注了一个中文工艺规范文本分词语料(WS-MPST),含11900个句子与255160个词,4名标注者分词标注一致性达95.25%。在WS-MPST语料上对著名的BiLSTM-CRF与BERT-CRF模型进行了对比实验,F1值分别达到92.61%与93.69%。实验结果表明,构建专用的工艺规范分词语料是必要的。对实验结果的深入分析揭示了未登录词与中文非中文字符混合构成的词是工艺规范文本分词的难点,也为今后工艺规范文本及相关领域的分词研究提供了一定的指导。
关键词
中文
分词
工艺规范文本
分词
规范
分词
语料
分词模型
Keywords
Chinese word segmentation
Process specification text
Word segmentation specification
Word segmentation corpus
Word segmentation model
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
中文自动分词系统的设计模型
被引量:
13
6
作者
邓宏涛
机构
江汉大学数学与计算机学院
出处
《计算机与数字工程》
2005年第4期138-140,共3页
文摘
介绍了常用的中文自动分词方法,在此基础上,给出了中文自动分词系统的理论模型,指出评价自动分词系统优劣的性能指标,并对分词系统的发展作了探讨。
关键词
分词
方法
分词
系统
模型
性能指标
Keywords
word segmentation method, word segmentation system module, guide line of performance
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
关于中文分词问题数据结构模型的讨论
7
作者
张青
李大农
机构
黄冈师范学院数学与计算机科学学院
黄冈师范学院物理与电子信息科学学院
出处
《黄冈师范学院学报》
2013年第6期72-76,共5页
基金
湖北省自然科学基金项目(2011CDC028)
湖北省教育厅科研计划重点项目(D20122701)
文摘
在分词工作常用数据结构模型的基础上,提出了字符串完全分词网络模型,讨论了该模型的基本性质,给出了其中的路径查找基本算法。该模型能反映中文分词问题自身的特点,便于分析分词问题中的统一性质。利用该模型将全切分图的生成、修改、路径查找等工作分解为统一平台上相对独立的过程,能较好地配合多种常用分词算法,简化对各种算法的研究和描述。该模型与自然语言理解后续工作使用的数据结构如句法树等也有很好的相似性。
关键词
自然语言处理
中文
分词
分词
网络
模型
最大匹配算法
最短路径算法
Keywords
natural language processing
Chinese word segmentation
word segmentation network
maximum matching al- gorithm
shortest path algorithm
分类号
TP3 [自动化与计算机技术—计算机科学与技术]
下载PDF
职称材料
题名
基于分词矩阵模型的模糊匹配查重算法研究
被引量:
4
8
作者
李成龙
杨冬菊
韩燕波
机构
大规模流数据集成与分析技术北京市重点实验室
北方工业大学云计算研究中心
出处
《计算机科学》
CSCD
北大核心
2017年第B11期55-60,83,共7页
基金
国家自然科学基金面上项目(61672042)
支持流式大数据实时联动的数据服务模型及方法研究资助
文摘
针对中文文本查重的需求,利用分词的结果,将待查重的目标文本和查重样本文本转换为分词矩阵模型,然后扫描和分析矩阵,得到查重结果。由此提出了一种查重算法,并通过实例验证了该算法具有一定的实用效果。
关键词
相似度
分词
矩阵
模型
模糊匹配
查重算法
Keywords
Similarity, Matrix model of word segmentation, Fuzzy matching,Duplicate checking algorithm
分类号
TP301 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
汉语自动分词研究及其在信息检索中的应用
被引量:
18
9
作者
曹倩
丁艳
王超
潘金贵
机构
南京大学软件新技术国家重点实验室
出处
《计算机应用研究》
CSCD
北大核心
2004年第5期71-74,91,共5页
文摘
汉语自动分词问题是中文信息检索的基础问题,也是阻碍其向前发展的“瓶颈”问题。介绍了分词技术的发展状况,分析了分词技术在信息检索过程中的应用,并讨论了信息检索和分词技术结合的方式和需要以及解决的关键技术问题。
关键词
汉语
分词
分词模型
歧义分析
中文信息检索
Keywords
Chinese Word Segmentation
Word Segmentation Mode
Ambiguity Analysis
Chinese Information Retrieval
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种基于EM非监督训练的自组织分词歧义解决方案
被引量:
14
10
作者
王伟
钟义信
孙建
杨力
机构
北京邮电大学智能中心
出处
《中文信息学报》
CSCD
北大核心
2001年第2期38-44,共7页
基金
国家自然科学基金资助! (6 9982 0 1)
文摘
本文旨在提供一种基于非监督训练的分词歧义解决方案和一种分词算法。基于EM的思想 ,每个句子所对应的所有 (或一定范围内 )的分词结果构成训练集 ,通过这个训练集和初始的语言模型可以估计出一个新的语言模型。最终的语言模型通过多次迭代而得到。通过一种基于该最终语言模型的统计分词算法 ,对于每个句子至少带有一个歧义的测试集的正确切分精度达到 85 .36 % (以句子为单位 )
关键词
EM算法
分词
歧义
非监督训练
分词
语言
模型
歧义消除
汉语处理
训练算法
分词
算法
Keywords
EM algorithm
segmentation ambiguity
unsupervised learning
分类号
TP391.12 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于上下文相关的最大概率汉语自动分词算法
被引量:
8
11
作者
金瑜
陆启明
高峰
机构
合肥工业大学理学院
中国科学技术大学近代物理系
出处
《计算机工程》
CAS
CSCD
北大核心
2004年第16期146-148,共3页
文摘
提出了一种新的汉语自动分词算法,其主要思想是通过前后两次对文章的扫描来解决分词过程中出现的交叉歧义问题,介绍了一种新的有效的字段切分算法,它能够排除类似穷举算法中冗余的单字词的切分可能。
关键词
上下文相关
汉语自动
分词
分词
统计
模型
Keywords
Context relation
Automatic Chinese segmentation
Statistical model of segmentation
分类号
TP319 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
中文地名地址成分信息识别
12
作者
王钟岳
刘洋
机构
山东科技大学测绘与空间信息学院
出处
《数字技术与应用》
2023年第4期65-67,共3页
文摘
在随着人工智能的快速发展和大数据时代的到来,如何在大量的数据中快速的并准确的获取我们所有需要的数据成为了现在计算机技术发展的重要方向,由于中文地名的复杂性对当前的地名地址识别工作起到了较大的困扰。本文利用基于深度学习的模型对中文机构名的识别和匹配进行研究,先通过CRF++训练分词模型,然后通过有限状态机模型结合的状态转移函数,对分词后的地址进行识别,能够准确地对地名地址进行识别,研究结果有很大的现实意义。
关键词
状态转移函数
人工智能
有限状态机
模型
信息识别
大数据时代
深度学习
分词模型
地名地址
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于用户评论的自动化音乐分类方法
被引量:
2
13
作者
郝建林
黄章进
顾乃杰
机构
中国科学技术大学计算机科学与技术学院
中国科学技术大学安徽省计算与通信重点实验室
中国科学技术大学先进技术研究院
出处
《计算机系统应用》
2018年第1期154-161,共8页
基金
安徽省自然科学基金(1408085MKL06)
高等学校学科创新引智计划项目(B07033)
文摘
针对现有音乐平台分类类别固定、检索内容限制过多的问题,本文提出了一种基于用户评论的自动化音乐分类方法.首先,通过linear CRF统计分词模型、n元取词和紧密度分析方法学习得到适合音乐语料分词的字典.其次,使用linear CRF在上述字典的基础上进行分词,对分词结果进行分合测试,修正分词结果.然后,使用优化后的TFIDF关键词提取算法进行标签提取,再经过标签合并得到音乐的候选标签.接着,从全局角度出发对标签进一步筛选,得到音乐的关联标签.最后,建立音乐和标签之间的概率分类模型,对音乐进行分类.实验结果表明,该音乐分类方法准确率较高,可以从用户评论中自动地获取音乐多个维度的分类标签,为个性化的音乐检索提供了保障.
关键词
音乐分类
分词模型
紧密度分析
关键词提取
关联标签
Keywords
music classification
word segmentaion model
affinity analysis
keyword extraction
associated tags
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于知识图谱的变电站安全隐患动态分析方法
被引量:
7
14
作者
郭素芹
郑建宁
陈坤
林瑞安
张勃波
宗鑫
机构
福建亿力电力科技有限责任公司
出处
《电力系统及其自动化学报》
CSCD
北大核心
2021年第12期125-133,共9页
文摘
由于变电站安全隐患非结构化的文本格式导致无法进行隐患知识提取与推理,难以挖掘潜在隐患间的关系和规律,提出一种变电站安全隐患动态分析方法。首先,对非结构化的隐患文本数据解析抽取,构建了基于ElasticSearch弹性分布式隐患数据搜索引擎。其次,利用隐马尔科夫模型对引擎内数据进行分词训练,结合维特比算法求解隐藏的状态序列以完成隐患实体分词标注。最后,采用Neo4j图数据库动态生成变电站安全隐患知识图谱。以某地区变电站安全隐患数据进行算例分析,证明该方法的有效性。
关键词
变电站安全
知识图谱
搜索引擎
隐马尔科夫
分词模型
图数据库
Keywords
substation safety
knowledge graph
search engine
hidden Markov word segmentation model
graph database
分类号
TM73 [电气工程—电力系统及自动化]
下载PDF
职称材料
题名
基于多特征的柳州螺蛳粉购买评论情感倾向性分析
15
作者
余婷
黄李韦
机构
广西科技大学理学院
出处
《建模与仿真》
2022年第1期66-75,共10页
文摘
新冠疫情催生了“宅经济”,袋装柳州螺蛳粉强势崛起,成为全国热销的方便食品之一。目前网购平台上开设的螺蛳粉网店高达1.2万家,在竞争如此激烈的情况下,挖掘大众的喜好变得尤为重要。本文拟采用关键词提取、词云图可视化分析、LDA主题分析以及评论分词主题模型等情感分析方法对螺蛳粉购买评论数据进行分析,挖掘大众对螺蛳粉的喜好,为商家改进商品提供有利参考,提升产品的用户体验,从而提高销量。
关键词
文本挖掘
情感分析
评论
分词模型
螺蛳粉
分类号
F42 [经济管理—产业经济]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
汉语语言的无词典分词模型系统
韩客松
王永成
陈桂林
《计算机应用研究》
CSCD
1999
22
下载PDF
职称材料
2
基于统计的汉语分词模型及实现方法
沈达阳
孙茂松
黄昌宁
《中文信息》
1998
6
下载PDF
职称材料
3
基于SentencePiece的中医学分词模型建模研究
刘双巧
周璐
李彩艳
袁慧敏
张异卓
李昱达
刘锦钢
郑丰杰
孙燕
李宇航
《世界中医药》
CAS
2021
1
下载PDF
职称材料
4
基于CRF模型的维吾尔语分词研究
李成华
孙雅婧
张世娟
艾提日也古丽·艾尼瓦尔
《中南民族大学学报(自然科学版)》
CAS
2019
0
下载PDF
职称材料
5
中文工艺规范文本分词语料的构建与研究
王裴岩
张莹欣
付小强
陈佳欣
徐楠
蔡东风
《计算机科学》
CSCD
北大核心
2023
0
下载PDF
职称材料
6
中文自动分词系统的设计模型
邓宏涛
《计算机与数字工程》
2005
13
下载PDF
职称材料
7
关于中文分词问题数据结构模型的讨论
张青
李大农
《黄冈师范学院学报》
2013
0
下载PDF
职称材料
8
基于分词矩阵模型的模糊匹配查重算法研究
李成龙
杨冬菊
韩燕波
《计算机科学》
CSCD
北大核心
2017
4
下载PDF
职称材料
9
汉语自动分词研究及其在信息检索中的应用
曹倩
丁艳
王超
潘金贵
《计算机应用研究》
CSCD
北大核心
2004
18
下载PDF
职称材料
10
一种基于EM非监督训练的自组织分词歧义解决方案
王伟
钟义信
孙建
杨力
《中文信息学报》
CSCD
北大核心
2001
14
下载PDF
职称材料
11
基于上下文相关的最大概率汉语自动分词算法
金瑜
陆启明
高峰
《计算机工程》
CAS
CSCD
北大核心
2004
8
下载PDF
职称材料
12
中文地名地址成分信息识别
王钟岳
刘洋
《数字技术与应用》
2023
0
下载PDF
职称材料
13
基于用户评论的自动化音乐分类方法
郝建林
黄章进
顾乃杰
《计算机系统应用》
2018
2
下载PDF
职称材料
14
基于知识图谱的变电站安全隐患动态分析方法
郭素芹
郑建宁
陈坤
林瑞安
张勃波
宗鑫
《电力系统及其自动化学报》
CSCD
北大核心
2021
7
下载PDF
职称材料
15
基于多特征的柳州螺蛳粉购买评论情感倾向性分析
余婷
黄李韦
《建模与仿真》
2022
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部