期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
Standardization of Robot Instruction Elements Based on Conditional Random Fields and Word Embeddin
1
作者 Hengsheng Wang Zhengang Zhang +1 位作者 Jin Ren Tong Liu 《Journal of Harbin Institute of Technology(New Series)》 EI CAS 2019年第5期32-40,共9页
Natural language processing has got great progress recently. Controlling robots with spoken natural language has become expectable. With the reliability problem of this kind of control in mind a confirmation process o... Natural language processing has got great progress recently. Controlling robots with spoken natural language has become expectable. With the reliability problem of this kind of control in mind a confirmation process of natural language instruction should be included before carried out by the robot autonomously and the prototype dialog system was designed thus the standardization problem was raised for the natural and understandable language interaction. In the application background of remotely navigating a mobile robot inside a building with Chinese natural spoken language considering that as an important navigation element in instructions a place name can be expressed with different lexical terms in spoken language this paper proposes a model for substituting different alternatives of a place name with a standard one (called standardization). First a CRF (Conditional Random Fields) model is trained to label the term required be standardized then a trained word embedding model is to represent lexical terms as digital vectors. In the vector space similarity of lexical terms is defined and used to find out the most similar one to the term picked out to be standardized. Experiments show that the method proposed works well and the dialog system responses to confirm the instructions are natural and understandable. 展开更多
关键词 word embedding conditional random fields ( CRFs ) STANDARDIZATION interaction chinese natural Spoken language (CNSL) natural language processing (NLP) human-robot
下载PDF
Scaling Conditional Random Fields by One-Against-the-Other Decomposition 被引量:1
2
作者 赵海 揭春雨 《Journal of Computer Science & Technology》 SCIE EI CSCD 2008年第4期612-619,共8页
As a powerful sequence labeling model, conditional random fields (CRFs) have had successful applications in many natural language processing (NLP) tasks. However, the high complexity of CRFs training only allows a... As a powerful sequence labeling model, conditional random fields (CRFs) have had successful applications in many natural language processing (NLP) tasks. However, the high complexity of CRFs training only allows a very small tag (or label) set, because the training becomes intractable as the tag set enlarges. This paper proposes an improved decomposed training and joint decoding algorithm for CRF learning. Instead of training a single CRF model for all tags, it trains a binary sub-CRF independently for each tag. An optimal tag sequence is then produced by a joint decoding algorithm based on the probabilistic output of all sub-CRFs involved. To test its effectiveness, we apply this approach to tackling Chinese word segmentation (CWS) as a sequence labeling problem. Our evaluation shows that it can reduce the computational cost of this language processing task by 40-50% without any significant performance loss on various large-scale data sets. 展开更多
关键词 natural language processing machine learning conditional random fields chinese word segmentation
原文传递
A Multi-Classifier Based Prediction Model for Phishing Emails Detection Using Topic Modelling, Named Entity Recognition and Image Processing
3
作者 C. Emilin Shyni S. Sarju S. Swamynathan 《Circuits and Systems》 2016年第9期2507-2520,共14页
Phishing is the act of attempting to steal a user’s financial and personal information, such as credit card numbers and passwords by pretending to be a trustworthy participant, during online communication. Attackers ... Phishing is the act of attempting to steal a user’s financial and personal information, such as credit card numbers and passwords by pretending to be a trustworthy participant, during online communication. Attackers may direct the users to a fake website that could seem legitimate, and then gather useful and confidential information using that site. In order to protect users from Social Engineering techniques such as phishing, various measures have been developed, including improvement of Technical Security. In this paper, we propose a new technique, namely, “A Prediction Model for the Detection of Phishing e-mails using Topic Modelling, Named Entity Recognition and Image Processing”. The features extracted are Topic Modelling features, Named Entity features and Structural features. A multi-classifier prediction model is used to detect the phishing mails. Experimental results show that the multi-classification technique outperforms the single-classifier-based prediction techniques. The resultant accuracy of the detection of phishing e-mail is 99% with the highest False Positive Rate being 2.1%. 展开更多
关键词 PHISHING conditional random Field Classifier Latent Dirichlet Allocation natural language processing machine learning Image segmentation Image processing
下载PDF
基于小规模尾字特征的中文命名实体识别研究 被引量:25
4
作者 冯元勇 孙乐 +1 位作者 张大鲲 李文波 《电子学报》 EI CAS CSCD 北大核心 2008年第9期1833-1838,共6页
本文针对难度最大的两类命名实体(地名和机构名)在条件随机场框架下首次引入了小规模的常用尾字特征.实验表明,该特征与词类特征具有一定的互补性,联合使用可以以较小的训练代价显著提高专有名词的识别性能,特别是机构名的识别精度.该... 本文针对难度最大的两类命名实体(地名和机构名)在条件随机场框架下首次引入了小规模的常用尾字特征.实验表明,该特征与词类特征具有一定的互补性,联合使用可以以较小的训练代价显著提高专有名词的识别性能,特别是机构名的识别精度.该系统在我国863简体命名实体识别评测语料上专名(人名、地名和机构名)总体F1值达88.76%,超过当年最佳系统8.63个百分点.在SIGHAN 2006命名实体识别语料上的结果也居于前列. 展开更多
关键词 中文命名实体识别 小规模尾字特征 条件随机场 自然语言处理 机器学习
下载PDF
中文名实体识别:基于词触发对的条件随机域方法 被引量:3
5
作者 赵健 王晓龙 +1 位作者 关毅 徐志明 《高技术通讯》 CAS CSCD 北大核心 2006年第8期795-801,共7页
首次把条件随机域(CRF)模型应用到了中文名实体识别中,且根据中文的特点,定义了多种特征模板。同时,为了解决长距离约束问题,将词语触发对融合到了CRF模型中。提出了基于词语方差(word variance)的选词方法,在词语相关性计算... 首次把条件随机域(CRF)模型应用到了中文名实体识别中,且根据中文的特点,定义了多种特征模板。同时,为了解决长距离约束问题,将词语触发对融合到了CRF模型中。提出了基于词语方差(word variance)的选词方法,在词语相关性计算上,采用了平均互信息(AMI)方法和χ^2统计量方法。通过在半年人民日报上的测试,结果表明在采用相同特征集合的条件下,条件随机域模型较其他概率模型有更好的性能表现;融合长距离触发对的条件随机域模型可以使系统的F量度提高约1.38%。 展开更多
关键词 中文名实体识别 概率模型 条件随机域 词语触发对 信息抽取 自然语言处理
下载PDF
面向自然语言处理的条件随机场模型研究综述 被引量:16
6
作者 余本功 范招娣 《信息资源管理学报》 CSSCI 2020年第5期96-111,共16页
条件随机场(CRF)模型是自然语言处理(NLP)领域的重要方法之一,为深入了解该领域的研究进展,对近年来该模型的相关研究成果进行阐述和分析。梳理CRF模型在多标签、隐变量、语义层次、空间信息、半监督和多模型融合等六个方面的扩展研究,... 条件随机场(CRF)模型是自然语言处理(NLP)领域的重要方法之一,为深入了解该领域的研究进展,对近年来该模型的相关研究成果进行阐述和分析。梳理CRF模型在多标签、隐变量、语义层次、空间信息、半监督和多模型融合等六个方面的扩展研究,总结CRF模型在分词分割、标注标记、识别检测、提取分类、填充匹配等自然语言处理方向的应用研究,最后对该模型未来研究方向进行展望,包括设计特征生成方法、优化训练推断算法以及扩展模型的图结构等。 展开更多
关键词 条件随机场 自然语言处理 序列标注 概率图模型 机器学习模型
下载PDF
基于BI_LSTM_CRF神经网络的序列标注中文分词方法 被引量:14
7
作者 姚茂建 李晗静 +1 位作者 吕会华 姚登峰 《现代电子技术》 北大核心 2019年第1期95-99,共5页
当前主流的中文分词方法是基于有监督的学习算法,该方法需要大量的人工标注语料,并且提取的局部特征存在稀疏等问题。针对上述问题,提出一种双向长短时记忆条件随机场(BI_LSTM_CRF)模型,可以自动学习文本特征,能对文本上下文依赖信息进... 当前主流的中文分词方法是基于有监督的学习算法,该方法需要大量的人工标注语料,并且提取的局部特征存在稀疏等问题。针对上述问题,提出一种双向长短时记忆条件随机场(BI_LSTM_CRF)模型,可以自动学习文本特征,能对文本上下文依赖信息进行建模,同时CRF层考虑了句子字符前后的标签信息,对文本信息进行了推理。该分词模型不仅在MSRA,PKU,CTB 6.0数据集上取得了很好的分词结果,而且在新闻数据、微博数据、汽车论坛数据、餐饮点评数据上进行了实验,实验结果表明,BI_LSTM_CRF模型不仅在测试集上有很好的分词性能,同时在跨领域数据测试上也有很好的泛化能力。 展开更多
关键词 自然语言处理 中文分词 神经网络 双向长短时记忆条件随机场 字嵌入 序列标注
下载PDF
基于高斯词长特征的中文分词方法 被引量:3
8
作者 张义 李治江 《中文信息学报》 CSCD 北大核心 2016年第5期89-93,共5页
中文分词是中文信息处理的基础,在语音合成、中外文翻译、中文检索、文本摘要等方面均有重要应用。在中文分词的任务中,存在的主要问题在于可用有效特征较少,分词准确率较低,如何有效的获取和使用分词特征是关键。该文从中文文本生成的... 中文分词是中文信息处理的基础,在语音合成、中外文翻译、中文检索、文本摘要等方面均有重要应用。在中文分词的任务中,存在的主要问题在于可用有效特征较少,分词准确率较低,如何有效的获取和使用分词特征是关键。该文从中文文本生成的过程出发,基于词长噪声的高斯分布特性,提出利用上下文的词长特征作为分词特征。实验表明,在封闭测试中,采用条件随机场模型,使用该特征对现有的实验结果有提高作用。 展开更多
关键词 高斯词长 条件随机场 中文分词 自然语言处理
下载PDF
基于层叠条件随机场模型的电子病历文本信息抽取 被引量:10
9
作者 梁立荣 李长伟 +3 位作者 沈晔 周立娟 景行 童朝晖 《计算机应用与软件》 北大核心 2019年第10期47-54,112,共9页
自然语言处理技术已用于非结构化中文电子病历信息抽取,并且新的算法或模型不断出现,但其应用效果的证据较少。共收集北京某大型三甲综合医院呼吸专科住院电子病历38218份,通过对数据预处理,抽象文本特征与定义语法规则,产生训练数据集... 自然语言处理技术已用于非结构化中文电子病历信息抽取,并且新的算法或模型不断出现,但其应用效果的证据较少。共收集北京某大型三甲综合医院呼吸专科住院电子病历38218份,通过对数据预处理,抽象文本特征与定义语法规则,产生训练数据集和测试集,构建层叠条件随机场模型,并评估该模型的识别效果。结果表明,针对入院记录、出院记录、辅助检查报告3大类共39种非结构化文本,该模型可准确、快速地处理病历文本信息,应用效果较为理想。 展开更多
关键词 医疗电子病历 自然语言处理 机器学习 层叠条件随机场模型 信息抽取
下载PDF
电商领域中有关物流评价中文分词的研究 被引量:2
10
作者 钟静晨 祁云嵩 《计算机与数字工程》 2019年第11期2866-2870,2883,共6页
论文提出了一种基于电商领域有关物流评价方面的分词方法。首先使用适用于短文本的标记选择方法和特征模板对CRF模型进行改进,然后通过改进后的CRF模型对评价数据进行初步分词,最后利用电商领域中有关物流评价方面的词典对初步分词的结... 论文提出了一种基于电商领域有关物流评价方面的分词方法。首先使用适用于短文本的标记选择方法和特征模板对CRF模型进行改进,然后通过改进后的CRF模型对评价数据进行初步分词,最后利用电商领域中有关物流评价方面的词典对初步分词的结果进行逆向最大匹配,从而提高了CRF对未登录词的识别能力以及歧义词的消解能力。论文使用人工标注好的5000条某知名服装品牌的物流评价数据作为数据集进行实验对比,实验结果表明,论文的方法相对于传统的方法具有较高的准确率和召回率。 展开更多
关键词 中文分词 自然语言处理 特征模板 条件随机场
下载PDF
基于条件随机场的中文短文本分词方法 被引量:17
11
作者 刘泽文 丁冬 李春文 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2015年第8期906-910,915,共6页
中文分词是信息检索工作的一项先决任务。随着大数据时代的到来,信息检索工作对于中文分词准确率和召回率的要求也不断提高。该文提出了一种针对中文短文本的分词方法。该方法首先利用机器学习中的条件随机场模型对待处理的中文短文本... 中文分词是信息检索工作的一项先决任务。随着大数据时代的到来,信息检索工作对于中文分词准确率和召回率的要求也不断提高。该文提出了一种针对中文短文本的分词方法。该方法首先利用机器学习中的条件随机场模型对待处理的中文短文本进行初步分词,然后再利用传统词典分词方法对初步分词结果进行修正,从而完成分词工作。针对中文短文本的特点,该方法在条件随机场的标记选择和特征模板编写上做了相应优化。测试结果表明,该方法改善了传统的基于词典的分词法因为未登录词和交叠歧义而产生的准确率和召回率下降的问题,并在Sighan bakeoff 2005的四个语料测试集中均取得了0.95以上的FScore。实验证明:该方法适合应用于信息检索领域的中文短文本分词工作。 展开更多
关键词 中文分词 条件随机场 机器学习
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部