期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
基于FP序列树的法文词语提取方法研究 被引量:1
1
作者 于娟 吴晓鹏 +1 位作者 廖晓 刘建国 《电子科技大学学报》 EI CAS CSCD 北大核心 2021年第1期84-90,共7页
法语复杂的语法和词形变化规则导致N-gram等词语提取方法的效果无法保证,影响法语文本挖掘的准确性。该文提出一种高效的法文词语提取方法,从待分析的法语文本中自动获取包括单词和短语的词语集合,构建法语文本挖掘所需的词库。该方法... 法语复杂的语法和词形变化规则导致N-gram等词语提取方法的效果无法保证,影响法语文本挖掘的准确性。该文提出一种高效的法文词语提取方法,从待分析的法语文本中自动获取包括单词和短语的词语集合,构建法语文本挖掘所需的词库。该方法把文本中的单词共现信息压缩为FP序列树结构,快速提取频繁词串并计算其成词度,得到法文词语集合。实验表明,该方法的准确率高达90%,且具有比现有法文词语提取方法更高的召回率,能有效支持法语文本挖掘应用。 展开更多
关键词 FP序列树 法语文本挖掘 词语提取 成词度 文本压缩
下载PDF
基于DC-Value的西班牙语文本词语提取方法 被引量:1
2
作者 于娟 颜煜铃 +1 位作者 简梓炜 张晨 《计算机系统应用》 2021年第6期271-277,共7页
西班牙语(以下简称西语)是仅次于汉语的世界第二大母语语言,是联合国6种官方语言之一.西语复杂的词形变化和语法规则,导致C-value等经典的词语提取方法的效果无法保证,进而影响基于西语文本挖掘的效果.因此,本文研究西语文本词语提取方... 西班牙语(以下简称西语)是仅次于汉语的世界第二大母语语言,是联合国6种官方语言之一.西语复杂的词形变化和语法规则,导致C-value等经典的词语提取方法的效果无法保证,进而影响基于西语文本挖掘的效果.因此,本文研究西语文本词语提取方法,为西语文本的结构化建模提供完备的词库.给定待分析的西班牙语文本,该方法分3步提取得到词语集合:文本预处理、候选词语提取和DC-value成词度计算.其中,前两步所得的候选词语集合可直接用作文本挖掘的词库;第三步所得的候选词语成词度可辅助判断候选词语成词的可能性,减轻人工判断的工作量.实验结果表明,本文方法自动提取的西文词语集合的准确率达到80%,且召回率远高于经典方法,能够为西语文本挖掘提供有效的词库. 展开更多
关键词 西语文本 文本挖掘 词语提取 DC-value
下载PDF
多策略融合的俄语文本词语提取方法研究
3
作者 唐菊香 孙怿晖 +2 位作者 廖晓 刘建国 于娟 《中国科技术语》 2021年第3期59-67,共9页
俄语是联合国工作语言之一,是俄罗斯等多个国家的官方语言。随着“一带一路”倡议的推进和全球化进程的加快,俄语文本数据成为有关组织管理决策的重要信息来源,俄语文本挖掘也因而成为重要的管理决策支持方法。然而,俄语文本挖掘方法研... 俄语是联合国工作语言之一,是俄罗斯等多个国家的官方语言。随着“一带一路”倡议的推进和全球化进程的加快,俄语文本数据成为有关组织管理决策的重要信息来源,俄语文本挖掘也因而成为重要的管理决策支持方法。然而,俄语文本挖掘方法研究目前还远未成熟,尤其是其关键基础——俄语文本词语提取的性能较低,阻碍着俄语文本建模的准确性。因此,文章提出一种多策略融合的俄语文本词语提取方法,结合俄语词性分析、语法规则和串频统计等多种方法,自动提取包含单词和短语在内的俄语词语。在联合国平行语料库和Taiga Corpus语料库上的实验结果表明,文章提出的方法在保证高召回率的同时,达到了85%以上的高准确率,显著优于常用的n-gram方法,能够为俄语文本主题发现和文本分/聚类等文本挖掘应用提供有效的词库。 展开更多
关键词 俄语文本挖掘 词语提取 词性标注 频繁词串
下载PDF
结合词性分析与串频统计的词语提取方法 被引量:19
4
作者 于娟 党延忠 《系统工程理论与实践》 EI CSSCI CSCD 北大核心 2010年第1期105-111,共7页
在介绍分析现有主要提词方法的基础上,提出并实现了一种结合词性分析与串频统计的词语提取方法.文章首先详细描述了该方法的原理与框架,同时结合实例说明了其实现过程.然后将该方法与已有的具代表性的文本提词方法作计算结果的对比分析... 在介绍分析现有主要提词方法的基础上,提出并实现了一种结合词性分析与串频统计的词语提取方法.文章首先详细描述了该方法的原理与框架,同时结合实例说明了其实现过程.然后将该方法与已有的具代表性的文本提词方法作计算结果的对比分析,结果表明该方法能够提取得到电子文档中包括原子词与合成词在内的所有词语,并且准确率与召回率较之前的方法均有很大提高.优良的自动提词结果能够保证文本自动处理的性能,进而促进相关领域的自动化程度与性能的提高. 展开更多
关键词 文本自动处理 词语提取 原子词 合成词 词性标记
原文传递
英语专业学生英文写作中思维转化为词语时的问题 被引量:15
5
作者 徐昉 丁言仁 《解放军外国语学院学报》 CSSCI 北大核心 2010年第4期54-58,共5页
本研究主要采用写作者有声思维和回顾访谈的方法,追踪和描述大学生在写作过程中把思维转化为英语单词和词组时面临的问题。研究发现,学生在词语提取和形式整合过程中面临多种问题,尤其在提升词语表达过程中表现出各种关注;而且,语言高... 本研究主要采用写作者有声思维和回顾访谈的方法,追踪和描述大学生在写作过程中把思维转化为英语单词和词组时面临的问题。研究发现,学生在词语提取和形式整合过程中面临多种问题,尤其在提升词语表达过程中表现出各种关注;而且,语言高水平学生比语言低水平学生面临更多的词语提取问题。 展开更多
关键词 二语写作 词汇产出 词语提取 形式整合
下载PDF
从语录流行语到词语流行语 被引量:26
6
作者 李明洁 《修辞学习》 北大核心 2009年第3期70-78,共9页
语录流行语是以语录为载体的话语成品的流行现象,有整体复制和引用类比两种流行方式,具有入境性的特点。语录流行语中有一部分会经过语义投射和词语提取等词语化的手段转换为词语流行语,并按照词语流行语的一般规律,通过高频使用和词义... 语录流行语是以语录为载体的话语成品的流行现象,有整体复制和引用类比两种流行方式,具有入境性的特点。语录流行语中有一部分会经过语义投射和词语提取等词语化的手段转换为词语流行语,并按照词语流行语的一般规律,通过高频使用和词义泛化而得以流行。本文从社会动因、认知规律,尤其是语言特征的层面综合分析了流行语传播中的类型转换现象,阐明了语言流行的两种载体间的差异,论证了语录流行语转换至词语流行语的方式和意义。 展开更多
关键词 语录流行语 词语流行语 入境性 离境性 语义投射 词语提取
下载PDF
英文写作中的词汇问题与对策 被引量:11
7
作者 于万锁 《山东外语教学》 北大核心 2011年第1期61-66,共6页
本文采用问卷调查和访谈方法调查了88名英语专业二年级学生在提取书面表达性词汇时所感到的困难。结果发现,存在四个突出问题:(1)缺乏话题词汇和衔接性词语;(2)没有掌握常用词汇的用法;(3)措词丰富性差:(4)词语提取速度慢。... 本文采用问卷调查和访谈方法调查了88名英语专业二年级学生在提取书面表达性词汇时所感到的困难。结果发现,存在四个突出问题:(1)缺乏话题词汇和衔接性词语;(2)没有掌握常用词汇的用法;(3)措词丰富性差:(4)词语提取速度慢。文章分析了这些问题所产生的根源,并提出了四条建设性意见。 展开更多
关键词 英语写作 心理词汇 词语提取 问题与对策
下载PDF
Hybrid Features for an Arabic Word Recognition System
8
作者 Mehmmood A. Abd Sarab Al Rubeaai George Paschos 《Computer Technology and Application》 2012年第10期685-691,共7页
This research proposes and implements an Arabic Sub-Words Recognition System (ASWR). The system focuses on employing a combination of statistical and structural features to provide complete pattern's description an... This research proposes and implements an Arabic Sub-Words Recognition System (ASWR). The system focuses on employing a combination of statistical and structural features to provide complete pattern's description and enhances the recognition rate. Support Vector Machines (SVMs) is utilized as a promising pattern recognition tool. In addition to that, the problems of dots and holes are solved in a completely different way from the ones previously employed. The proposed system proceeds in several phases as follows: (1) image acquisition, (2) binarisation, (3) morphological processing, (4) feature extraction, which includes statistical features, i.e., moment invariants, and structural features, i.e., dot number, dot position, and number of holes, features, and (5) classification, using multi-class SVMs and applying a one-against-all technique. The proposed system has been tested using different sets of words and subwords and has achieved a nearly 98.90% recogiaition rate. Comparative results with NNs are also presented. 展开更多
关键词 Arabic word recognition support vector machines CLASSIFICATION feature extraction neural networks morphological.
下载PDF
Development of Aircraft Maintenance Glossaries in Higher Education:Exploring Methodological Paths to Corpus-Driven Analysis of Key Keywords
9
作者 Malila PRADO Daniela TERENZI Diego BRITO 《中国科技术语》 2025年第1期83-93,共11页
This paper presents a project aimed at developing a trilingual visual dictionary for aircraft maintenance professionals and students.The project addresses the growing demand for accurate communication and technical te... This paper presents a project aimed at developing a trilingual visual dictionary for aircraft maintenance professionals and students.The project addresses the growing demand for accurate communication and technical terminology in the aviation industry,particularly in Brazil and China.The study employs a corpus-driven approach,analyzing a large corpus of aircraft maintenance manuals to extract key technical terms and their collocates.Using specialized subcorpora and a comparative analysis,this paper demonstrates challenges and solutions into the identification of high-frequency keywords and explores their contextual use in aviation documentation,emphasizing the need for clear and accurate technical communication.By incorporating these findings into a trilingual visual dictionary,the project aims to enhance the understanding and usage of aviation terminology. 展开更多
关键词 aircraft maintenance corpus keyword extraction
下载PDF
Automatic Extraction of Contextual Co-occurrence Chain and Its Relationship with Textual Cohesion 被引量:1
10
作者 孙爱珍 《Chinese Journal of Applied Linguistics》 2011年第4期3-14,127,共13页
Semantic lexical chains have been regarded as important in textural cohesion, although traditionally, the classification of these chains has been limited to repetition, synonymy, hyponymy, and collocates. The cases of... Semantic lexical chains have been regarded as important in textural cohesion, although traditionally, the classification of these chains has been limited to repetition, synonymy, hyponymy, and collocates. The cases of automatic extraction of lexical chains have found that the contextual synonyms can not be recognized, nor extracted automatically. This study took the data-based technology to extract the contextually co-occurring lexical chains through thematic lexical items. It found that these contextually co-occurring lexical chains can include the semantic lexical chains and contextual synonyms. It also found that, in extraction of collocates of the co-occurring lexical items, these collocates form secondary lexical chains, which contribute to textual cohesion. The vertical lexical chains made of contextually cooccurring lexical items and the horizontal chains made of collocational lexical items work together in making the text into a coherent whole. 展开更多
关键词 semantic lexical chain the contextual co-occurrence chain automatic extraction collocation chain
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部