期刊文献+
共找到10,402篇文章
< 1 2 250 >
每页显示 20 50 100
Sentence及其结构研究——以古典主义时期作品为例
1
作者 符方泽 杨伟杰 《北方音乐》 2024年第1期131-140,共10页
文章以sentence为研究对象,一方面对国内外曲式学教材及相关文献展开概念比较、辨析与理论梳理,阐明其基本概念与内部结构;另一方面则以古典主义时期作品为分析实例,讨论这种特定主题(句法)的“结构范型”、并进一步对其“结构变形”的... 文章以sentence为研究对象,一方面对国内外曲式学教材及相关文献展开概念比较、辨析与理论梳理,阐明其基本概念与内部结构;另一方面则以古典主义时期作品为分析实例,讨论这种特定主题(句法)的“结构范型”、并进一步对其“结构变形”的情况进行归类。 展开更多
关键词 sentence 古典风格 范型 变形 陈述短句 延续短句
下载PDF
基于Sentence-BERT的专利技术主题聚类研究——以人工智能领域为例 被引量:2
2
作者 阮光册 周萌葳 《情报杂志》 CSSCI 北大核心 2024年第2期110-117,共8页
[研究目的]将Sentence-BERT模型应用于专利技术主题聚类,解决专利文献为突出新颖性,常使用独特技术术语造成词汇向量语义特征稀疏的问题。[研究方法]以人工智能领域2015年-2019年的22370篇专利为实验数据。首先,采用Sentence-BERT算法... [研究目的]将Sentence-BERT模型应用于专利技术主题聚类,解决专利文献为突出新颖性,常使用独特技术术语造成词汇向量语义特征稀疏的问题。[研究方法]以人工智能领域2015年-2019年的22370篇专利为实验数据。首先,采用Sentence-BERT算法对专利文献摘要文本进行向量化表示;其次,对向量化矩阵进行数据降维,利用HDBSCAN方式寻找原始数据中的高密度簇;最后,识别类簇文本集合中的主题特征,并完成主题呈现。[研究结论]对比LDA主题模型、K-means、doc2vec等方法,本文的实验结果提高了主题划分的细粒度和精确度,获得了较好的主题一致性。如何采用fine-tune策略进一步提升模型的效果,是未来该方法进一步深入探索的方向。 展开更多
关键词 sentence-BERT 专利文本 主题识别 文本聚类
下载PDF
Review of Research on English Translation of Chinese Running Sentences
3
作者 ZHANG Wen-hui 《Journal of Literature and Art Studies》 2024年第7期624-627,共4页
In order to convey complete meanings,there is a phenomenon in Chinese of using multiple running sentences.Xu Jingning(2023,p.66)states,“In communication,a complete expression of meaning often requires more than one c... In order to convey complete meanings,there is a phenomenon in Chinese of using multiple running sentences.Xu Jingning(2023,p.66)states,“In communication,a complete expression of meaning often requires more than one clause,which is common in human languages.”Domestic research on running sentences includes discussions on defining the concept and structural features of running sentences,sentence properties,sentence pattern classifications and their criteria,as well as issues related to translating running sentences into English.This article primarily focuses on scholarly research into the English translation of running sentences in China,highlighting recent achievements and identifying existing issues in the study of running sentence translation.However,by reviewing literature on the translation of running sentences,it is found that current research in the academic community on non-core running sentences is limited.Therefore,this paper proposes relevant strategies to address this issue. 展开更多
关键词 Chinese running sentences TOPICS English-Chinese translation
下载PDF
Classification of Conversational Sentences Using an Ensemble Pre-Trained Language Model with the Fine-Tuned Parameter
4
作者 R.Sujatha K.Nimala 《Computers, Materials & Continua》 SCIE EI 2024年第2期1669-1686,共18页
Sentence classification is the process of categorizing a sentence based on the context of the sentence.Sentence categorization requires more semantic highlights than other tasks,such as dependence parsing,which requir... Sentence classification is the process of categorizing a sentence based on the context of the sentence.Sentence categorization requires more semantic highlights than other tasks,such as dependence parsing,which requires more syntactic elements.Most existing strategies focus on the general semantics of a conversation without involving the context of the sentence,recognizing the progress and comparing impacts.An ensemble pre-trained language model was taken up here to classify the conversation sentences from the conversation corpus.The conversational sentences are classified into four categories:information,question,directive,and commission.These classification label sequences are for analyzing the conversation progress and predicting the pecking order of the conversation.Ensemble of Bidirectional Encoder for Representation of Transformer(BERT),Robustly Optimized BERT pretraining Approach(RoBERTa),Generative Pre-Trained Transformer(GPT),DistilBERT and Generalized Autoregressive Pretraining for Language Understanding(XLNet)models are trained on conversation corpus with hyperparameters.Hyperparameter tuning approach is carried out for better performance on sentence classification.This Ensemble of Pre-trained Language Models with a Hyperparameter Tuning(EPLM-HT)system is trained on an annotated conversation dataset.The proposed approach outperformed compared to the base BERT,GPT,DistilBERT and XLNet transformer models.The proposed ensemble model with the fine-tuned parameters achieved an F1_score of 0.88. 展开更多
关键词 Bidirectional encoder for representation of transformer conversation ensemble model fine-tuning generalized autoregressive pretraining for language understanding generative pre-trained transformer hyperparameter tuning natural language processing robustly optimized BERT pretraining approach sentence classification transformer models
下载PDF
融合Sentence-BERT和LDA的评论文本主题识别 被引量:10
5
作者 阮光册 黄韵莹 《现代情报》 CSSCI 2023年第5期46-53,共8页
[目的/意义]为了解决评论文本主题识别时语义描述不充分以及学习到的主题语义连贯性不强等问题。本文将Sentence-BERT句子嵌入模型和LDA模型相结合,提升评论文本主题的语义性。[方法/过程]采用Sentence-BERT模型获取评论文本句子层面的... [目的/意义]为了解决评论文本主题识别时语义描述不充分以及学习到的主题语义连贯性不强等问题。本文将Sentence-BERT句子嵌入模型和LDA模型相结合,提升评论文本主题的语义性。[方法/过程]采用Sentence-BERT模型获取评论文本句子层面的向量特征,同时,采用LDA模型获取评论文本的概率主题向量,随后使用自动编码器连接两组向量,运用K-means算法对潜在空间向量进行聚类,从类簇中获取上下文主题信息。[结果/结论]通过对评论文本数据集的实验,本文方法可以较好地获得具有语义信息的主题词。Sentence-BERT模型与LDA结合,增加了模型的复杂性。通过对比,本文方法获得的主题一致性指标(Coherence)优于目前常见的评论文本主题识别方法。 展开更多
关键词 sentence-BERT LDA模型 评论文本 主题识别
下载PDF
Next Words Prediction and Sentence Completion in Bangla Language Using GRU-Based RNN on N-Gram Language Model
6
作者 Afranul Hoque Busrat Jahan +3 位作者 Shaikat Chandra Paul Zinat Ara Zabu Rakhi Mondal Papeya Akter 《Journal of Data Analysis and Information Processing》 2023年第4期388-399,共12页
We use a lot of devices in our daily life to communicate with others. In this modern world, people use email, Facebook, Twitter, and many other social network sites for exchanging information. People lose their valuab... We use a lot of devices in our daily life to communicate with others. In this modern world, people use email, Facebook, Twitter, and many other social network sites for exchanging information. People lose their valuable time misspelling and retyping, and some people are not happy to type large sentences because they face unnecessary words or grammatical issues. So, for this reason, word predictive systems help to exchange textual information more quickly, easier, and comfortably for all people. These systems predict the next most probable words and give users to choose of the needed word from these suggested words. Word prediction can help the writer by predicting the next word and helping complete the sentence correctly. This research aims to forecast the most suitable next word to complete a sentence for any given context. In this research, we have worked on the Bangla language. We have presented a process that can expect the next maximum probable and proper words and suggest a complete sentence using predicted words. In this research, GRU-based RNN has been used on the N-gram dataset to develop the proposed model. We collected a large dataset using multiple sources in the Bangla language and also compared it to the other approaches that have been used such as LSTM, and Naive Bayes. But this suggested approach provides excellent exactness than others. Here, the Unigram model provides 88.22%, Bi-gram model is 99.24%, Tri-gram model is 97.69%, and 4-gram and 5-gram models provide 99.43% and 99.78% on average accurateness. We think that our proposed method profound impression on Bangla search engines. 展开更多
关键词 Bangla Language Words Prediction sentence Completion GRU RNN Corpus N-Gram
下载PDF
A Sentence Retrieval Generation Network Guided Video Captioning
7
作者 Ou Ye Mimi Wang +3 位作者 Zhenhua Yu Yan Fu Shun Yi Jun Deng 《Computers, Materials & Continua》 SCIE EI 2023年第6期5675-5696,共22页
Currently,the video captioning models based on an encoder-decoder mainly rely on a single video input source.The contents of video captioning are limited since few studies employed external corpus information to guide... Currently,the video captioning models based on an encoder-decoder mainly rely on a single video input source.The contents of video captioning are limited since few studies employed external corpus information to guide the generation of video captioning,which is not conducive to the accurate descrip-tion and understanding of video content.To address this issue,a novel video captioning method guided by a sentence retrieval generation network(ED-SRG)is proposed in this paper.First,a ResNeXt network model,an efficient convolutional network for online video understanding(ECO)model,and a long short-term memory(LSTM)network model are integrated to construct an encoder-decoder,which is utilized to extract the 2D features,3D features,and object features of video data respectively.These features are decoded to generate textual sentences that conform to video content for sentence retrieval.Then,a sentence-transformer network model is employed to retrieve different sentences in an external corpus that are semantically similar to the above textual sentences.The candidate sentences are screened out through similarity measurement.Finally,a novel GPT-2 network model is constructed based on GPT-2 network structure.The model introduces a designed random selector to randomly select predicted words with a high probability in the corpus,which is used to guide and generate textual sentences that are more in line with human natural language expressions.The proposed method in this paper is compared with several existing works by experiments.The results show that the indicators BLEU-4,CIDEr,ROUGE_L,and METEOR are improved by 3.1%,1.3%,0.3%,and 1.5%on a public dataset MSVD and 1.3%,0.5%,0.2%,1.9%on a public dataset MSR-VTT respectively.It can be seen that the proposed method in this paper can generate video captioning with richer semantics than several state-of-the-art approaches. 展开更多
关键词 Video captioning encoder-decoder sentence retrieval external corpus RS GPT-2 network model
下载PDF
A Study of Nominal Predicate Sentences Under the Framework of Cognitive Grammar
8
作者 ZOU Wen-jie GAO Wen-cheng 《Journal of Literature and Art Studies》 2023年第9期704-707,共4页
Cognitive grammar,as a linguistic theory that attaches importance to the relationship between language and thinking,provides us with a more comprehensive way to understand the structure,semantics and cognitive process... Cognitive grammar,as a linguistic theory that attaches importance to the relationship between language and thinking,provides us with a more comprehensive way to understand the structure,semantics and cognitive processing of noun predicate sentences.Therefore,under the framework of cognitive grammar,this paper tries to analyze the semantic connection and cognitive process in noun predicate sentences from the semantic perspective and the method of example theory,and discusses the motivation of the formation of this construction,so as to provide references for in-depth analysis of the cognitive laws behind noun predicate sentences. 展开更多
关键词 nominal predicate sentences cognitive grammar SEMANTICS
下载PDF
论中国传统法典立法技术的发展——以唐明律计亩论罪为中心的考察
9
作者 周东平 王舒 《厦门大学学报(哲学社会科学版)》 CSSCI 北大核心 2024年第3期68-78,共11页
中国传统立法沿革表明,其法典立法技术在不断进步,而唐明律计亩论罪量刑方式则较为明显地反映出这种变化。其立法技术沿革模式可以分为两类:一类是侵犯他人田土使用权和所有权的犯罪,罪刑虽然有所改动、整合,但传承关系明显;另一类与土... 中国传统立法沿革表明,其法典立法技术在不断进步,而唐明律计亩论罪量刑方式则较为明显地反映出这种变化。其立法技术沿革模式可以分为两类:一类是侵犯他人田土使用权和所有权的犯罪,罪刑虽然有所改动、整合,但传承关系明显;另一类与土地分配、赋役征派等基本国策相关联,因政策调整,犯罪类型差异大,但其部分刑等设计却随刑罚体系传承下来。计亩论罪与计赃论罪的原理不同,不能简单视为实物计赃,其行用与犯罪不符合盗罪构成有关,也是国家财政方针在法律中的如实反映。唐明两朝计亩论罪呈现出量刑从公私不分到区分官民、刑罚偏轻且具备体系性的鲜明特点。与唐代相较,明代更加重视官有财产保护以及体系内各罪刑罚间的联系,其立法技术更趋完善。 展开更多
关键词 唐明律 立法技术 计亩论罪 计赃论罪 量刑
下载PDF
基于专利文本多粒度深层语义的技术演化路径智能识别方法研究 被引量:2
10
作者 唐晓波 吴佳琳 吴海婷 《情报理论与实践》 CSSCI 北大核心 2024年第1期136-144,共9页
[目的/意义]专利文本是技术演化分析的可靠知识来源。利用领域多层本体和Sentence-BERT深度学习预训练模型可分别从词和句子两个角度挖掘多粒度深层文本语义信息,提升专利文本语义挖掘的全面性,进而提高技术演化路径识别的准确性。[方法... [目的/意义]专利文本是技术演化分析的可靠知识来源。利用领域多层本体和Sentence-BERT深度学习预训练模型可分别从词和句子两个角度挖掘多粒度深层文本语义信息,提升专利文本语义挖掘的全面性,进而提高技术演化路径识别的准确性。[方法/过程]以深度学习、基于本体的相似度计算及谱聚类算法等大数据和人工智能技术为基础,实现准确、高效、全面的技术演化路径智能识别。构建领域词典和领域本体,根据领域词典抽取专利摘要中的领域术语,根据领域本体中不同术语的最近共同祖先节点的深度,从词语级别计算专利摘要间的语义相似度;利用Sentence-BERT对专利摘要进行向量化表示,计算句子层面的语义相似度;结合两种相似度的计算结果构建相似度矩阵并进行谱聚类,根据谱聚类结果和专利时序特征识别技术演化路径。最后以光刻领域专利数据为例进行实证研究。[结果/结论]实验结果表明,谱聚类得到的技术类别划分结果的准确率、精确率、召回率和F1值的平均值均达到了85%以上,说明文章提出的基于专利文本多粒度深层语义的技术演化路径智能识别方法是有效的,其有助于科研人员、企业决策者和政府决策者探究技术发展历程,研判技术创新方向,推动关键技术研发。 展开更多
关键词 技术演化路径识别 领域本体 sentence-BERT 谱聚类 文本挖掘
下载PDF
汉语方言的“被”“把”同现句 被引量:1
11
作者 王莹莹 《华中师范大学学报(人文社会科学版)》 CSSCI 北大核心 2024年第2期151-159,共9页
汉语方言广泛存在被动式和处置式在同一句中共现的现象,即“被”“把”同现句。同现句可分为三类:合用型、套用型、连用型,具有调节焦点、经济简明、连贯语篇等功能。同现句萌芽于唐,发展于宋元,至明清日臻成熟并沿用至今。它的产生是... 汉语方言广泛存在被动式和处置式在同一句中共现的现象,即“被”“把”同现句。同现句可分为三类:合用型、套用型、连用型,具有调节焦点、经济简明、连贯语篇等功能。同现句萌芽于唐,发展于宋元,至明清日臻成熟并沿用至今。它的产生是多重因素共同作用的结果,其中被动式和处置式的高度和谐是前提条件,数量象似、标记象似、句式—意图象似是认知动因。此外,同现句经由概念融合生成,可看作事件融合的语言表征。 展开更多
关键词 汉语方言 被动式 处置式 同现句
下载PDF
从句式视角谈汉语书面语教学 被引量:3
12
作者 马真 《云南师范大学学报(对外汉语教学与研究版)》 2024年第1期5-9,共5页
文章首先就语体而言对“汉语书面语”作了扼要说明:其次从三方面阐述了观点:一是对汉语句式作了分类说明,并指出汉语书面语教学主要需关注和抓好两类句式的教学:一类是口语和书面语通用句式,另一类是书面语句式中的“正式语体”句式;二... 文章首先就语体而言对“汉语书面语”作了扼要说明:其次从三方面阐述了观点:一是对汉语句式作了分类说明,并指出汉语书面语教学主要需关注和抓好两类句式的教学:一类是口语和书面语通用句式,另一类是书面语句式中的“正式语体”句式;二是以实例说明从“句式”视角开展汉语书面语教学所需研究的种种问题;三是如何从句式视角进行汉语书面语教学,提出两点具体建议。 展开更多
关键词 国际中文教育 汉语书面语教学 句式 语体
下载PDF
流水句形成的顺序象似性句法机制 被引量:1
13
作者 翁义明 肖清敏 《信阳师范学院学报(哲学社会科学版)》 2024年第1期121-126,共6页
文章基于语言顺序象似性的基本原则,从语言类型学的视角通过实例语料的分析,发现汉语句子中的定语、状语等修饰语在遵循顺序象似性原则的情形下,可自由不加标记地转换成并列小句,从修饰语位置提升为与主句并列的述谓结构,这是汉语流水... 文章基于语言顺序象似性的基本原则,从语言类型学的视角通过实例语料的分析,发现汉语句子中的定语、状语等修饰语在遵循顺序象似性原则的情形下,可自由不加标记地转换成并列小句,从修饰语位置提升为与主句并列的述谓结构,这是汉语流水句形成的主要内在机制与形式手段。 展开更多
关键词 流水句 顺序象似性 句法成分 述谓功能
下载PDF
“才”字条件句的性质和类型
14
作者 朱斌 伍依兰 袁陈杰 《常熟理工学院学报》 2024年第1期47-62,共16页
“才”字条件句是汉语中一种重要的条件句,其基础语义表示必要条件;在特定句式的制约下,或者在特定语境下,可以“浮现”充要性或唯一性。“才”字条件句在格式语义上可划分为六种类型:时间条件句、道义情态条件句、特定条件句、排除条... “才”字条件句是汉语中一种重要的条件句,其基础语义表示必要条件;在特定句式的制约下,或者在特定语境下,可以“浮现”充要性或唯一性。“才”字条件句在格式语义上可划分为六种类型:时间条件句、道义情态条件句、特定条件句、排除条件句、假设条件句和倚变条件句。这六种条件,分为主观范畴条件和客观范畴条件,主观范畴条件包括道义情态条件和假设条件,客观范畴条件包括时间条件、范围条件(特定条件、排除条件、倚变条件);从条件选配视角上看,时间条件、道义情态条件、特定条件、假设条件和倚变条件为正向选配条件,排除条件为负向除外条件。这六种条件句的历史出现顺序大致是:时间条件句>道义情态条件句>特定条件句/排除条件句>假设条件句>倚变条件句。 展开更多
关键词 条件句 性质 类型
下载PDF
醉驾入刑定罪量刑标准的调适与完善——以“血液酒精含量+情节”的重塑为进路 被引量:1
15
作者 李凯 徐贵勇 +1 位作者 蒋芝玉 王昱入 《医学与法学》 2024年第1期54-65,共12页
醉驾入刑十余年以来,虽然醉驾案件审判质效不断向好,但醉驾案件办理仍存在规则不统一、类案不同判等突出问题。其根由在于醉驾入刑标准与行政处罚标准的同质化、醉驾刑罚正面效应和负面效应的对冲化、司法为弥合对冲时的地方差异化等。... 醉驾入刑十余年以来,虽然醉驾案件审判质效不断向好,但醉驾案件办理仍存在规则不统一、类案不同判等突出问题。其根由在于醉驾入刑标准与行政处罚标准的同质化、醉驾刑罚正面效应和负面效应的对冲化、司法为弥合对冲时的地方差异化等。通过醉驾行为发生前、发生时、发生后“三分法”来重塑醉驾情节,并确立“血液酒精含量+情节”的醉驾的定罪量刑新思路,可以认为,将醉驾定罪处刑的血液酒精含量下限标准提高至130毫克/100毫升,具有妥当性。 展开更多
关键词 醉驾 定罪量刑新标准 血液酒精含量
下载PDF
帮助信息网络犯罪活动罪刑罚适用的检视与反思——基于519个样本的实证分析
16
作者 王胜华 周修佐 《贵州大学学报(社会科学版)》 2024年第5期71-82,共12页
网络犯罪在犯罪空间、犯罪方式以及犯罪形态方面,都与传统刑事犯罪不同。这给刑罚的适用带来新的挑战和考验。帮助信息网络犯罪活动罪作为一种新兴的犯罪,在入罪标准、刑罚适用、此罪彼罪区分之上存在争议。对此,本文通过对帮助信息网... 网络犯罪在犯罪空间、犯罪方式以及犯罪形态方面,都与传统刑事犯罪不同。这给刑罚的适用带来新的挑战和考验。帮助信息网络犯罪活动罪作为一种新兴的犯罪,在入罪标准、刑罚适用、此罪彼罪区分之上存在争议。对此,本文通过对帮助信息网络犯罪活动罪刑罚结果和量刑情节描述性分析,证实本罪在刑罚适用上,轻缓化程度显著上升;通过对六个主要量刑情节同刑罚结果做二元logistic回归和有序logistic回归,证实缓刑适用主要受认罪认罚影响,前科和行政违法记录,退赔退赃,犯罪所得具有补充影响力;刑期主要受犯罪流水与犯罪所得影响;罚金主要受认罪认罚影响,犯罪所得与流水具有补充影响力。实证研究说明了本罪部分量刑情节效果发挥不足,刑罚目的实现欠佳,司法压力仍重的现状。解决此困境,构建行刑双向衔接的模式或为良策。 展开更多
关键词 刑罚适用 量刑情节 实证研究 行刑衔接
下载PDF
从“断句难”看“小句凸显”——兼议汉语的句子
17
作者 史有为 《汉语学习》 CSSCI 北大核心 2024年第4期3-17,共15页
断句难,由来已久。从断句实例中发现,汉语的句子并非英语的sentence。在语篇中,汉语的句子由形式、语意和认知三方面综合判定。从语篇角度看,句子不过是语篇的最小段落,带有一定的主观性。因此,汉语的句子具有较大弹性。与句子相比,小... 断句难,由来已久。从断句实例中发现,汉语的句子并非英语的sentence。在语篇中,汉语的句子由形式、语意和认知三方面综合判定。从语篇角度看,句子不过是语篇的最小段落,带有一定的主观性。因此,汉语的句子具有较大弹性。与句子相比,小句是汉语话语中更突出、更稳定、更重要、更容易区分也更具解释性的单位。标点小句比点断句子更重要。汉语语篇的基本单位是小句,而英语语篇的基本单位则是sentence。因此,可以说汉语是“小句凸显”的语言。小句凸显与句子难断是一张纸的两面。小句凸显的确定将影响对汉语其他方面的认识,也将影响对内和对外的句子教学。 展开更多
关键词 小句 小句凸显 句子 语篇 相关性
下载PDF
英语with复合结构赏析助力思辨性读写探索
18
作者 赵军强 张小丽 《通化师范学院学报》 2024年第1期72-78,共7页
作为英语中常见的一类复合结构,with结构聚合多重信息,体现英语长难句的特征。具有包容性、能动性和体验性的思辨性读写能力提升离不开对with复合结构的识别、推敲、加工和赏析。文中用具体实例分析with复合结构在表达复杂内容、传递多... 作为英语中常见的一类复合结构,with结构聚合多重信息,体现英语长难句的特征。具有包容性、能动性和体验性的思辨性读写能力提升离不开对with复合结构的识别、推敲、加工和赏析。文中用具体实例分析with复合结构在表达复杂内容、传递多层含义等传情达意方面的独特功能,并且阐释英语with复合结构赏析助力思辨性读写的逻辑关系。为了能够精准地思辨性理解英语长难句,学习者需要捕捉英语语言微妙之处,品味语言魅力,养成语言输出时使用with复合结构的习惯,实现英语读写彼此促进、相得益彰。 展开更多
关键词 WITH复合结构 思辨性读写 长难句
下载PDF
STK:基于对比学习嵌入的聚类方法
19
作者 刘晋霞 张曦 《计算机科学》 CSCD 北大核心 2024年第S02期621-626,共6页
SimCSE作为一种对比学习方法,在文本嵌入和聚类中表现出了良好的性能。文中旨在优化SimCSE训练模型生成的句子嵌入使其适用于聚类任务,通过多个算法组合和训练参数调整,解决聚类算法选择、噪声及异常值的影响等问题。文中提出一种联合K... SimCSE作为一种对比学习方法,在文本嵌入和聚类中表现出了良好的性能。文中旨在优化SimCSE训练模型生成的句子嵌入使其适用于聚类任务,通过多个算法组合和训练参数调整,解决聚类算法选择、噪声及异常值的影响等问题。文中提出一种联合KL散度和KMeans算法的无监督聚类模型STK(SimCSE t-SNE KMeans),使用SimCSE对文本进行编码;随后采用t-SNE算法对高维嵌入进行降维,通过最小化KL散度保留低维空间中高维数据点之间的相似性关系,降维的同时改善文本嵌入表示;最后使用KMeans算法对降维后的嵌入进行聚类,得到聚类结果。通过将本研究的聚类结果与Bert,UMAP,HDBSCAN等算法得到的结果进行比较,发现文中提出的模型在制氢领域专利和论文数据集上表现出更好的聚类效果,尤其在轮廓系数这一评价指标上。 展开更多
关键词 SimCSE 句嵌入 KL散度 聚类 轮廓系数
下载PDF
融合实体和上下文信息的篇章关系抽取研究
20
作者 黄河燕 袁长森 冯冲 《自动化学报》 EI CAS CSCD 北大核心 2024年第10期1953-1962,共10页
篇章关系抽取旨在识别篇章中实体对之间的关系.相较于传统的句子级别关系抽取,篇章级别关系抽取任务更加贴近实际应用,但是它对实体对的跨句子推理和上下文信息感知等问题提出了新的挑战.本文提出融合实体和上下文信息(Fuse entity and ... 篇章关系抽取旨在识别篇章中实体对之间的关系.相较于传统的句子级别关系抽取,篇章级别关系抽取任务更加贴近实际应用,但是它对实体对的跨句子推理和上下文信息感知等问题提出了新的挑战.本文提出融合实体和上下文信息(Fuse entity and context information,FECI)的篇章关系抽取方法,它包含两个模块,分别是实体信息抽取模块和上下文信息抽取模块.实体信息抽取模块从两个实体中自动地抽取出能够表示实体对关系的特征.上下文信息抽取模块根据实体对的提及位置信息,从篇章中抽取不同的上下文关系特征.本文在三个篇章级别的关系抽取数据集上进行实验,效果得到显著提升. 展开更多
关键词 篇章关系抽取 实体信息 上下文信息 提及位置信息 跨句子推理
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部