期刊文献+
共找到281篇文章
< 1 2 15 >
每页显示 20 50 100
A comprehensive review of existing corpora and methods for creating annotated corpora for event extraction tasks
1
作者 Mohd Hafizul Afifi Abdullah Norshakirah Aziz +3 位作者 Said Jadid Abdulkadir Kashif Hussain Hitham Alhussian Noureen Talpur 《Journal of Data and Information Science》 CSCD 2024年第4期196-238,共43页
Purpose:The purpose of this study is to serve as a comprehensive review of the existing annotated corpora.This review study aims to provide information on the existing annotated corpora for event extraction,which are ... Purpose:The purpose of this study is to serve as a comprehensive review of the existing annotated corpora.This review study aims to provide information on the existing annotated corpora for event extraction,which are limited but essential for training and improving the existing event extraction algorithms.In addition to the primary goal of this study,it provides guidelines for preparing an annotated corpus and suggests suitable tools for the annotation task.Design/methodology/approach:This study employs an analytical approach to examine available corpus that is suitable for event extraction tasks.It offers an in-depth analysis of existing event extraction corpora and provides systematic guidelines for researchers to develop accurate,high-quality corpora.This ensures the reliability of the created corpus and its suitability for training machine learning algorithms.Findings:Our exploration reveals a scarcity of annotated corpora for event extraction tasks.In particular,the English corpora are mainly focused on the biomedical and general domains.Despite the issue of annotated corpora scarcity,there are several high-quality corpora available and widely used as benchmark datasets.However,access to some of these corpora might be limited owing to closed-access policies or discontinued maintenance after being initially released,rendering them inaccessible owing to broken links.Therefore,this study documents the available corpora for event extraction tasks.Research limitations:Our study focuses only on well-known corpora available in English and Chinese.Nevertheless,this study places a strong emphasis on the English corpora due to its status as a global lingua franca,making it widely understood compared to other languages.Practical implications:We genuinely believe that this study provides valuable knowledge that can serve as a guiding framework for preparing and accurately annotating events from text corpora.It provides comprehensive guidelines for researchers to improve the quality of corpus annotations,especially for event extraction tasks across various domains.Originality/value:This study comprehensively compiled information on the existing annotated corpora for event extraction tasks and provided preparation guidelines. 展开更多
关键词 information extraction Event extraction Text mining Large language model Natural language processing
下载PDF
Unlocking the Potential:A Comprehensive Systematic Review of ChatGPT in Natural Language Processing Tasks
2
作者 Ebtesam Ahmad Alomari 《Computer Modeling in Engineering & Sciences》 SCIE EI 2024年第10期43-85,共43页
As Natural Language Processing(NLP)continues to advance,driven by the emergence of sophisticated large language models such as ChatGPT,there has been a notable growth in research activity.This rapid uptake reflects in... As Natural Language Processing(NLP)continues to advance,driven by the emergence of sophisticated large language models such as ChatGPT,there has been a notable growth in research activity.This rapid uptake reflects increasing interest in the field and induces critical inquiries into ChatGPT’s applicability in the NLP domain.This review paper systematically investigates the role of ChatGPT in diverse NLP tasks,including information extraction,Name Entity Recognition(NER),event extraction,relation extraction,Part of Speech(PoS)tagging,text classification,sentiment analysis,emotion recognition and text annotation.The novelty of this work lies in its comprehensive analysis of the existing literature,addressing a critical gap in understanding ChatGPT’s adaptability,limitations,and optimal application.In this paper,we employed a systematic stepwise approach following the Preferred Reporting Items for Systematic Reviews and Meta-Analyses(PRISMA)framework to direct our search process and seek relevant studies.Our review reveals ChatGPT’s significant potential in enhancing various NLP tasks.Its adaptability in information extraction tasks,sentiment analysis,and text classification showcases its ability to comprehend diverse contexts and extract meaningful details.Additionally,ChatGPT’s flexibility in annotation tasks reducesmanual efforts and accelerates the annotation process,making it a valuable asset in NLP development and research.Furthermore,GPT-4 and prompt engineering emerge as a complementary mechanism,empowering users to guide the model and enhance overall accuracy.Despite its promising potential,challenges persist.The performance of ChatGP Tneeds tobe testedusingmore extensivedatasets anddiversedata structures.Subsequently,its limitations in handling domain-specific language and the need for fine-tuning in specific applications highlight the importance of further investigations to address these issues. 展开更多
关键词 Generative AI large languagemodel(LLM) natural language processing(NLP) ChatGPT GPT(generative pretraining transformer) GPT-4 sentiment analysis NER information extraction ANNOTATION text classification
下载PDF
A Survey of Web Information System and Applications
3
作者 HAN Yanbo LI Juanzi +3 位作者 YANG Nan LIU Qing XU Baowen MENG Xiaofeng 《Wuhan University Journal of Natural Sciences》 CAS 2007年第5期769-772,共4页
The fourth international conference on Web information systems and applications (WISA 2007) has received 409 submissions and has accepted 37 papers for publication in this issue. The papers cover broad research area... The fourth international conference on Web information systems and applications (WISA 2007) has received 409 submissions and has accepted 37 papers for publication in this issue. The papers cover broad research areas, including Web mining and data warehouse, Deep Web and Web integration, P2P networks, text processing and information retrieval, as well as Web Services and Web infrastructure. After briefly introducing the WISA conference, the survey outlines the current activities and future trends concerning Web information systems and applications based on the papers accepted for publication. 展开更多
关键词 Web mining data warehouse Deep Web Web integration Web services P2P computing text processing information retrieval Web security
下载PDF
藏文支持在OpenOffice.org办公套件中的实现
4
作者 贾彦民 吴健 +1 位作者 欧珠 孙玉芳 《中文信息学报》 CSCD 北大核心 2006年第3期49-54,77,共7页
办公套件是人们日常应用最为广泛的信息处理软件之一,但真正意义的藏文办公套件至今都尚未问世,成为藏文信息技术发展的“瓶颈”。开源项目OpenO ffice.org的不断发展和日益成熟,为藏文办公套件的研制开发提供了有利的契机。以OpenO ffi... 办公套件是人们日常应用最为广泛的信息处理软件之一,但真正意义的藏文办公套件至今都尚未问世,成为藏文信息技术发展的“瓶颈”。开源项目OpenO ffice.org的不断发展和日益成熟,为藏文办公套件的研制开发提供了有利的契机。以OpenO ffice.org为源代码基础,采用藏文编码字符集(扩充集A)国家标准,研制的藏文办公套件可支持藏文排版习惯和藏文本地环境,着重解决了藏文文本自动断行的问题,能够满足藏语文用户日常办公需要。 展开更多
关键词 计算机应用 中文信息处理 藏文字符集 办公套件 藏文信息处理 文本断行
下载PDF
蒙古文显示在OpenOffice.org办公套件中的实现 被引量:3
5
作者 孟凡强 吴健 贾彦民 《中文信息学报》 CSCD 北大核心 2007年第2期117-121,共5页
蒙古文是一种复杂文字,目前操作系统和办公套件都还不支持蒙古文的显示。OpenOffice.org是可以运行在Linux和Windows上跨平台的办公套件,它分别使用ICU LayoutEngine和Uniscribe进行复杂文字处理。本文以支持蒙古文处理的Linux版本OpenO... 蒙古文是一种复杂文字,目前操作系统和办公套件都还不支持蒙古文的显示。OpenOffice.org是可以运行在Linux和Windows上跨平台的办公套件,它分别使用ICU LayoutEngine和Uniscribe进行复杂文字处理。本文以支持蒙古文处理的Linux版本OpenOiffice.org为基础,详细分析了OpenOffice.org在Linux和Windows系统上的复杂文本处理过程,采用Uniscribe与ICU相结合的方案,实现了OpenOffice.org在Windows平台上对蒙古文的显示。 展开更多
关键词 计算机应用 中文信息处理 复杂文字 复杂文本布局引擎 ICU Uniscribe
下载PDF
A Hybrid Algorithm for Stemming of Nepali Text
6
作者 Chiranjibi Sitaula 《Intelligent Information Management》 2013年第4期136-139,共4页
In this paper, a new context free stemmer is proposed which consists of the combination of traditional rule based system with string similarity approach. This algorithm can be called as hybrid algorithm. It is languag... In this paper, a new context free stemmer is proposed which consists of the combination of traditional rule based system with string similarity approach. This algorithm can be called as hybrid algorithm. It is language dependent algorithm. Context free stemmer means that stemmer which stems the word that is not based on the context i.e., for every context such rule is applied. After stripping the words using traditional context free rule based approach, it may over stem or under stem the inflected words which are overcome by applying string similarity function of dynamic programming. For measuring the string similarity function, edit distance is used. The stripped inflected word is compared with the words stored in a text database available. That word having minimum distance is taken as the substitution of the stripped inflected word which leads to the stem of it. The concept of traditional rule based system and corpus based approach is heavily used in this approach. This algorithm is tested for Nepali Language which is based on Devanagari Script. The approach has given better result in comparison to traditional rule based system particularly for Nepali Language only. The total accuracy of this hybrid algorithm is 70.10% whereas the total accuracy of traditional rule based system is 68.43%. 展开更多
关键词 STRING SIMILARITY information RETRIEVAL TEXT Mining Natural Language processing Dynamic PROGRAMMING
下载PDF
A Rule Based System for Speech Language Context Understanding
7
作者 Imran Sarwar Bajwa Muhammad Abbas Choudhary 《Journal of Donghua University(English Edition)》 EI CAS 2006年第6期39-42,共4页
Speech or Natural language contents are major tools of communication. This research paper presents a natural language processing based automated system for understanding speech language text. A new rule based model ha... Speech or Natural language contents are major tools of communication. This research paper presents a natural language processing based automated system for understanding speech language text. A new rule based model has been presented for analyzing the natural languages and extracting the relative meanings from the given text. User writes the natural language text in simple English in a few paragraphs and the designed system has a sound ability of analyzing the given script by the user. After composite analysis and extraction of associated information, the designed system gives particular meanings to an assortment of speech language text on the basis of its context. The designed system uses standard speech language rules that are clearly defined for all speech languages as English, Urdu, Chinese, Arabic, French, etc. The designed system provides a quick and reliable way to comprehend speech language context and generate respective meanings. 展开更多
关键词 automatic text understanding speech language processing information extraction language engineering.
下载PDF
基于多级语义对齐的图像-文本匹配算法
8
作者 李艺茹 姚涛 +2 位作者 张林梁 孙玉娟 付海燕 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第2期551-558,共8页
图像中的区域特征更关注于图像中的前景信息,背景信息往往被忽略,如何有效的联合局部特征和全局特征还没有得到充分地研究。为解决上述问题,加强全局概念和局部概念之间的关联得到更准确的视觉特征,提出一种基于多级语义对齐的图像-文... 图像中的区域特征更关注于图像中的前景信息,背景信息往往被忽略,如何有效的联合局部特征和全局特征还没有得到充分地研究。为解决上述问题,加强全局概念和局部概念之间的关联得到更准确的视觉特征,提出一种基于多级语义对齐的图像-文本匹配算法。提取局部图像特征,得到图像中的细粒度信息;提取全局图像特征,将环境信息引入到网络的学习中,从而得到不同的视觉关系层次,为联合的视觉特征提供更多的信息;将全局-局部图像特征进行联合,将联合后的视觉特征和文本特征进行全局-局部对齐得到更加精准的相似度表示。通过大量的实验和分析表明:所提算法在2个公共数据集上具有有效性。 展开更多
关键词 图像-文本匹配 跨模态信息处理 特征提取 神经网络 特征融合
下载PDF
面向信息处理的《古籍汉字分级字表(7000字)》的研制
9
作者 余雪 冯敏萱 李斌 《辞书研究》 2024年第6期66-80,I0002,共16页
分级字表是文本难度分级的重要基础资源。文章基于大规模古籍文本语料库,在统计构建《古籍汉字通用字表》的基础上,通过挖掘古籍汉字在字形、字音、字义以及应用层面的11个分级计量特征,设计了古籍汉字学习优先级的分级评价体系,将各汉... 分级字表是文本难度分级的重要基础资源。文章基于大规模古籍文本语料库,在统计构建《古籍汉字通用字表》的基础上,通过挖掘古籍汉字在字形、字音、字义以及应用层面的11个分级计量特征,设计了古籍汉字学习优先级的分级评价体系,将各汉字表示为基于计量特征学习优先级的字向量,借助相似度计算,实现了古籍汉字学习优先级别的3级划分,得到《古籍汉字分级字表(7000字)》。该字表包括甲级字1516个、乙级字2421个,丙级字3063个,能够从文字层面为古汉语文本难度分级提供必要的基础字表,有助于古汉语文本分级研究,助力面向辞书编撰的语言文字信息化平台建设,进而为古文读写能力水平测试、古文篇章的自动分级等研究奠定基础。 展开更多
关键词 信息处理 古籍汉字 分级字表 古文文本分级
下载PDF
文本视觉问答综述
10
作者 朱贵德 黄海 《计算机工程》 CAS CSCD 北大核心 2024年第2期1-14,共14页
传统视觉问答(VQA)大多只关注图像中的视觉对象信息,忽略了对图像中文本信息的关注。文本视觉问答(TextVQA)除了视觉信息外还关注了图像中的文本信息,能够更加准确并高效地回答问题。近年来,TextVQA已经成为多模态领域的研究热点,在自... 传统视觉问答(VQA)大多只关注图像中的视觉对象信息,忽略了对图像中文本信息的关注。文本视觉问答(TextVQA)除了视觉信息外还关注了图像中的文本信息,能够更加准确并高效地回答问题。近年来,TextVQA已经成为多模态领域的研究热点,在自动驾驶、场景理解等包含文本信息的场景中有重要的应用前景。阐述TextVQA的概念以及存在的问题与挑战,从方法、数据集、未来研究方向等方面对TextVQA任务进行系统性的分析。总结现有的TextVQA研究方法,并将其归纳为3个阶段,分别为特征提取阶段、特征融合阶段和答案预测阶段。根据融合阶段使用方法的不同,从简单注意力方法、基于Transformer方法和基于预训练方法这3个方面对TextVQA方法进行阐述,分析对比不同方法的特点以及在公开数据集中的表现。介绍TextVQA领域4种常用的公共数据集,并对它们的特点和评价指标进行分析。在此基础上,探讨当前TextVQA任务中存在的问题与挑战,并对该领域未来的研究方向进行展望。 展开更多
关键词 文本视觉问答 文本信息 自然语言处理 计算机视觉 多模态融合
下载PDF
面向医学影像报告生成的门归一化编解码网络
11
作者 谭立玮 张淑军 +2 位作者 韩琪 郭淇 王鸿雁 《智能系统学报》 CSCD 北大核心 2024年第2期411-419,共9页
医学影像报告的自动生成可以减轻医生的工作强度,减少误诊或漏诊的情况发生。由于医学影像的独特性,通常病灶比较小,与正常区域灰度差异难以分辨,导致文本生成时关键词的缺失,报告不够准确。对此提出一种面向医学影像报告生成的门归一... 医学影像报告的自动生成可以减轻医生的工作强度,减少误诊或漏诊的情况发生。由于医学影像的独特性,通常病灶比较小,与正常区域灰度差异难以分辨,导致文本生成时关键词的缺失,报告不够准确。对此提出一种面向医学影像报告生成的门归一化编解码网络,通过门控通道变换单元优化视觉特征提取,加强特征间的差异,自动筛选关键特征;提出门归一化算法,沿通道维度整合上下文信息,在浅层网络激活、深层网络抑制通道间神经元活性,过滤无效特征,使文本和视觉语义充分交互,提高报告生成质量。在2种广泛使用的基准数据集IU X-Ray和MIMIC-CXR上的试验结果表明,模型能够取得先进的性能,生成的影像报告也具有更好的视觉语义一致性。 展开更多
关键词 医学影像处理 文本处理 特征提取 信息融合 通道编码 深度学习 报告生成器 灰度差异
下载PDF
Text-to-SQL文本信息处理技术研究综述 被引量:1
12
作者 彭钰寒 乔少杰 +5 位作者 薛骐 李江敏 谢添丞 徐康镭 冉黎琼 曾少北 《无线电工程》 2024年第5期1053-1062,共10页
信号与信息处理的需求日益增加,离不开数据处理技术,数据处理需要数据库的支持,然而没有经过训练的使用者会因为不熟悉数据库操作产生诸多问题。文本转结构化查询语言(Text to Structured Query Language,Text-to-SQL)的出现,使用户无... 信号与信息处理的需求日益增加,离不开数据处理技术,数据处理需要数据库的支持,然而没有经过训练的使用者会因为不熟悉数据库操作产生诸多问题。文本转结构化查询语言(Text to Structured Query Language,Text-to-SQL)的出现,使用户无需掌握结构化查询语言(Structured Query Language,SQL)也能够熟练操作数据库。介绍Text-to-SQL的研究背景及面临的挑战;介绍Text-to-SQL关键技术、基准数据集、模型演变及最新研究进展,关键技术包括Transformer等主流技术,用于模型训练的基准数据集包括WikiSQL和Spider;介绍Text-to-SQL不同阶段模型的特点,详细阐述Text-to-SQL最新研究成果的工作原理,包括模型构建、解析器设计及数据集生成;总结Text-to-SQL未来的发展方向及研究重点。 展开更多
关键词 文本转结构化查询语言 解析器 文本信息处理 数据库 深度学习
下载PDF
基于Elmo的高层语义敏感信息识别方法研究
13
作者 陈紫琴 吴鹏 李乐成 《长江信息通信》 2024年第7期119-122,共4页
社交媒体的不断发展使得网络上充斥着大量的信息,然而网络的开放性也导致了容易传播涉政敏感信息。在这样的背景下,如何高效准确地筛查出这些涉政敏感信息成为当前迫切需要解决的问题。本文旨在提出一种基于深度学习的语义层级敏感信息... 社交媒体的不断发展使得网络上充斥着大量的信息,然而网络的开放性也导致了容易传播涉政敏感信息。在这样的背景下,如何高效准确地筛查出这些涉政敏感信息成为当前迫切需要解决的问题。本文旨在提出一种基于深度学习的语义层级敏感信息识别方法,以应对这一挑战。将输入的文本以基于Elmo的方法生成动态词向量,建立基于高层语义的细到粗策略和基于多上下文的混合模型,再通过基于关联规则的变体词识别算法得到识别结果。经实验证明,在新浪微博数据集上,文章提出的方法有较好的效果。尤其值得注意的是,基于Elmo的动态词向量生成方法相比传统的word2vec和glove表示法具有更突出的效果,这表明了Elmo技术在敏感信息识别任务中的潜力和优势。 展开更多
关键词 文本检测 词向量生成 敏感信息识别 自然语言处理 深度学习
下载PDF
基于向量空间模型的文本自动分类系统的研究与实现 被引量:293
14
作者 庞剑锋 卜东波 白硕 《计算机应用研究》 CSCD 北大核心 2001年第9期23-26,共4页
随着网络信息的迅猛发展 ,信息处理已经成为人们获取有用信息不可缺少的工具。文本自动分类系统是信息处理的重要研究方向 ,它是指在给定的分类体系下 ,根据文本的内容自动判别文本类别的过程。对文本分类中所涉及的关键技术 ,包括向量... 随着网络信息的迅猛发展 ,信息处理已经成为人们获取有用信息不可缺少的工具。文本自动分类系统是信息处理的重要研究方向 ,它是指在给定的分类体系下 ,根据文本的内容自动判别文本类别的过程。对文本分类中所涉及的关键技术 ,包括向量空间模型、特征提取、机器学习方法等进行了研究和探讨 ,并且提出了基于向量空间模型的文本分类系统的结构 。 展开更多
关键词 中文信息处理 向量空间模型 文本自动分类系统 人工智能 计算机
下载PDF
基于Web数据的农业网络信息自动采集与分类系统 被引量:34
15
作者 段青玲 魏芳芳 +1 位作者 张磊 肖晓琰 《农业工程学报》 EI CAS CSCD 北大核心 2016年第12期172-178,共7页
为了快速、高效地获取农业Web信息,解决信息孤岛和信息不对称的问题,重点研究了农业Web数据自动采集与抽取、基于SVM(support vector machine)的文本分类、物联网异构数据采集等技术,并采用统一建模语言(unified modeling language,UML... 为了快速、高效地获取农业Web信息,解决信息孤岛和信息不对称的问题,重点研究了农业Web数据自动采集与抽取、基于SVM(support vector machine)的文本分类、物联网异构数据采集等技术,并采用统一建模语言(unified modeling language,UML)描述了农业网络信息自动采集与分类系统。该系统实现了农业网站、物联网数据的自动抓取和共享,为用户提供农业资讯、农产品市场行情、供求信息在线查询,环境数据实时监测和个性化信息服务等功能。应用结果表明,该系统对样本集网站的信息抓取准确率为98.2%,资讯分类准确率为92.5%,具有数据采集实时性强、用户参与度好、通用性高等特点,该系统为农业信息整合和服务提供参考。 展开更多
关键词 农业 文本处理 采集系统 信息 物联网
下载PDF
基于语义理解的文本相似度算法 被引量:80
16
作者 金博 史彦军 滕弘飞 《大连理工大学学报》 EI CAS CSCD 北大核心 2005年第2期291-297,共7页
相似度的计算在信息检索及文档复制检测等领域具有广泛的应用前景.研究了文本相似度的计算方法,在知网语义相似度的基础上,将基于语义理解的文本相似度计算推广到段落范围,进而可以将这种段落相似度推广到篇章相似度计算.给出了文本(包... 相似度的计算在信息检索及文档复制检测等领域具有广泛的应用前景.研究了文本相似度的计算方法,在知网语义相似度的基础上,将基于语义理解的文本相似度计算推广到段落范围,进而可以将这种段落相似度推广到篇章相似度计算.给出了文本(包括词语、句子、段落)相似度的计算公式及算法,用于计算两文本之间的相似度.实例验证表明,该算法与现有典型的相似度计算方法相比,计算准确性得到提高. 展开更多
关键词 语义理解 相似度算法 相似度计算 计算方法 文本相似度 语义相似度 信息检索 实例验证 计算公式 准确性 文档 知网
下载PDF
文本阅读中背景信息的加工过程:激活与整合 被引量:11
17
作者 王瑞明 莫雷 +1 位作者 吴俊 崔磊 《心理学报》 CSSCI CSCD 北大核心 2007年第4期589-601,共13页
采用移动窗口技术和眼动技术探讨了文本阅读中当前信息跟背景信息的具体加工过程。被试为华南师范大学本科生92名。实验1使用移动窗口技术,计算机屏幕上每次只呈现一个句子,让被试自己按键逐句进行阅读,通过分析不同实验条件下探测词的... 采用移动窗口技术和眼动技术探讨了文本阅读中当前信息跟背景信息的具体加工过程。被试为华南师范大学本科生92名。实验1使用移动窗口技术,计算机屏幕上每次只呈现一个句子,让被试自己按键逐句进行阅读,通过分析不同实验条件下探测词的再认反应时间和不同实验条件下目标句的阅读时间来探讨文本阅读中信息加工的具体过程。实验2使用眼动技术在一种更自然的情境中通过分析不同实验条件下眼动指标的差异来进一步探讨文本阅读中信息加工的具体过程。实验结果表明,文本阅读中背景信息的加工过程包括激活和整合两个阶段,这两个阶段相互独立但又紧密联系,激活是整合发生的前提,有整合必先发生激活,但激活发生后并不一定会发生整合;文本阅读过程中读者阅读时间的延长主要发生在整合阶段。 展开更多
关键词 文本阅读 信息加工 激活 整合.
下载PDF
文本阅读双加工理论与实验证据 被引量:28
18
作者 莫雷 王瑞明 冷英 《心理学报》 CSSCI CSCD 北大核心 2012年第5期569-584,共16页
文本阅读信息加工过程研究一直是国内外心理学界高度重视和关注的领域,形成了建构主义理论、最低限度假设理论和记忆基础文本加工理论等派别百家争鸣的局面。这些理论争议的焦点在于自然阅读是主动的、积极的、目标策略驱动的过程,还是... 文本阅读信息加工过程研究一直是国内外心理学界高度重视和关注的领域,形成了建构主义理论、最低限度假设理论和记忆基础文本加工理论等派别百家争鸣的局面。这些理论争议的焦点在于自然阅读是主动的、积极的、目标策略驱动的过程,还是被动的、消极的、自动的过程。在全面总结国内外心理学界有关文本阅读的研究成果的基础上,文本阅读双加工理论提出并对文本阅读的主要争议进行了整合。该理论的核心观点是文本的自然阅读过程是连贯阅读与焦点阅读的双加工过程。文本阅读中读者所阅读的材料特点不同,引发的阅读信息加工活动也不同,而不同性质的阅读过程,又会引发不同的推理整合,从而会建构不同类型的文本表征。文本阅读双加工理论已经形成了比较完整的理论框架,并获得了很多实验证据的支持。当然,文本阅读双加工理论作为一个新的理论,其中的有些观点还需要进一步检验。在未来的文本阅读研究领域,有很多问题还需要研究者进一步关注。 展开更多
关键词 文本阅读 信息加工 连贯阅读 焦点阅读
下载PDF
基于监督学习的中文情感分类技术比较研究 被引量:136
19
作者 唐慧丰 谭松波 程学旗 《中文信息学报》 CSCD 北大核心 2007年第6期88-94,108,共8页
情感分类是一项具有较大实用价值的分类技术,它可以在一定程度上解决网络评论信息杂乱的现象,方便用户准确定位所需信息。目前针对中文情感分类的研究相对较少,其中各种有监督学习方法的分类效果以及文本特征表示方法和特征选择机制等... 情感分类是一项具有较大实用价值的分类技术,它可以在一定程度上解决网络评论信息杂乱的现象,方便用户准确定位所需信息。目前针对中文情感分类的研究相对较少,其中各种有监督学习方法的分类效果以及文本特征表示方法和特征选择机制等因素对分类性能的影响更是亟待研究的问题。本文以n-gram以及名词、动词、形容词、副词作为不同的文本表示特征,以互信息、信息增益、CHI统计量和文档频率作为不同的特征选择方法,以中心向量法、KNN、Winnow、Na ve Bayes和SVM作为不同的文本分类方法,在不同的特征数量和不同规模的训练集情况下,分别进行了中文情感分类实验,并对实验结果进行了比较,对比结果表明:采用Bi Grams特征表示方法、信息增益特征选择方法和SVM分类方法,在足够大训练集和选择适当数量特征的情况下,情感分类能取得较好的效果。 展开更多
关键词 计算机应用 中文信息处理 情感分类 文本分类 语言模型 中文信息处理
下载PDF
文本阅读中协调性整合的发生机制 被引量:12
20
作者 王瑞明 莫雷 +1 位作者 李利 金花 《心理学报》 CSSCI CSCD 北大核心 2008年第11期1165-1177,共13页
采用移动窗口技术和自我报告法探讨了文本阅读中协调性整合发生的具体机制。被试为华南师范大学本科生114名。实验1通过分析不同条件下目标句的阅读时间,探讨当前信息跟先前信息只有语义相关上的局部不一致但没有事件相关时能否发生协... 采用移动窗口技术和自我报告法探讨了文本阅读中协调性整合发生的具体机制。被试为华南师范大学本科生114名。实验1通过分析不同条件下目标句的阅读时间,探讨当前信息跟先前信息只有语义相关上的局部不一致但没有事件相关时能否发生协调性整合。实验2通过分析不同条件下探测词的反应时间探讨文本阅读过程中单纯语义相关没有事件相关时,目标句阅读是否会自动激活跟其有关的背景信息。实验3通过分析不同条件下目标句的阅读时间和被试的自我报告指标,探讨协调性整合是否是一种自动化的过程,即探讨被试在文本阅读过程中能否意识到这种信息整合方式。总的实验结果表明,文本阅读中当前信息跟先前信息有语义相关时可以引发信息激活,但只有当前信息跟先前信息有事件相关时才会发生信息整合;另外,协调性整合是一种自动化的过程,读者在文本阅读过程中不能意识到这种信息整合方式的发生。 展开更多
关键词 文本阅读 信息加工 协调性整合 机制
下载PDF
上一页 1 2 15 下一页 到第
使用帮助 返回顶部