期刊文献+
共找到74篇文章
< 1 2 4 >
每页显示 20 50 100
大型语言模型:原理、实现与发展 被引量:10
1
作者 舒文韬 李睿潇 +2 位作者 孙天祥 黄萱菁 邱锡鹏 《计算机研究与发展》 EI CSCD 北大核心 2024年第2期351-361,共11页
近年来,大型语言模型的出现和发展对自然语言处理和人工智能领域产生了变革性影响.随着不断增大模型参数量和训练数据量,语言模型的文本建模困惑度以可预测的形式降低,在各类自然语言处理任务上的表现也持续提升.因此,增加语言模型的参... 近年来,大型语言模型的出现和发展对自然语言处理和人工智能领域产生了变革性影响.随着不断增大模型参数量和训练数据量,语言模型的文本建模困惑度以可预测的形式降低,在各类自然语言处理任务上的表现也持续提升.因此,增加语言模型的参数和数据规模成为提升系统智能水平富有前景的途径.首先回顾了大型语言模型的基本定义,从模型表现和算力需求的角度给出了“大型”语言模型的界定标准.其次,从数据、算法、模型3个维度梳理了大型语言模型的发展历程及规律,展示了不同阶段各个维度的规模化如何推动语言模型的发展.接着,考察了大型语言模型所表现出的涌现能力,介绍了思维链、情景学习和指令遵循等关键涌现能力的相关研究和应用现状.最后,展望了大型语言模型的未来发展和技术挑战. 展开更多
关键词 自然语言处理 神经网络 大型语言模型 预训练 对齐
下载PDF
InstructGPT在命名实体识别任务中的表现和挑战 被引量:1
2
作者 孙瑜 颜航 +3 位作者 邱锡鹏 王定 牟小峰 黄萱菁 《中文信息学报》 CSCD 北大核心 2024年第1期74-85,共12页
当前,关于大规模语言模型,例如,InstructGPT的研究主要聚焦在自由形式生成任务上,而忽略了在结构化抽取任务上的探索。为了让未来的工作在结构化抽取任务上有一个全面的认知,该文在零样本和少样本设定下,全面分析了InstructGPT在基础的... 当前,关于大规模语言模型,例如,InstructGPT的研究主要聚焦在自由形式生成任务上,而忽略了在结构化抽取任务上的探索。为了让未来的工作在结构化抽取任务上有一个全面的认知,该文在零样本和少样本设定下,全面分析了InstructGPT在基础的结构化抽取任务,命名实体识别上的表现。为了让结论更加可靠,该文的实验同时包含了生物医学领域和通用领域的常规和嵌套数据集。实验结果表明,InstructGPT在零样本学习上的性能只能达到微调小规模语言模型的11%~56%,增加少量样本也最多只能提升至72%。为了探究InstructGPT在命名实体识别上表现性能不佳的原因,该文通过分析模型的输出,发现接近50%的句子都存在无效生成的问题。另外,由于无效生成会同时导致“虚假错误预测”和“虚假正确预测”,解决生成无效问题并不能保证性能的提升。此外,InstructGPT抽取嵌套实体的能力还是有待提高,抽取嵌套实体的比例也偏低。因此,用InstructGPT解决命名实体识别任务,除了要保证生成的有效性,还需要更加深入地研究才能找到行之有效的方法。 展开更多
关键词 大规模语言模型 命名实体识别 上下文学习 思维链
下载PDF
基于向量空间模型的文本过滤系统 被引量:92
3
作者 黄萱菁 夏迎炬 吴立德 《软件学报》 EI CSCD 北大核心 2003年第3期435-442,共8页
文本过滤是指从大量的文本数据流中寻找满足特定用户需求的文本的过程.首先从任务、测试主题、语料库和评测指标等方面介绍了文本检索领域最权威的国际评测会议——文本检索会议(TREC)及其中的文本过滤项目,然后详细地描述了基于向量空... 文本过滤是指从大量的文本数据流中寻找满足特定用户需求的文本的过程.首先从任务、测试主题、语料库和评测指标等方面介绍了文本检索领域最权威的国际评测会议——文本检索会议(TREC)及其中的文本过滤项目,然后详细地描述了基于向量空间模型的文本过滤系统.该系统由训练和自适应过滤两个阶段组成.在训练阶段,通过特征抽取和伪反馈建立初始的过滤模板,并设置初始阈值;在过滤阶段,则根据用户的反馈信息自适应地调整模板和阈值.该系统参加了2000年举行的第9次文本检索会议的评测,取得了很好的成绩,在来自多个国家的15个系统中名列前茅,其中自适应过滤和批过滤的平均准确率分别为26.5%和31.7%. 展开更多
关键词 向量空间模型 文本过滤系统 机器学习 文本分类
下载PDF
文本情感倾向分析 被引量:61
4
作者 黄萱菁 张奇 吴苑斌 《中文信息学报》 CSCD 北大核心 2011年第6期118-126,共9页
近年来,文本情感倾向研究受到研究界和企业界越来越多的关注,成为了自然语言处理、信息检索、数据挖掘等领域的研究热点之一。随着研究的不断深入,大量情感倾向分析的新方法、新问题也不断涌现。该文重点对文本情感倾向研究的前沿进展... 近年来,文本情感倾向研究受到研究界和企业界越来越多的关注,成为了自然语言处理、信息检索、数据挖掘等领域的研究热点之一。随着研究的不断深入,大量情感倾向分析的新方法、新问题也不断涌现。该文重点对文本情感倾向研究的前沿进展进行概括和分析。首先,结合近年来的研究成果,对文本情感倾向分析的两类主要问题进行了定义,并归纳了不同的倾向性表示方法。接下来,对倾向性分类、倾向性信息抽取、语料库与评测以及倾向性分析应用等方面的研究现状进行介绍。最后,总结了情感倾向性分析技术并对未来的发展进行了展望。由于国内对于文本情感倾向分析的研究起步较早,在一些问题的研究上处于国际前沿水平,已经发表了许多高水平论文,该文也将对此加以介绍。 展开更多
关键词 倾向性分析 评价挖掘 倾向性分类 综述
下载PDF
面向法律领域的大模型微调与应用
5
作者 沈晨晨 岳圣斌 +9 位作者 刘书隽 周宇轩 王思远 陈伟 萧尧 李秉轩 宋鋆 沈晓宇 黄萱菁 魏忠钰 《大数据》 2024年第5期11-27,共17页
近年来,大语言模型在多个自然语言处理任务上展现出了出色的能力,为智慧法律系统的发展带来巨大的帮助。现有法律领域的大模型,通过微调通用大模型能够实现利用法律知识进行简单的问题回答,即大多以法律咨询问答为主,没有考虑到法律领... 近年来,大语言模型在多个自然语言处理任务上展现出了出色的能力,为智慧法律系统的发展带来巨大的帮助。现有法律领域的大模型,通过微调通用大模型能够实现利用法律知识进行简单的问题回答,即大多以法律咨询问答为主,没有考虑到法律领域的其他使用场景,如法律信息抽取、判决预测等,而真实世界中的法律服务要比对话服务复杂得多。提出中文法律智慧大模型LawLLM,该模型可以面向不同用户群体,提供多样的法律服务。同时,探究了针对法律领域裁判文书的长文本信息抽取的应用。LawLLM在Lawbench上的Zero-shot的平均表现超过了所有对比的大模型,均值比具有175×10^(9)个参数的GPT-3.5-Turbo高0.19%,LawLLM在Lawbench上的Few-shot的平均表现仅次于GPT-3.5-Turbo,相比其低0.02%。 展开更多
关键词 大语言模型 智慧法律 自然语言处理
下载PDF
现代汉语熵的计算及语言模型中稀疏事件的概率估计 被引量:7
6
作者 黄萱菁 吴立德 +1 位作者 郭以昆 刘秉伟 《电子学报》 EI CAS CSCD 北大核心 2000年第8期110-112,共3页
文本文在大规模语料的基础上 ,利用语言模型中稀疏事件的概率估计方法对汉语的熵进行计算 ,并讨论了语料规模等因素对熵的影响 .在 4年的人民日报的语料规模下 ,所求得的零阶熵、一阶熵、二阶熵分别为 9 6 2 ,6 18和 4 89比特 .
关键词 现代汉语 语言模型 稀疏事件 概率估计
下载PDF
独立于语种的文本分类方法 被引量:52
7
作者 黄萱菁 吴立德 +1 位作者 石崎洋之 徐国伟 《中文信息学报》 CSCD 北大核心 2000年第6期1-7,共7页
文本分类是指在给定分类体系下 ,根据文本的内容自动确定文本类别的过程。本文提出了一个基于机器学习的、独立于语种的文本分类模型 ,并对模型中的特征抽取、分类器和评价方法进行了详细的介绍。该模型已经在中文和日文两个语种的新闻... 文本分类是指在给定分类体系下 ,根据文本的内容自动确定文本类别的过程。本文提出了一个基于机器学习的、独立于语种的文本分类模型 ,并对模型中的特征抽取、分类器和评价方法进行了详细的介绍。该模型已经在中文和日文两个语种的新闻语料上得到实现 ,并获得了较好的分类性能。 展开更多
关键词 文本分类 特征抽取 机器学习 分类器 语种
下载PDF
基于超文本的概念词典管理系统
8
作者 黄萱菁 吴立德 叶丹瑾 《计算机应用与软件》 CSCD 1998年第4期1-7,共7页
本文介绍了自然语言处理系统的一个重要知识源——概念词典,以及基于超文本的概念词典管理系统——概念浏览器。我们的概念词典以框架结构为知识表示单元,框架的内容由结构信息和语义信息组成,所有框架通过结构槽形成树形的层次结构。... 本文介绍了自然语言处理系统的一个重要知识源——概念词典,以及基于超文本的概念词典管理系统——概念浏览器。我们的概念词典以框架结构为知识表示单元,框架的内容由结构信息和语义信息组成,所有框架通过结构槽形成树形的层次结构。概念浏览器作为一个超文本管理系统,不仅能显示层次结构和框架内容,还提供了插入、查询、删除和修改等各种数据库功能。 展开更多
关键词 自然语言处理 概念词典 超文本 管理系统
下载PDF
计算论辩专栏导语
9
作者 黄萱菁 《中文信息学报》 CSCD 北大核心 2023年第10期106-107,共2页
论辩(Argumentation)以人的逻辑论证过程作为研究对象,是一个涉及逻辑、哲学、语言、修辞、计算机科学和教育等多学科的研究领域。近年来,论辩研究引起计算语言学学者的关注,并催生了一个新的研究领域,即计算论辩学(Computational Argum... 论辩(Argumentation)以人的逻辑论证过程作为研究对象,是一个涉及逻辑、哲学、语言、修辞、计算机科学和教育等多学科的研究领域。近年来,论辩研究引起计算语言学学者的关注,并催生了一个新的研究领域,即计算论辩学(Computational Argumentation)。学者们试图将人类关于逻辑论证的认知模型与计算模型结合起来,以提高人工智能自动推理的能力。根据参与论辩过程的人数不同,计算论辩学的研究可以分成两类,即单体式论辩(Monological Argumentation)和对话式论辩(Dialogical Argumentation)。 展开更多
关键词 人工智能 计算语言学 自动推理 单体式 论证过程 对话式 逻辑论证 论辩
下载PDF
基于HowNet的词汇语义倾向计算 被引量:327
10
作者 朱嫣岚 闵锦 +2 位作者 周雅倩 黄萱菁 吴立德 《中文信息学报》 CSCD 北大核心 2006年第1期14-20,共7页
在互联网技术快速发展、网络信息爆炸的今天,通过计算机自动分析大规模文本中的态度倾向信息的技术,在企业商业智能系统、政府舆情分析等诸多领域有着广阔的应用空间和发展前景。同时,语义褒贬倾向研究也为文本分类、自动文摘、文本过... 在互联网技术快速发展、网络信息爆炸的今天,通过计算机自动分析大规模文本中的态度倾向信息的技术,在企业商业智能系统、政府舆情分析等诸多领域有着广阔的应用空间和发展前景。同时,语义褒贬倾向研究也为文本分类、自动文摘、文本过滤等自然语言处理的研究提供了新的思路和手段。篇章语义倾向研究的基础工作是对词汇的褒贬倾向判别。本文基于HowNet,提出了两种词汇语义倾向性计算的方法:基于语义相似度的方法和基于语义相关场的方法。实验表明,本文的方法在汉语常用词中的效果较好,词频加权后的判别准确率可达80%以上,具有一定的实用价值。 展开更多
关键词 计算机应用 中文信息处理 态度分类 语义倾向 知网
下载PDF
基于最大熵方法的中英文基本名词短语识别 被引量:62
11
作者 周雅倩 郭以昆 +1 位作者 黄萱菁 吴立德 《计算机研究与发展》 EI CSCD 北大核心 2003年第3期440-446,共7页
使用了基于最大熵的方法识别中文基本名词短语 在开放语料ChineseTreeBank上 ,只使用词性标注 ,达到了平均 87 4 3% / 88 0 9%的查全率 /准确率 由于 ,关于中文的基本名词短语识别的结果没有很好的可比性 ,又使用相同的算法 ,尝试了英... 使用了基于最大熵的方法识别中文基本名词短语 在开放语料ChineseTreeBank上 ,只使用词性标注 ,达到了平均 87 4 3% / 88 0 9%的查全率 /准确率 由于 ,关于中文的基本名词短语识别的结果没有很好的可比性 ,又使用相同的算法 ,尝试了英文的基本名词短语识别 在英文标准语料TREEBANKⅡ上 ,开放测试达到了 93 31% / 93 0 4 %的查全率/准确率 ,极为接近国际最优水平 这既证明了此算法的行之有效 。 展开更多
关键词 最大熵 基本名词短语 自然语言处理
下载PDF
基于统计方法的中文姓名识别 被引量:48
12
作者 刘秉伟 黄萱菁 +1 位作者 郭以昆 吴立德 《中文信息学报》 CSCD 北大核心 2000年第3期16-24,36,共10页
本文介绍一个中文姓名的自动识别系统 ,该系统使用从姓名样本库和真实文本语料库中得到的大量统计数据 ,以提高系统识别性能。我们从 1 994年人民日报中随机抽取 1 0 0篇文章作为测试样本 ,实验结果表明 ,准确率和召回率可同时达到 90 ... 本文介绍一个中文姓名的自动识别系统 ,该系统使用从姓名样本库和真实文本语料库中得到的大量统计数据 ,以提高系统识别性能。我们从 1 994年人民日报中随机抽取 1 0 0篇文章作为测试样本 ,实验结果表明 ,准确率和召回率可同时达到 90 %以上。 展开更多
关键词 自动分词 未登录词 中文姓名识别 统计方法
下载PDF
中文观点挖掘中的主观性关系抽取 被引量:24
13
作者 章剑锋 张奇 +1 位作者 吴立德 黄萱菁 《中文信息学报》 CSCD 北大核心 2008年第2期55-59,86,共6页
本文所针对的具体任务是抽取评价词和目标对象之间的关联关系。所采用的方法是将同一句子中共现的评价词与评价对象作为候选集合,应用最大熵模型并结合词、词性、语义和位置等特征进行关系抽取。我们将关系抽取引入观点挖掘,所提出的方... 本文所针对的具体任务是抽取评价词和目标对象之间的关联关系。所采用的方法是将同一句子中共现的评价词与评价对象作为候选集合,应用最大熵模型并结合词、词性、语义和位置等特征进行关系抽取。我们将关系抽取引入观点挖掘,所提出的方法一定程度上解决了指代消解以及评价对象遗漏的问题。实验结果表明该方法的F值比取最近评价对象的Baseline方法有了15%的提高,并且发现程度副词能够帮助提高主观性关系抽取的性能。 展开更多
关键词 计算机应用 中文信息处理 观点挖掘 关系抽取 最大熵
下载PDF
基于知网的概念特征抽取方法 被引量:17
14
作者 赵林 胡恬 +1 位作者 黄萱菁 吴立德 《通信学报》 EI CSCD 北大核心 2004年第7期46-54,共9页
文本特征抽取是文本过滤的一项重要基础,但通常采取的用字、词作为特征项的显著缺点是无法表达文本的语义信息,所以本文在向量空间模型的基础上提出了一种以知网为语义知识库、基于语义信息的文本特征项抽取方法。该方法比单纯的词汇信... 文本特征抽取是文本过滤的一项重要基础,但通常采取的用字、词作为特征项的显著缺点是无法表达文本的语义信息,所以本文在向量空间模型的基础上提出了一种以知网为语义知识库、基于语义信息的文本特征项抽取方法。该方法比单纯的词汇信息更能体现文本的概念特征,提高过滤系统的性能;同时还能降低文本向量的维数,减少计算量,提高过滤效率。我们在引入了该方法的中文文本过滤系统上进行的实验结果也充分证实了其有效性。 展开更多
关键词 文本过滤 特征抽取 向量窄间模型 知网
下载PDF
自动构建时间基元规则库的中文时间表达式识别 被引量:16
15
作者 邬桐 周雅倩 +1 位作者 黄萱菁 吴立德 《中文信息学报》 CSCD 北大核心 2010年第4期3-10,共8页
该文提出一种基于正则文法的时间表达式识别算法:它基于"时间基元"①进行规则构建,提高了时间表达式识别的召回率;同时使用基于错误驱动思想的规则剪枝算法,削减了从训练语料带来的噪声,提高了识别的正确率,两者搭配有效提高... 该文提出一种基于正则文法的时间表达式识别算法:它基于"时间基元"①进行规则构建,提高了时间表达式识别的召回率;同时使用基于错误驱动思想的规则剪枝算法,削减了从训练语料带来的噪声,提高了识别的正确率,两者搭配有效提高了系统整体性能。在ACE07中文语料上的实验结果显著超过了现有水平,F-score达到89.9%。该文提出的算法具有很好的通用性和扩展性,加以改进将可以有更广泛的应用。 展开更多
关键词 计算机应用 中文信息处理 时间表达式识别 时间基元 Timex2 错误驱动 正则表达式
下载PDF
一种新的句子相似度度量及其在文本自动摘要中的应用 被引量:34
16
作者 张奇 黄萱菁 吴立德 《中文信息学报》 CSCD 北大核心 2005年第2期93-99,共7页
本文提出了一种新的句子相似度度量的方法并应用于文本自动摘要中。其创新处在于相似度计算不仅考虑句子中的uni gram ,还考虑了bi gram和tri gram ,通过回归方法将这几种相似度结果综合起来。实验证明这种相似度计算方法是有效的。同... 本文提出了一种新的句子相似度度量的方法并应用于文本自动摘要中。其创新处在于相似度计算不仅考虑句子中的uni gram ,还考虑了bi gram和tri gram ,通过回归方法将这几种相似度结果综合起来。实验证明这种相似度计算方法是有效的。同时本文还提出了一种新的 ,利用句子间相似度以及句子的权重的抽句式文摘算法 ,在抽取出句子的同时也去掉了冗余。DUC2 0 0 3、DUC2 0 0 4 (DocumentUnderstandingConference 2 0 0 3,2 0 0 4 )的评测结果征明了方法的有效性。我们的系统在DUC2 0 0 4的评测中列第二位。 展开更多
关键词 计算机应用 中文信息处理 文本自动摘要 向量模型 相似度计算
下载PDF
基于错误驱动算法组合分类器及其在问题分类中的应用 被引量:19
17
作者 李鑫 黄萱菁 吴立德 《计算机研究与发展》 EI CSCD 北大核心 2008年第3期535-541,共7页
开放领域问答系统(QA)能够给用户提供相对简洁、准确的结果,越来越受到人们的关注.问题分类把问题分成若干语义类型,是QA系统的一个重要的模块,它的准确性直接影响到QA系统的性能.为提高分类器性能,在问题分类任务中使用了集成学习方法... 开放领域问答系统(QA)能够给用户提供相对简洁、准确的结果,越来越受到人们的关注.问题分类把问题分成若干语义类型,是QA系统的一个重要的模块,它的准确性直接影响到QA系统的性能.为提高分类器性能,在问题分类任务中使用了集成学习方法,并且实验比较了词汇、句法、同义词集等不同的分类特征及错误驱动、投票法、BP神经网络等分类器集成方法.通过采用基于错误驱动集成分类器,用规则方法TBL作为统计方法SVM的补充;利用来自Wordnet的同义词集和名词的上位概念及Minipar的依存关系等语言知识作为分类特征,在公开测试集中取得了更高的分类精度. 展开更多
关键词 问题分类 问题回答系统 支持向量机 基于转换的错误驱动学习 依存关系
下载PDF
初始化K-means的谱方法 被引量:32
18
作者 钱线 黄萱菁 吴立德 《自动化学报》 EI CSCD 北大核心 2007年第4期342-346,共5页
众所周知,K-means(以下简称KM)对初始点十分敏感.本文提出了一种新的初始化KM的方法,它先估计出k个类的特征中心的位置,然后用估计出的特征中心来初始化KM.在人工数据集和真实数据集上的实验表明,本文的方法所得到的结果要好于其他一... 众所周知,K-means(以下简称KM)对初始点十分敏感.本文提出了一种新的初始化KM的方法,它先估计出k个类的特征中心的位置,然后用估计出的特征中心来初始化KM.在人工数据集和真实数据集上的实验表明,本文的方法所得到的结果要好于其他一些初始化KM的方法. 展开更多
关键词 聚类 K—means算法 特征中心
下载PDF
基于语义分析的作者身份识别方法研究 被引量:25
19
作者 武晓春 黄萱菁 吴立德 《中文信息学报》 CSCD 北大核心 2006年第6期61-68,共8页
作者身份识别是一项应用广泛的研究,身份识别的关键问题是从作品中提取出代表语体风格的识别特征,并根据这些风格特征,评估作品与作品之间的风格相似度。传统的身份识别方法,主要考察作者遣词造句、段落组织等各种代表文体风格的特征,... 作者身份识别是一项应用广泛的研究,身份识别的关键问题是从作品中提取出代表语体风格的识别特征,并根据这些风格特征,评估作品与作品之间的风格相似度。传统的身份识别方法,主要考察作者遣词造句、段落组织等各种代表文体风格的特征,其中基于标点符号和最常见功能词频数的分析方法受到较为普遍的认同。本文依据文体学理论,利用HowNet知识库,提出一种新的基于词汇语义分析的相似度评估方法,有效利用了功能词以外的其他词汇,达到了较好的身份识别性能。 展开更多
关键词 计算机应用 中文信息处理 身份识别 语义分析 文档相似度
下载PDF
自适应信息过滤中使用少量正例进行阈值优化(英文) 被引量:6
20
作者 夏迎炬 黄萱菁 +1 位作者 胡恬 吴立德 《软件学报》 EI CSCD 北大核心 2003年第10期1697-1705,共9页
自适应信息过滤中一个大的挑战在于其数据稀疏问题.因此,在对输入的文本流进行过滤的同时学习最优阈值非常重要.提出了一种新颖的阈值优化算法.该算法可以通过少量的正例进行快速的学习,所需数据的获得具有增量性,故而其计算量及所需的... 自适应信息过滤中一个大的挑战在于其数据稀疏问题.因此,在对输入的文本流进行过滤的同时学习最优阈值非常重要.提出了一种新颖的阈值优化算法.该算法可以通过少量的正例进行快速的学习,所需数据的获得具有增量性,故而其计算量及所需的存储空间很小.此外,该算法还具有高效、健壮、实用性强等优点.在第10届国际文本检索会议(TREC10)上,复旦大学的自适应信息过滤系统使用了该阈值优化算法,并取得了第3名的成绩.其T10U和T10F分别达到了0.215和0.414. 展开更多
关键词 自适应信息过滤 向量空间模型 阈值优化 检出率 相关反馈
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部