期刊文献+
共找到90篇文章
< 1 2 5 >
每页显示 20 50 100
面向信息内容安全的文本过滤模型研究 被引量:18
1
作者 刘梅彦 黄改娟 《中文信息学报》 CSCD 北大核心 2017年第2期126-131,138,共7页
该文设计了一种面向信息内容安全的不良文本信息过滤模型。该模型采用主题信息过滤和倾向性过滤两级过滤模式,以语句为基本处理单元,采用依存句法获取语句的语义框架,结合基于知网的词汇褒贬倾向性判别,识别文本中的不良信息并予以过滤... 该文设计了一种面向信息内容安全的不良文本信息过滤模型。该模型采用主题信息过滤和倾向性过滤两级过滤模式,以语句为基本处理单元,采用依存句法获取语句的语义框架,结合基于知网的词汇褒贬倾向性判别,识别文本中的不良信息并予以过滤。实验表明,该模型能够较好地提高文本过滤效率和准确率。 展开更多
关键词 文本信息过滤 不良文本 语义分析 依存句法分析
下载PDF
港澳台与内地(大陆)科技术语差异分析及规范化传播应用对策研究
2
作者 张仰森 黄改娟 +1 位作者 彭爽 杜振雷 《中国科技术语》 2024年第4期3-8,共6页
改革开放以来,随着港澳台地区与内地(大陆)的交往增多,港澳台相关人士将他们的用语习惯带入内地(大陆),部分领域出现了同一个概念用不同术语表达的现象,影响到了人们的相互理解和交流,长此以往,会对内地(大陆)的语言安全造成较大影响。... 改革开放以来,随着港澳台地区与内地(大陆)的交往增多,港澳台相关人士将他们的用语习惯带入内地(大陆),部分领域出现了同一个概念用不同术语表达的现象,影响到了人们的相互理解和交流,长此以往,会对内地(大陆)的语言安全造成较大影响。文章拟从国家语言安全的角度,对近年来港澳台与内地(大陆)科技术语的差异性进行较为系统的分析,探索产生这一现象的根源,并从源头对中国科技术语传播及应用策略进行研究,提出相应的术语规范化建议。同时探索利用人工智能技术实现科技术语在内地(大陆)规范化应用的方法与路径,以保证人们交流中的相互理解,促进各领域科学技术的快速发展。 展开更多
关键词 科技术语 港澳台 国家语言安全 规范化传播 应对策略
下载PDF
融合多粒度语言知识与层级信息的中文命名实体识别模型 被引量:1
3
作者 于右任 张仰森 +1 位作者 蒋玉茹 黄改娟 《计算机应用》 CSCD 北大核心 2024年第6期1706-1712,共7页
针对当前大多数命名实体识别(NER)模型只使用字符级信息编码且缺乏对文本层次信息提取的问题,提出一种融合多粒度语言知识与层级信息的中文NER(CNER)模型(CMH)。首先,使用经过多粒度语言知识预训练的模型编码文本,使模型能够同时捕获文... 针对当前大多数命名实体识别(NER)模型只使用字符级信息编码且缺乏对文本层次信息提取的问题,提出一种融合多粒度语言知识与层级信息的中文NER(CNER)模型(CMH)。首先,使用经过多粒度语言知识预训练的模型编码文本,使模型能够同时捕获文本的细粒度和粗粒度语言信息,从而更好地表征语料;其次,使用ON-LSTM(Ordered Neurons Long Short-Term Memory network)模型提取层级信息,利用文本本身的层级结构信息增强编码间的时序关系;最后,在模型的解码端结合文本的分词信息,并将实体识别问题转化为表格填充问题,以更好地解决实体重叠问题并获得更准确的实体识别结果。同时,为解决当前模型在不同领域中的迁移能力较差的问题,提出通用实体识别的理念,通过筛选多领域的通用实体类型,构建一套提升模型在多领域中的泛化能力的通用NER数据集MDNER(Multi-Domain NER dataset)。为验证所提模型的效果,在数据集Resume、Weibo、MSRA上进行实验,与MECT(Multi-metadata Embedding based Cross-Transformer)模型相比,F1值分别提高了0.94、4.95和1.58个百分点。为了验证所提模型在多领域中的实体识别效果,在MDNER上进行实验,F1值达到了95.29%。实验结果表明,多粒度语言知识预训练、文本层级结构信息提取和高效指针解码器对模型的性能提升至关重要。 展开更多
关键词 命名实体识别 自然语言处理 知识图谱构建 高效指针 通用实体
下载PDF
基于行为信息的微博用户性格预测研究 被引量:4
4
作者 刘平 崔宗艺 +1 位作者 周炜翔 张仰森 《北京信息科技大学学报(自然科学版)》 2019年第3期32-38,共7页
在研究心理学中的'大五人格'模型的基础上,针对社交网络,提出了一种基于用户行为信息预测性格的方法。采用'大五人格量表'测试模型对用户性格进行不同维度的分析;选用微博用户的行为信息构建用户性格模型;通过对用户信... 在研究心理学中的'大五人格'模型的基础上,针对社交网络,提出了一种基于用户行为信息预测性格的方法。采用'大五人格量表'测试模型对用户性格进行不同维度的分析;选用微博用户的行为信息构建用户性格模型;通过对用户信息与用户性格之间的关系进行分析,从中提取5个相关度最强的特征维度,并基于线性回归的方法构建了用户性格预测模型。实验结果表明,构建的性格预测模型正确率达到了78. 5%。 展开更多
关键词 性格预测 线性回归 用户行为信息 大五人格
下载PDF
基于股民评论信息的股票预测方法研究 被引量:1
5
作者 张凯 任维平 +1 位作者 张仰森 尤建清 《北京信息科技大学学报(自然科学版)》 2017年第5期67-71,共5页
通过对股民评论信息进行分析实现股票价格预测。构建了一个股民评论信息语料库,利用深度学习方法双向长短期记忆网络(双向LSTM)模型对股民评论信息的情感进行分类,提出了股民评论信息的情感影响力计算方法;通过对9种不同时间窗口的数据... 通过对股民评论信息进行分析实现股票价格预测。构建了一个股民评论信息语料库,利用深度学习方法双向长短期记忆网络(双向LSTM)模型对股民评论信息的情感进行分类,提出了股民评论信息的情感影响力计算方法;通过对9种不同时间窗口的数据进行分析,并根据3种不同计算方法的结果进行股票价格走势预测。实验结果表明预测趋势与股票的实际走势拟合较高,能够为投资者在投资决策中提供帮助。 展开更多
关键词 股民评论 股民情感倾向 双向LSTM 情感影响力
下载PDF
融合语义信息与问题关键信息的多阶段注意力答案选取模型 被引量:9
6
作者 张仰森 王胜 +2 位作者 魏文杰 彭媛媛 郑佳 《计算机学报》 EI CSCD 北大核心 2021年第3期491-507,共17页
自动问答系统可以帮助人们快速从海量文本中提取出有效信息,而答案选取作为其中的关键一步,在很大程度上影响着自动问答系统的性能.针对现有答案选择模型中答案关键信息捕获不准确的问题,本文提出了一种融合语义信息与问题关键信息的多... 自动问答系统可以帮助人们快速从海量文本中提取出有效信息,而答案选取作为其中的关键一步,在很大程度上影响着自动问答系统的性能.针对现有答案选择模型中答案关键信息捕获不准确的问题,本文提出了一种融合语义信息与问题关键信息的多阶段注意力答案选取模型.该方法首先利用双向LSTM模型分别对问题和候选答案进行语义表示;然后采用问题的关键信息,包括问题类型和问题中心词,利用注意力机制对候选答案集合进行信息增强,筛选Top K个候选答案;然后采用问题的语义信息,再次利用注意力机制对Top K个候选答案集合进行信息增强,筛选出最佳答案.通过分阶段地将问题的关键信息和语义信息与候选答案的语义表示相结合,有效提高了对候选答案关键信息的捕获能力,从而提升了答案选取系统的性能.在三个数据集上对本文所提出的模型进行验证,相较已知同类最好模型,最高性能提升达1.95%. 展开更多
关键词 答案选取 语义信息 关键信息 相似度计算 多阶段注意力机制
下载PDF
基于层次分析的微博用户信息可信度模型 被引量:2
7
作者 张涛 张仰森 刘清松 《北京信息科技大学学报(自然科学版)》 2015年第4期61-65,共5页
对于网络微博用户可信任性的问题,通过对爬取的所有源语料进行有目的的预处理,得到具有规范格式的用户数据,并从用户信息数据中,选择性的提取用户信息的完整度、活跃度、交际广度、传播力度四项指标组成指标体系;然后利用设计的层次分析... 对于网络微博用户可信任性的问题,通过对爬取的所有源语料进行有目的的预处理,得到具有规范格式的用户数据,并从用户信息数据中,选择性的提取用户信息的完整度、活跃度、交际广度、传播力度四项指标组成指标体系;然后利用设计的层次分析法(AHP)结构模型,实现了对指标的权重系数数值确定,进而计算与统计用户的权威性。最终完成对用户可信度模型的构建。实验表明,该模型对微博用户的可信度评测方面有较好的准确性。 展开更多
关键词 权威性 微博 层次分析法
下载PDF
《现代汉语语法信息词典》的概率化改造及其应用
8
作者 吴林 张仰森 王璐 《北京信息科技大学学报(自然科学版)》 2011年第6期57-61,共5页
针对《现代汉语语法信息词典》不能准确描述真实语料的缺陷,设计了构建概率型语法信息词典名词库的存储结构,提出利用统计模型概率化词语属性的方法,建立完整的名词概率化语法信息词典,设计并实现了概率型语法词典应用于语法词典自纠错... 针对《现代汉语语法信息词典》不能准确描述真实语料的缺陷,设计了构建概率型语法信息词典名词库的存储结构,提出利用统计模型概率化词语属性的方法,建立完整的名词概率化语法信息词典,设计并实现了概率型语法词典应用于语法词典自纠错的算法,实验证明其具有自纠错能力。 展开更多
关键词 语法信息词典 概率化 查错 纠错
下载PDF
基于用户画像的军事信息推荐方法 被引量:4
9
作者 谢少辉 段旭磊 +3 位作者 张仰森 侯振瑜 陈琳 范国梁 《指挥信息系统与技术》 2022年第3期72-77,84,共7页
为了满足军事人员关键信息需求,以及提高用户获取信息的效率,研究了基于用户画像的军事信息推荐方法。首先,构建了以人格特征、决策风格和知识结构为主的军事用户信息需求风格;然后,分析挖掘了军事用户信息需求特征,设计了基于用户情景... 为了满足军事人员关键信息需求,以及提高用户获取信息的效率,研究了基于用户画像的军事信息推荐方法。首先,构建了以人格特征、决策风格和知识结构为主的军事用户信息需求风格;然后,分析挖掘了军事用户信息需求特征,设计了基于用户情景的推荐算法,并采用改进的Apri⁃ori关联规则挖掘算法,设计了基于规则学习的协同过滤推荐算法;最后,对上述2种算法进行了集成,生成了基于用户画像的军事信息推荐方法。试验结果表明,该方法在提高用户满意度的同时降低了平均绝对误差。 展开更多
关键词 军事信息推荐 决策风格 信息需求风格 集成学习 协同过滤
下载PDF
基于BERT的强化语境与语义信息的对话幽默识别模型
10
作者 徐洋 蒋玉茹 张禹尧 《中文信息学报》 CSCD 北大核心 2022年第4期73-80,共8页
幽默识别是自然语言处理的新兴研究领域之一。对话的特殊结构使得在对话中的幽默识别相较于短文本幽默识别更具有挑战性。在对话中,除了当前话语以外,上下文语境信息对于幽默的识别也至关重要。因此,该文在已有研究的基础上结合对话的... 幽默识别是自然语言处理的新兴研究领域之一。对话的特殊结构使得在对话中的幽默识别相较于短文本幽默识别更具有挑战性。在对话中,除了当前话语以外,上下文语境信息对于幽默的识别也至关重要。因此,该文在已有研究的基础上结合对话的结构特征,提出基于BERT的强化语境与语义信息的对话幽默识别模型。模型首先使用BERT对发言人信息和话语信息进行编码,其次分别使用句级别的BiLSTM、CNN和Attention机制强化语境信息,使用词级别的BiLSTM和Attention机制强化语义信息。实验结果表明,该文方法能有效提升机器识别对话中幽默的能力。 展开更多
关键词 幽默识别 对话结构 BERT
下载PDF
面向财务审计的数据异常侦测算法研究
11
作者 张学凯 张仰森 +2 位作者 刘帅康 朱思文 孙圆明 《重庆理工大学学报(自然科学)》 CAS 北大核心 2024年第7期158-165,共8页
为更好地推进审计数字化,实现财务审计的数据异常侦测任务,设计了采用独立研究的改进注意力机制CMA(channel mixed attention mechanism)的CMA-Resnet18模型,提出一种基于数图转换思想的财务审计侦测数据集构建方法。使用CMA网络对样本... 为更好地推进审计数字化,实现财务审计的数据异常侦测任务,设计了采用独立研究的改进注意力机制CMA(channel mixed attention mechanism)的CMA-Resnet18模型,提出一种基于数图转换思想的财务审计侦测数据集构建方法。使用CMA网络对样本各通道进行全局加权,对样本不同通道进行融合特征加权,实现对样本数据的全局“注意力”数据增强。通过Resnet18模型(residual network18)提取样本数据的局部特征。结果表明,在财务审计异常侦测数据集上,经典分类网络的评估结果都高于90%,验证了数据集构建方法的有效性;CMA-Resnet18模型的F1值为94.31%,相比Resnet18提高了1.49%,证明了CMA-Resnet18模型能够更好的实现侦测任务;通过经典分类网络及其CMA变种网络在Cifar10公开数据集上进行实验,表明CMA变种网络的准确率普遍高于其原始网络,证明CMA模块的有效性和泛化性。 展开更多
关键词 审计数字化 数图转换 数据集构建 改进注意力机制 残差网络
下载PDF
中文文本语义错误侦测方法研究 被引量:20
12
作者 张仰森 郑佳 《计算机学报》 EI CSCD 北大核心 2017年第4期911-924,共14页
中文文本语义错误侦测一直以来都是中文文本自动查错的难点.该文针对中文文本语义错误,提出了一种基于语义搭配知识库和证据理论的语义错误侦测模型.讨论了三层语义搭配知识库的构建以及基于该知识库和证据理论的语义错误侦测算法.三层... 中文文本语义错误侦测一直以来都是中文文本自动查错的难点.该文针对中文文本语义错误,提出了一种基于语义搭配知识库和证据理论的语义错误侦测模型.讨论了三层语义搭配知识库的构建以及基于该知识库和证据理论的语义错误侦测算法.三层语义搭配知识库的构建主要分为两步:(1)根据《现代汉语实词搭配词典》中的实词搭配框架构建词语搭配规则集,从训练语料中抽取词语搭配,并利用互信息和共现频次进行筛选,构建词语搭配知识库;(2)利用《HowNet》抽取词语的义原信息,生成词语-义原和义原-义原搭配知识库,并利用聚合度进行二次筛选.在三层语义搭配知识库的基础上,首先对知识库采用自顶向下的搜索模式确定可能错误的语义搭配,然后使用语义搭配的互信息量MI和聚合度PD作为证据,采用统计的方法建立证据信任分配函数,结合证据的冲突处理和加权分配D-S规则进行不确定性推理,获取词语的语义搭配关联强度,以判定是否存在语义错误.实验结果显示,该文所提出的查错模型和算法的F-Score值比其他文献中的最好值提高了14.02%. 展开更多
关键词 语义错误 知识库 D-S理论 语义搭配 错误侦测算法 自然语言处理 社会媒体
下载PDF
社交媒体话题检测与追踪技术研究综述 被引量:18
13
作者 张仰森 段宇翔 +1 位作者 黄改娟 蒋玉茹 《中文信息学报》 CSCD 北大核心 2019年第7期1-10,30,共11页
随着计算机的普及与互联网的高速发展,Facebook、Twitter、新浪微博等社交媒体逐渐成为人们信息交流的主要渠道。然而,由于社交媒体信息具有数量庞大、结构复杂、传播速度快等特点,人们无法从中快速准确地获取想要的信息。于是,话题检... 随着计算机的普及与互联网的高速发展,Facebook、Twitter、新浪微博等社交媒体逐渐成为人们信息交流的主要渠道。然而,由于社交媒体信息具有数量庞大、结构复杂、传播速度快等特点,人们无法从中快速准确地获取想要的信息。于是,话题检测与追踪技术应运而生,它将用户关注的信息从大量无序信息中筛选出来,经过细致的过滤和有效的整合,生成简单、清晰的话题信息,并在此基础上实现对话题的追踪和发展趋势分析。该文对社交媒体上的话题检测与追踪工作进行综述,首先论述了话题检测方面的三类方法,包括基于主题模型的话题检测、基于改进聚类算法的话题检测和基于多特征融合的话题检测;其次,对话题追踪的研究成果进行了介绍,主要分为非自适应话题追踪和自适应话题追踪两大类;最后,列举出社交媒体话题的检测与追踪中存在的问题以及对未来研究的展望。 展开更多
关键词 话题检测 话题追踪 聚类 主题模型
下载PDF
智能化立体仓库入库货位分配的综合优化算法 被引量:13
14
作者 张仰森 刘安宇 《计算机科学》 CSCD 北大核心 2010年第12期175-177,189,共4页
智能化立体仓库对现代企业提高仓储利用率和生产效率具有重要作用。介绍了秦皇岛港务集团公司立体仓库管理系统中仓库货位计算机分配的智能化算法,该算法充分考虑了重量均匀分布、就近货位选择、备件品种均匀分布、备件使用率、货位空... 智能化立体仓库对现代企业提高仓储利用率和生产效率具有重要作用。介绍了秦皇岛港务集团公司立体仓库管理系统中仓库货位计算机分配的智能化算法,该算法充分考虑了重量均匀分布、就近货位选择、备件品种均匀分布、备件使用率、货位空置时间等因素,根据整个仓库的当前状态计算入库货位,为入库货位的选择提供辅助决策。实际项目运行表明,所提的综合货位优化分配算法是有效的,对提高仓库的安全性、入库工作效率等具有非常重要的意义。 展开更多
关键词 立体仓库 货位分配算法 重量均匀分布 备件品种均匀分布 就近原则
下载PDF
面向政治新闻领域的中文文本校对方法研究 被引量:12
15
作者 张仰森 唐安杰 张泽伟 《中文信息学报》 CSCD 北大核心 2014年第6期79-84,128,共7页
政治新闻领域内文本错误多为语义级错误。在研究新闻领域文本政治性差错的语言表述特征的基础上,分析了报刊新闻中政治性差错的表现类型,构建了面向各类错误侦测的词库和知识库。通过研究政治新闻文本的语言学特征,提出了一个政治性差... 政治新闻领域内文本错误多为语义级错误。在研究新闻领域文本政治性差错的语言表述特征的基础上,分析了报刊新闻中政治性差错的表现类型,构建了面向各类错误侦测的词库和知识库。通过研究政治新闻文本的语言学特征,提出了一个政治性差错文本错误侦测规则的一般形式化模型,采用统计与规则相结合的策略实现政治新闻领域文本的语义校对。实验结果显示,该方法的召回率为65.5%,精确率为80.5%,具有较好的应用前景。 展开更多
关键词 政治新闻 文本校对 查错模型
下载PDF
基于深度学习的实体关系联合抽取研究综述 被引量:7
16
作者 张仰森 刘帅康 +2 位作者 刘洋 任乐 辛永辉 《电子学报》 EI CAS CSCD 北大核心 2023年第4期1093-1116,共24页
实体关系抽取是信息抽取领域的核心任务.从文本中抽取的实体关系三元组是构建大规模知识图谱的基础.传统的流水线方法将实体关系抽取分解为独立的命名实体识别和关系抽取两个子任务.首先,构建一个高效的命名实体识别器,从大规模非结构... 实体关系抽取是信息抽取领域的核心任务.从文本中抽取的实体关系三元组是构建大规模知识图谱的基础.传统的流水线方法将实体关系抽取分解为独立的命名实体识别和关系抽取两个子任务.首先,构建一个高效的命名实体识别器,从大规模非结构化文本语句中识别实体边界和类型.然后,将该命名实体识别器识别的实体与类型作为关系抽取任务中所用数据的标注.最后,通过关系抽取器得到两个实体之间的关系类别,进而组合成为结构化的实体关系三元组.命名实体识别任务存在的误差会影响后续的关系抽取任务的性能,这使得流水线方法具有错误累积问题.这是因为关系抽取任务中使用的标注数据来自于前面的命名实体识别任务,这会有一定的误差,进而影响关系抽取的结果质量.此外,流水线方法减弱了两个子任务之间的特征关联,这会出现冗余实体的问题.命名实体识别任务和关系抽取任务独立进行学习训练,导致这两个子任务间缺乏交互,使得文本信息没有得到充分利用,限制了流水线方法的性能瓶颈.由于非结构化文本信息没有得到充分利用,流水线方法在抽取实体间长依赖关系时具有一定局限性,很难达到联合抽取模型的性能指标.实际应用中,实体间往往存在多种关系,流水线方法无法充分使用全局文本信息,且命名实体识别会产生冗余实体,在抽取多元重叠关系时,该方法具有一定的局限性.因此,在构建高准确率实体关系抽取模型时,流水线方法具有欠缺之处.本文对实体关系联合抽取的研究发展全景进行了综述,简要阐明整数线性规划、卡片金字塔解析模型、概率图模型和结构化预测模型这四类基于特征工程的联合模型的共同缺点.本文聚焦基于深度学习的实体关系联合抽取技术,根据近年来实体关系联合抽取前沿研究成果,总结了实体关系联合抽取模型的主流构建方法.按照建模思想的特点总结为三种建模方法:多模块-多步骤、多模块-单步骤以及单模块-单步骤.多模块-多步骤建模方法主要包含实体域映射关系域、关系域映射实体域和头实体域映射关系-尾实体域这三种类别.这三类模型的共同特点都是将三元组的提取过程分为多个模块,通过共享参数的方式整合各个模块,逐步迭代得到三元组.这种方法推动联合模型性能提升,初步解决了流水线方法存在的问题.但每个步骤使用独立的解码算法,导致解码误差累积问题.且共享参数整合各个模块的冗余误差会互相影响预测性能,从而产生级联冗余问题.多模块-单步骤建模方法旨在构建一个最优化的联合解码算法,并对其求取最优解进而得到最优超参数.这种方法设计了简单精确的联合解码算法,并加强了多个子模块间的交互性,减弱了因为逐步迭代导致的解码误差和级联冗余对联合模型性能的影响.然而,模块的分离依然会产生冗余错误,具有一定局限性.单模块-单步骤建模方法可以直接从文本语句中抽取三元组,有效缓解了多模块-多步骤和多模块-单步骤建模方法的级联错误和实体冗余等问题.本文以前沿文献中具有代表性的联合模型为例,详细分析了这些模型的建模思路,剖析了各个模型的优缺点,将多个具有共同建模思路的经典模型进行归类,以阐述实体关系联合抽取模型的发展趋势.本文将单模块-单步骤建模方法的代表模型在公开基准数据集上的模型性能与多模块-多步骤和多模块-单步骤的代表模型性能进行对比分析,阐明实体关系联合抽取模型的建模思路正在从基于多模块-多步骤和多模块-单步骤的复杂建模方法,逐渐向单模块-单步骤的高效建模方法转变的客观趋势.最后,本文对三个实体关系联合抽取的研究方向进行了展望.当下主流的联合模型聚焦于限定域的实体关系抽取任务,对于开放域问题研究得不够.开放域实体关系联合抽取任务是未来的研究人员亟待解决的问题之一.在实际工业应用中,文本语料包含多元信息,如时序信息.而当前的实体关系联合抽取模型大多依据单一文本上下文信息进行特征抽取,从而忽略了时序信息.若融入像时序信息这样的多元信息或能进一步提升联合模型性能,这是未来一项具有重大意义的课题.此外,对于跨文本的实体关系联合抽取模型研究较少,这也是该领域未来的一个研究趋势.本文旨在建立一个完整的基于深度学习的实体关系联合抽取领域研究视图,以对相关领域研究者有所帮助. 展开更多
关键词 信息抽取 知识图谱 深度学习 实体关系联合抽取 流水线方法
下载PDF
基于语义分析的不良倾向文本的识别算法研究 被引量:2
17
作者 刘梅彦 张仰森 张涛 《北京信息科技大学学报(自然科学版)》 2014年第4期16-20,共5页
分析了目前常用的不良倾向文本识别方法存在的困难和不足,设计了一种基于语义分析的不良倾向文本识别算法。该算法以语句为基本处理单元,采用依存句法获得句子的语义结构,结合How Net词汇褒贬倾向性判别,识别不良信息。实验结果表明,此... 分析了目前常用的不良倾向文本识别方法存在的困难和不足,设计了一种基于语义分析的不良倾向文本识别算法。该算法以语句为基本处理单元,采用依存句法获得句子的语义结构,结合How Net词汇褒贬倾向性判别,识别不良信息。实验结果表明,此算法能够较好地提高不良文本识别效率和准确率。 展开更多
关键词 不良倾向文本 语义分析 依存句法分析
下载PDF
新闻专题阶段性摘要的生成研究
18
作者 尤建清 张仰森 《计算机应用研究》 CSCD 北大核心 2016年第4期973-978,996,共7页
新闻专题的阶段性摘要对了解专题的动态演化、勾勒专题的发展轮廓等都能提供较高的参考价值,一定程度上弥补了专题内容太多而不便阅读的缺憾。以"马航MH370航班失联"专题为研究对象,探讨了新闻专题阶段性摘要的生成算法。首... 新闻专题的阶段性摘要对了解专题的动态演化、勾勒专题的发展轮廓等都能提供较高的参考价值,一定程度上弥补了专题内容太多而不便阅读的缺憾。以"马航MH370航班失联"专题为研究对象,探讨了新闻专题阶段性摘要的生成算法。首先利用主题抽取技术对各新闻文档进行主题抽取,完成文档集到主题集的转换;然后借助话题检测与追踪技术对主题集进行基于时间流的双向聚类和正逆向结果交集的再聚类;最终根据话题聚类的结果选择对应文档的主题生成新闻专题的阶段性摘要。实验证明,该方法能够取得较好的Rouge召回率。 展开更多
关键词 新闻专题 话题检测与追踪 二次聚类 阶段性摘要
下载PDF
汉语零形回指消解研究综述
19
作者 蒋玉茹 张禹尧 +1 位作者 毛腾 张仰森 《中文信息学报》 CSCD 北大核心 2020年第3期1-12,共12页
关于零形回指的研究一直是语言学研究中的一个热点,零形回指消解是自然语言处理中一项十分重要的任务。20多年来,学者们基于语言学规则、机器学习、深度学习等方面,提出了各种研究方法,并取得了大量研究成果。该文首先介绍零形回指的相... 关于零形回指的研究一直是语言学研究中的一个热点,零形回指消解是自然语言处理中一项十分重要的任务。20多年来,学者们基于语言学规则、机器学习、深度学习等方面,提出了各种研究方法,并取得了大量研究成果。该文首先介绍零形回指的相关概念;接着介绍目前国际上汉语零形回指消解的公开评测资源OntoNotes 5.0数据集及评价指标;其次,系统梳理和对比了国内外汉语零形回指消解所采用的方法;最后,总结和分析了目前零形回指消解研究的主要制约因素,这些因素也正是未来可能的研究方向。 展开更多
关键词 零形回指消解 语言学规则 机器学习 深度学习
下载PDF
基于多特征融合的同名专家消歧方法研究 被引量:8
20
作者 曾健荣 张仰森 +3 位作者 王思远 黄改娟 崔佳 马欢 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2020年第4期607-613,共7页
针对专家库构建过程中出现的同名歧义现象,提出一种基于多特征融合的同名专家消歧方法。从中国知网(CNKI)数据源中获取专家的论文信息,抽取论文的标题、摘要、关键词、作者单位和合作者等关键信息,并将其作为属性特征,构建特征表示模型... 针对专家库构建过程中出现的同名歧义现象,提出一种基于多特征融合的同名专家消歧方法。从中国知网(CNKI)数据源中获取专家的论文信息,抽取论文的标题、摘要、关键词、作者单位和合作者等关键信息,并将其作为属性特征,构建特征表示模型,进而定义同名专家之间的相似度计算函数。根据计算得到的相似度,将同名消歧问题转化为聚类问题。利用近邻传播聚类算法进行聚类,解决同名消歧问题。在采集的专家论文数据上的实验表明,基于多特征融合的同名专家消歧方法的准确率可达92%,取得良好的消歧效果。 展开更多
关键词 多特征融合 同名消歧 专家库 聚类算法 数据采集
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部