期刊文献+
共找到32篇文章
< 1 2 >
每页显示 20 50 100
对等网络中搜索策略的研究 被引量:14
1
作者 李晓戈 杨寿保 《计算机科学》 CSCD 北大核心 2003年第9期94-96,共3页
1引言 对等计算(peer-to-peer,P2P)可简单地定义为通过直接交换共享计算机资源和服务,对等计算机兼有客户机和服务器的功能.虽然P2P这个术语是现在才发明的,但P2P本身的基本技术的存在时间却至少存在30年了.
关键词 对等网络 搜索策略 数据检索 通信效率 互联网
下载PDF
对等网络DoS攻击的防御机制 被引量:4
2
作者 李晓戈 杨寿保 《计算机工程》 CAS CSCD 北大核心 2004年第2期66-67,106,共3页
由于对等网络的松散性,基于洪泛式请求的拒绝服务(DoS)攻击已经成为其主要威胁之一。文章首先介绍和分析了DoS问题在对等网络下的特点和带来的一些新问题,并提出了以带宽占用状态分析为主要依据,DoS特征分析为辅的自适应防御的机制,并... 由于对等网络的松散性,基于洪泛式请求的拒绝服务(DoS)攻击已经成为其主要威胁之一。文章首先介绍和分析了DoS问题在对等网络下的特点和带来的一些新问题,并提出了以带宽占用状态分析为主要依据,DoS特征分析为辅的自适应防御的机制,并提出一些具体处理方法,以探索可行的防御模型。 展开更多
关键词 对等网络 DOS DDOS 洪泛式请求
下载PDF
基于互信息改进算法的新词发现对中文分词系统改进 被引量:46
3
作者 杜丽萍 李晓戈 +2 位作者 于根 刘春丽 刘睿 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2016年第1期35-40,共6页
提出一种非监督的新词识别方法。该方法利用互信息(PMI)的改进算法——PMIk算法与少量基本规则相结合,从大规模语料中自动识别2~n元网络新词(n为发现的新词最大长度,可以根据需要指定)。基于257MB的百度贴吧语料实验,当PMIk方法的... 提出一种非监督的新词识别方法。该方法利用互信息(PMI)的改进算法——PMIk算法与少量基本规则相结合,从大规模语料中自动识别2~n元网络新词(n为发现的新词最大长度,可以根据需要指定)。基于257MB的百度贴吧语料实验,当PMIk方法的参数为10时,结果精度达到97.39%,比PMI方法提高28.79%,实验结果表明,该新词发现方法能够有效地从大规模网络语料中发现新词。将新词发现结果编纂成用户词典,加载到汉语词法分析系统ICTCLAS中,基于10 KB的百度贴吧语料实验,比加载用户词典前的分词结果准确率、召回率和F值分别提高7.93%,3.73%和5.91%。实验表明,通过进行新词发现能有效改善分词系统对网络文本的处理效果。 展开更多
关键词 新词识别 未登录词 互信息 PMI改进算法 中文分词
下载PDF
互信息改进方法在术语抽取中的应用 被引量:19
4
作者 杜丽萍 李晓戈 +1 位作者 周元哲 邵春昌 《计算机应用》 CSCD 北大核心 2015年第4期996-1000,1005,共6页
为了确定改进互信息(PMIk)方法的参数k取何值时能够克服互信息(PMI)方法过高估计两个低频且总是一起出现的字串间结合强度的缺点,解决术语抽取系统采用经过分词的语料库时由于分词错误导致的某些术语无法抽取的问题,以及改善术语抽取系... 为了确定改进互信息(PMIk)方法的参数k取何值时能够克服互信息(PMI)方法过高估计两个低频且总是一起出现的字串间结合强度的缺点,解决术语抽取系统采用经过分词的语料库时由于分词错误导致的某些术语无法抽取的问题,以及改善术语抽取系统的可移植性,提出了一种结合PMIk和两个基本过滤规则从未经过分词的语料库中进行术语抽取的算法。首先,利用PMIk方法计算两个字之间的结合强度,确定2元待扩展种子;其次,利用PMIk方法计算2元待扩展种子分别和其左边、右边的字的结合强度,确定2元是否能扩展为3元,如此迭代扩展出多元的候选术语;最后,利用两个基本过滤规则过滤候选术语中的垃圾串,得到最终结果。理论分析表明,当k≥3(k∈N+)时,PMIk方法能克服PMI方法的缺点。在1 GB的新浪财经博客语料库和300 MB百度贴吧语料库上的实验验证了理论分析的正确性,且PMIk方法获得了比PMI方法更高的精度,算法有良好的可移植性。 展开更多
关键词 术语抽取 专业术语 知识获取 互信息
下载PDF
基于布谷鸟算法优化BP神经网络模型的股价预测 被引量:30
5
作者 孙晨 李阳 +1 位作者 李晓戈 于娇艳 《计算机应用与软件》 CSCD 2016年第2期276-279,共4页
针对当前智能算法对股票市场预测精度不高的问题,提出使用布谷鸟算法优化神经网络(CS-BP)的方法,对股票市场进行预测。并与粒子群算法优化神经网络模型(PSO-BP)和遗传算法优化神经网络模型(GA-BP)的测试结果进行比较。通过对SZ300091(... 针对当前智能算法对股票市场预测精度不高的问题,提出使用布谷鸟算法优化神经网络(CS-BP)的方法,对股票市场进行预测。并与粒子群算法优化神经网络模型(PSO-BP)和遗传算法优化神经网络模型(GA-BP)的测试结果进行比较。通过对SZ300091(金通灵)日线的收盘价数据回测分析看出,布谷鸟算法优化神经网络模型明显优于这两种算法,能有效对股票市场进行预测,对于30天的预测精度约为98.633%。 展开更多
关键词 布谷鸟算法 神经网络 股票 预测
下载PDF
基于表示学习的中文分词 被引量:5
6
作者 刘春丽 李晓戈 +2 位作者 刘睿 范贤 杜丽萍 《计算机应用》 CSCD 北大核心 2016年第10期2794-2798,共5页
为提高中文分词的准确率和未登录词(OOV)识别率,提出了一种基于字表示学习方法的中文分词系统。首先使用Skip-gram模型将文本中的词映射为高维向量空间中的向量;其次用K-means聚类算法将词向量聚类,并将聚类结果作为条件随机场(CRF)模... 为提高中文分词的准确率和未登录词(OOV)识别率,提出了一种基于字表示学习方法的中文分词系统。首先使用Skip-gram模型将文本中的词映射为高维向量空间中的向量;其次用K-means聚类算法将词向量聚类,并将聚类结果作为条件随机场(CRF)模型的特征进行训练;最后基于该语言模型进行分词和未登录词识别。对词向量的维数、聚类数及不同聚类算法对分词的影响进行了分析。基于第四届自然语言处理与中文计算会议(NLPCC2015)提供的微博评测语料进行测试,实验结果表明,在未利用外部知识的条件下,分词的F值和OOV识别率分别达到95.67%和94.78%,证明了将字的聚类特征加入到条件随机场模型中能有效提高中文短文本的分词性能。 展开更多
关键词 表示学习 词向量 聚类 条件随机场 中文分词
下载PDF
基于层次聚类的跨文本中文人名消歧研究 被引量:8
7
作者 张菲菲 李宗海 +1 位作者 周晓辉 李晓戈 《计算机工程与应用》 CSCD 2014年第6期106-111,共6页
人名消歧已经成为自然语言处理和信息抽取应用中亟待解决的重要问题。运用中文自然语言处理和信息抽取系统识别命名实体和实体关系,生成实体信息对象(Entity Profile),采用实体信息对象(EP)中的个人信息特征,实体关系和上下文相关信息在... 人名消歧已经成为自然语言处理和信息抽取应用中亟待解决的重要问题。运用中文自然语言处理和信息抽取系统识别命名实体和实体关系,生成实体信息对象(Entity Profile),采用实体信息对象(EP)中的个人信息特征,实体关系和上下文相关信息在Hadoop平台上基于凝聚的层次聚类方法解决了实体消歧问题。采用哈尔滨工业大学整理的全网新闻语料作为人名消歧训练和测试数据,着重研究了中文人名消歧特征的选取,参数的确定和验证,在训练集和测试集上分别取得了91.33%和88.73%的F值。说明提出的方法具有较好的可行性。 展开更多
关键词 人名消歧 信息抽取 相似度 层次聚类
下载PDF
中国山水画的线条解析
8
作者 李晓戈 《天工》 2024年第32期82-84,共3页
中华文化悠久绵长,山水画作为其中独特的艺术形式,犹如传统文化宝库中的一颗璀璨明珠。在山水画创作中,线条的运用极为关键。通过对线条的精心把握,能够精确描绘自然山水的形态,创造出逼真的艺术空间。这些线条不仅是画面构建的基础,更... 中华文化悠久绵长,山水画作为其中独特的艺术形式,犹如传统文化宝库中的一颗璀璨明珠。在山水画创作中,线条的运用极为关键。通过对线条的精心把握,能够精确描绘自然山水的形态,创造出逼真的艺术空间。这些线条不仅是画面构建的基础,更是承载着中华民族深厚文化底蕴的符号。艺术家通过线条的轻重缓急以及干湿浓淡的微妙变化,不仅能勾勒出山水的轮廓和质感,还能传达自己对自然景象的深刻感悟。旨在探讨中国山水画及线条的历史演变,深入剖析线条在山水画中的作用,并通过具体的应用实例,展示如何通过线条艺术体现中华传统文化的精髓与价值。 展开更多
关键词 线条艺术 中国山水画 艺术魅力 审美价值 哲学思想
下载PDF
基于信息抽取技术的问答系统 被引量:8
9
作者 于根 李晓戈 +2 位作者 刘睿 范贤 杜丽萍 《计算机工程与设计》 北大核心 2017年第4期1051-1055,共5页
通过分析实体关系和命名实体,提出基于层次的答案提取方法。在将问题分为实体关系型、实体型和关键词型3类的基础上,按照实体关系层、实体层、关键词层得到答案集,利用基础特征、命名实体匹配和实体关系匹配进行特征排序提取答案。基于N... 通过分析实体关系和命名实体,提出基于层次的答案提取方法。在将问题分为实体关系型、实体型和关键词型3类的基础上,按照实体关系层、实体层、关键词层得到答案集,利用基础特征、命名实体匹配和实体关系匹配进行特征排序提取答案。基于NLPCCEVAL2015的测试结果表明,在考虑命名实体和实体关系的情况下,准确率比仅使用基础特征的情形提高了6.1%,达到54.05%。 展开更多
关键词 问答系统 信息抽取 实体关系 命名实体 层次法
下载PDF
基于知识图谱驱动的图神经网络推荐模型 被引量:12
10
作者 刘欢 李晓戈 +2 位作者 胡立坤 胡飞雄 王鹏华 《计算机应用》 CSCD 北大核心 2021年第7期1865-1870,共6页
知识图谱(KG)蕴含丰富的结构与关联信息,不仅可以缓解推荐系统中数据稀疏、冷启动等问题,还可以更准确地进行个性化推荐,因此提出一种基于知识图谱驱动的端到端图神经网络推荐模型KGLN。首先使用单层神经网络框架对图中单个节点进行特... 知识图谱(KG)蕴含丰富的结构与关联信息,不仅可以缓解推荐系统中数据稀疏、冷启动等问题,还可以更准确地进行个性化推荐,因此提出一种基于知识图谱驱动的端到端图神经网络推荐模型KGLN。首先使用单层神经网络框架对图中单个节点进行特征融合,并加入影响因子来改变不同邻居实体的聚合权重;然后通过迭代的方式将单层扩展到多层,使实体可以获得丰富的多阶关联实体信息;最后结合实体特征与用户特征产生预测评分进行推荐。分析并研究了不同聚合方法及影响因子对推荐效果的影响。实验结果表明,在数据集MovieLens-1M以及BookCrossing上与基准方法因子分解库(LibFM)、深度分解机(DeepFM)、Wide&Deep、RippleNet的对比中,KGLN的曲线下面积(AUC)分别提升了0.3%~5.9%和1.1%~8.2%。 展开更多
关键词 推荐系统 知识图谱 图神经网络 网络特征学习 个性化推荐 兴趣挖掘
下载PDF
基于多注意力长短时记忆的实体属性情感分析 被引量:9
11
作者 支淑婷 李晓戈 +1 位作者 王京博 王鹏华 《计算机应用》 CSCD 北大核心 2019年第1期160-167,共8页
属性情感分析是细粒度的情感分类任务。针对传统神经网络模型无法准确构建属性情感特征的问题,提出了一种融合多注意力和属性上下文的长短时记忆(LSTM-MATT-AC)神经网络模型。在双向长短时记忆(LSTM)的不同位置加入不同类型的注意力机制... 属性情感分析是细粒度的情感分类任务。针对传统神经网络模型无法准确构建属性情感特征的问题,提出了一种融合多注意力和属性上下文的长短时记忆(LSTM-MATT-AC)神经网络模型。在双向长短时记忆(LSTM)的不同位置加入不同类型的注意力机制,充分利用多注意力机制的优势,让模型能够从不同的角度关注句子中特定属性的情感信息,弥补了单一注意力机制的不足;同时,融合双向LSTM独立编码的属性上下文语义信息,获取更深层次的情感特征,有效识别特定属性的情感极性;最后在Sem Eval2014 Task4和Twitter数据集上进行实验,验证了不同注意力机制和独立上下文处理方式对属性情感分析模型的有效性。实验结果表明,模型在Restaurant、Laptop和Twitter领域数据集上的准确率分别达到了80. 6%、75. 1%和71. 1%,较之前基于神经网络的情感分析模型在准确率上有了进一步的提高。 展开更多
关键词 属性情感分析 多注意力机制 上下文语义特征 神经网络 自然语言处理
下载PDF
双滤膜法测氡中湿度影响的校正 被引量:5
12
作者 韩国胜 李晓戈 王庆恒 《辐射防护通讯》 1999年第6期26-28,共3页
当相对湿度小于20%时,湿度变化对双滤膜法测氡的影响较大。本文根据氡子体的中和作用机理,导出了湿度和RaA扩散系数的函数关系,进而得到双滤膜法测氡的湿度校正。校正后结果的相对误差不大于3%。
关键词 双滤膜法 湿度 扩散系数 氡浓度测量 空气 校正
下载PDF
图神经网络在招投标文件分类中的应用 被引量:2
13
作者 强成宇 李晓戈 +2 位作者 马鲜艳 李涛 田俊鹏 《小型微型计算机系统》 CSCD 北大核心 2023年第2期275-280,共6页
全国政府机关、事业单位的采购网站每天都会发布数万条招投标信息,如何快速有效的分类这些数据,成为挖掘其相应价值的关键.本文针对网络上招投标文件缺乏标注、文本语义稀疏、数据来源多样、信息结构复杂等问题,提出了一种基于图卷积神... 全国政府机关、事业单位的采购网站每天都会发布数万条招投标信息,如何快速有效的分类这些数据,成为挖掘其相应价值的关键.本文针对网络上招投标文件缺乏标注、文本语义稀疏、数据来源多样、信息结构复杂等问题,提出了一种基于图卷积神经网络的半监督分类方法(BD-GCN).该方法首先将爬取的招投标文件进行结构化清洗,并利用信息抽取技术构建为特殊的知识图谱模型,再融合外部文本信息,最后采用图卷积神经网络实现招投标文件的半监督分类.本文利用在网络上爬取的36123条招投标文件进行实验,并与当前流行的分类方法进行对比.实验结果表明,BD-GCN能有效提高分类的准确率. 展开更多
关键词 文本分类 知识图谱 多源异构图 图卷积神经网络
下载PDF
多属性推荐算法在企业研发服务系统中的应用 被引量:2
14
作者 田俊鹏 李晓戈 马鲜艳 《小型微型计算机系统》 CSCD 北大核心 2023年第1期8-13,共6页
为满足企业的技术服务及研发需求,各地陆续建设线上供需服务平台.线上技术供需匹配难的主要原因在于文本相似度计算的准确性以及多元数据对于成交结果的影响.为解决上述问题,本文提出一种融合多属性的供需推荐模型,针对“陕西省中小企... 为满足企业的技术服务及研发需求,各地陆续建设线上供需服务平台.线上技术供需匹配难的主要原因在于文本相似度计算的准确性以及多元数据对于成交结果的影响.为解决上述问题,本文提出一种融合多属性的供需推荐模型,针对“陕西省中小企业研发服务平台”数据进行供需推荐,其中包括论文、专利、成果、项目等多属性特征,采用基于Bert(Bidirectional Encoder Representation from Transformers)的句向量表示方法计算供需文本的相似得分,并结合熵值法确定各属性权重,对各属性数据得分加权变换后实现推荐.实验表明,所提出的相似度计算模型在真实数据集上,各项评价指标优于词向量的表示方法.结合权值矩阵的多属性推荐模型,可较好的实现企业科技研发的供需推荐. 展开更多
关键词 供需推荐 短文本相似度 多属性融合 Bert
下载PDF
基于网页图像分类的自动化网页正文抽取模型 被引量:1
15
作者 秦龙 李晓戈 +1 位作者 穆诤辉 李涛 《计算机工程与设计》 北大核心 2023年第2期386-392,共7页
运用卷积神经网络技术提出一种基于网页图像分类的自动化网页正文抽取模型(I-AWCE)。通过分析现有网页类型及网页正文在网页中的位置和结构特点,将网页分为文章网页和列表网页。根据网页截屏图像在卷积神经网络模型中的分类结果,分别提... 运用卷积神经网络技术提出一种基于网页图像分类的自动化网页正文抽取模型(I-AWCE)。通过分析现有网页类型及网页正文在网页中的位置和结构特点,将网页分为文章网页和列表网页。根据网页截屏图像在卷积神经网络模型中的分类结果,分别提出两种基于多特征融合的网页正文提取方法。实验结果表明,网页图像数据集在LeNet-5和预训练模型的效果最好;与Boilerpipe抽取模型相比,基于图像分类的自动化网页正文抽取模型具有较高的准确性,可以满足网页正文自动化抽取的实际需要。 展开更多
关键词 图像分类 网页正文抽取 卷积神经网络 残差网络 预训练模型 标准差 文本长度
下载PDF
基于日志多特征融合的无监督异常检测算法 被引量:1
16
作者 程思强 李晓戈 李显亮 《小型微型计算机系统》 CSCD 北大核心 2023年第12期2727-2733,共7页
日志是一种记录系统运行过程中重要信息的文本文件,而有效的日志异常检测可以帮助运维人员快速定位并解决问题,保证系统的快速恢复,从而减少经济损失.系统日志内容通常包含着丰富的系统信息(时间,序列,参数等),本文提出了一种基于预训... 日志是一种记录系统运行过程中重要信息的文本文件,而有效的日志异常检测可以帮助运维人员快速定位并解决问题,保证系统的快速恢复,从而减少经济损失.系统日志内容通常包含着丰富的系统信息(时间,序列,参数等),本文提出了一种基于预训练的日志多特征融合的异常检测方法Log Multi-Feature Fusion(LMFF).首先,基于预训练模型对日志的事件模板进行语义信息提取,将系统日志建模为自然语言序列;然后,利用特征提取器分别对日志的事件序列,计数序列和时间序列进行特征提取融合,通过Tranformer和LSTM神经网络学习正常日志的特征信息.最后,对日志进行分析,并能够检测出潜在模式偏离正常日志序列的异常.通过在Hadoop日志文件系统(HDFS)数据的F1值达到约96%和在OpenStack数据的F1值达到约99%的结果表明,本文所提的异常检测方法与其它的日志异常检测算法Deeplog、LogAnomaly和基于主成分分析(PCA)的方法相比有较好的表现. 展开更多
关键词 日志分析 日志序列 深度学习 日志异常检测
下载PDF
掺Pb的Bi-Sr-Ca-Cu-O超导体及非晶体的Raman光谱
17
作者 刘奕 钟丽云 +6 位作者 蔡继业 汤洪高 陈梅玲 邹成就 李晓戈 孙玉平 杜家驹 《发光学报》 EI CAS CSCD 北大核心 1991年第2期127-133,共7页
本文研究了Bi_2Sr_2CaCu_2O_8单晶(Tc=85K)、Bi_(2-x)Pb_xSr_2Ca_2Cu_3O_y单相(Tc=107K)和Bi(Pb)-Sr-Ca-Cu-O非晶体室温下20-720cm^(-1)的Raman光谱.通过谱图的比较,我们认为456—466、631—650cm^(-1)是高Tc氧化物的特征谱,它们与Cu-O... 本文研究了Bi_2Sr_2CaCu_2O_8单晶(Tc=85K)、Bi_(2-x)Pb_xSr_2Ca_2Cu_3O_y单相(Tc=107K)和Bi(Pb)-Sr-Ca-Cu-O非晶体室温下20-720cm^(-1)的Raman光谱.通过谱图的比较,我们认为456—466、631—650cm^(-1)是高Tc氧化物的特征谱,它们与Cu-O链及Cu-O面上的强电子—声子耦合有关;掺Pb导致Bi(Pb)-O双层之间氧的分布改变,增强了Bi(Pb)-O双层之间的耦合,从而有助于提高超导转变温度Tc. 展开更多
关键词 掺Pb 氧化物 超导体 RAMAN光谱
下载PDF
面向信息抽取的指代消解探究 被引量:1
18
作者 许永良 周晓辉 李晓戈 《西安文理学院学报(自然科学版)》 2015年第2期65-69,共5页
指代消解是自然语言处理中的重点难点,对信息抽取具有重要意义.指代分有三种形式:代词指代,名词指代及零形回指.其中代词指代和名词指代是汉语中最基础的指代形式,以上两种指代的消解是指代消解研究的基础.为解决这一基本问题,使用决策... 指代消解是自然语言处理中的重点难点,对信息抽取具有重要意义.指代分有三种形式:代词指代,名词指代及零形回指.其中代词指代和名词指代是汉语中最基础的指代形式,以上两种指代的消解是指代消解研究的基础.为解决这一基本问题,使用决策树方法同时对两种形式指代进行处理.实验结果显示,所提出方法在不牺牲指代消解准确率的基础上,较大提高了指代消解的召回率. 展开更多
关键词 信息抽取 指代消解 命名实体 决策树 有限状态机
下载PDF
信息抽取中地点归一化研究 被引量:1
19
作者 孙雪闵 李晓戈 周晓辉 《软件导刊》 2015年第7期26-29,共4页
汉语中地名歧义现象非常普遍。我国每个县级城市基本上都有一个镇名叫城关镇。在信息抽取、融合、知识图谱构建中,首先要解决地名歧义问题。运用最大生成树算法,提出了一种地点归一化的混合模式解决方法,其基本步骤为:基于CRF的地点命... 汉语中地名歧义现象非常普遍。我国每个县级城市基本上都有一个镇名叫城关镇。在信息抽取、融合、知识图谱构建中,首先要解决地名歧义问题。运用最大生成树算法,提出了一种地点归一化的混合模式解决方法,其基本步骤为:基于CRF的地点命名实体识别;用最大生成树的图搜索算法进行地名消岐,如无法消岐,则通过半自动抽取计算缺省地名。对《人民日报》2013下半年相关数据进行测试显示,正确率为93.7%。 展开更多
关键词 信息抽取 地点归一化 最大生成树 命名实体 歧义
下载PDF
大数据、云计算与用户行为经验分析 被引量:2
20
作者 陈硕 李晓戈 《信息记录材料》 2018年第7期118-120,共3页
大数据与云计算是目前计算机信息技术领域内的两大研究热点,同时也是目前互联网应用的重要发展方向。本文就针对大数据与云计算在用户行为分析方面所面临的机遇与挑战,并进一步探讨了机遇大数据和云计算背景下的用户行为,主要包括了信... 大数据与云计算是目前计算机信息技术领域内的两大研究热点,同时也是目前互联网应用的重要发展方向。本文就针对大数据与云计算在用户行为分析方面所面临的机遇与挑战,并进一步探讨了机遇大数据和云计算背景下的用户行为,主要包括了信息组织规范、信息资源整合、分布式数据挖掘等三方面的内容。 展开更多
关键词 大数据 云计算 用户行为分析
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部