多载体数据流中的特定信息识别研究(英文) 被引量：1

Research of Specific Information Recognition in Multi-Carrier Data Streams

下载PDF

导出

摘要提出了一种识别多载体数据流中包含的特定信息的新方法.该方法按照特征词及其拼音匹配规则,基于统计自然语言理论,通过自动的归纳学习,将从语料库中获得的词性间的转移值作为系统知识,利用有效的知识逼近策略判断真实数据流中的特征词与其上下文的关系,并得到特征词在真实文本中的评测值,以此来考查真实数据流中出现的全部特征词与在语料中所学到的特征词下下文搭配规则上的相似程度.如果整个数据流的评测值超过阈值,该数据流将被屏蔽.实验结果表明,根据该方法开发的识别及监控多载体数据流中不良信息的实验系统取得很好的效果. A method is presented to identify some pieces of specific information in multi-carrier data streams by feature words and based on Pin Yin matching. An effective knowledge approximation method is used to judge the relation between feature words and context by statistics theory. The part of speech transfer-value as system knowledge can be obtained by inductive learning of training corpus. When data streams are evaluated, the evaluation value can be gained according to the system knowledge by matching all feature words and based on their Pin Yin, which examines the comparability with context regular of part of speech between all feature words in data streams and themselves in training corpus. Further more, if the evaluation value exceeds the threshold, the data streams will be shielded. Experimental results show that the effect of the experiment system based on this method is efficient for identifying ill information and monitoring and controlling their spreading by multi-carrier data streams.

作者郑德权胡熠于浩赵铁军王青松

机构地区哈尔滨工业大学计算机科学与技术学院

出处《软件学报》 EI CSCD 北大核心 2003年第9期1538-1543,共6页 Journal of Software

基金国家高技术研究发展计划(863)~~

关键词信息识别知识逼近词性转移归纳学习 Calculations Evaluation Information retrieval Knowledge engineering Statistics Telecommunication networks Text processing Word processing

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献1

1牛伟霞,张永奎.潜在语义索引方法在信息过滤中的应用[J].计算机工程与应用,2001,37(9):57-60. 被引量：16

二级参考文献4

1Xu Jinxi，ACM Transactions on information systems，2000年，18卷，1期，79页
2吴立德，大规模中文文本处理，1997年
3Zha Hongyuan，SIAM J Sci Statist Comput，21卷，2期，782--791页
4卢增祥,public.bta.net.cn,关宏超,李衍达.利用Bookmark服务进行网络信息过滤[J].软件学报,2000,11(4):545-550. 被引量：14

共引文献15

1刘春艳,张爱连,胡铁军.数据挖掘及其在信息服务业应用的研究现状[J].医学情报工作,2004,25(6):401-404. 被引量：7
2杨桂芝.PCCS聚类信息过滤模型[J].福建电脑,2007,23(3):140-141.
3孙海霞,成颖.潜在语义标引(LSI)研究综述[J].现代图书情报技术,2007(9):49-53. 被引量：6
4刘海峰,王元元,姚泽清,王倩.一种基于特征聚类的文本分类模型研究[J].情报学报,2008,27(2):224-228. 被引量：2
5刘海峰,王元元,姚泽清.一种基于类别分布信息的中文文本分类模型[J].图书情报工作,2008,52(1):73-76. 被引量：1
6周洲,侯开虎,姚洪发,张慧.基于TF-IDF及LSI模型的主观题自动评分系统研究[J].软件,2019,40(2):158-163. 被引量：4
7于汝意,刘秀磊,刘旭红,张良,王延飞.泛娱乐情报主题的感知研究[J].北京信息科技大学学报（自然科学版）,2020,35(2):58-61. 被引量：2
8李应霆,叶传奇,李玉进,尚嘉琳,肖洋洋,闫凯.基于Java的网络信息过滤插件的研究[J].电脑知识与技术,2021,17(29):62-63.
9王闰强,胡铁军.中文文本自动分类研究进展[J].医学情报工作,2002,23(6):342-345. 被引量：7
10夏歆钰,张弛.利用大容量硬盘进行局域网光盘数据库检索[J].医学情报工作,2002,23(6):346-347. 被引量：2

同被引文献5

1陈基漓,牛秦洲.基于特征码的网页去重[J].微计算机信息,2006,22(03X):113-115. 被引量：11
2[4]J.Zhou,P.Larson,J.C.Freytag,W.Lehner.Efficient Exploitation of Similar Subexpressions for Query Processing.ACM SIGMOD,2007:533-544.
3[6]Junghoo Cho.N.Shivakumar et al.Finding replicated web collections.In Proceedings of 2000 ACM International Conference on Management of Data(SIGMOD),May 2000.
4[7]Shaozhi Ye,Ji-RongWen,Wei-Ying Ma.A systematic study on parameter correlations in large-scale duplicate document detection.Knowledge and Information Systems,2007,14:217-232.
5吴平博,陈群秀,马亮.基于特征串的大规模中文网页快速去重算法研究[J].中文信息学报,2003,17(2):28-35. 被引量：41

引证文献1

1谢蕙,秦杰.基于元搜索的网页消重方法研究[J].计算机系统应用,2008,17(8):94-96. 被引量：5

二级引证文献5

1周小平,黄家裕,刘连芳,梁一平,申文明.基于网页正文主题和摘要的网页去重算法[J].广西科学院学报,2009,25(4):251-253. 被引量：5
2李志义,梁士金.国内网页去重技术研究:现状与总结[J].图书情报工作,2011,55(7):118-121. 被引量：9
3李欢,刘倩,张英.基于元搜索的信息检索模块的研究和实现[J].计算机系统应用,2011,20(5):167-169.
4张玉连,王莎莎,宋桂江.基于元搜索的网页去重算法[J].燕山大学学报,2011,35(2):121-123. 被引量：2
5周杨.基于关键长句及正文长度预分类的网页去重算法研究[J].软件导刊,2012,11(10):48-50. 被引量：2

1于凤,郑德权.面向信息安全的不良短消息识别[J].计算机工程与应用,2003,39(36):161-162. 被引量：1
2付东来,陈够喜,杨秋翔.非完备多载体隐写算法研究[J].小型微型计算机系统,2012,33(2):388-391. 被引量：1
3江涛.Dijkstra算法的特征和应用研究[J].毕节学院学报（综合版）,2009,27(8):91-94.
4卫刚,叶晨洲.数据发掘在服装设计中的应用[J].微型电脑应用,2000,16(3):31-33.
5陈够喜,陈俊杰.多载体信息隐藏安全性研究[J].小型微型计算机系统,2011,32(4):644-646. 被引量：4
6袁亚琴,马巧梅,陈够喜,杨秋翔.基于多载体的二值图像信息隐藏算法[J].计算机工程与设计,2014,35(4):1202-1206. 被引量：6
7母伟佳.虚幻的“真实”——基于多载体投影的艺术表现形式[J].艺术科技,2015,28(8):62-63 82. 被引量：3
8高峰,李人厚.基于多ANN的复杂函数学习策略[J].西安交通大学学报,1996,30(10):16-21.
9郑霞.汉语词性标注特征模板设定定量分析[J].安阳师范学院学报,2013(5):53-56.
10昝红英,左维松,张坤丽,吴云芳.规则和统计相结合的情感分析研究[J].计算机工程与科学,2011,33(5):146-150. 被引量：4

软件学报

2003年第9期

浏览历史

内容加载中请稍等...