基于词频统计的蛋白质交互关系识别被引量：3

Protein-protein Interaction Identification Based on Word Frequency Count

下载PDF

导出

摘要目前,基于远监督的蛋白质交互关系抽取方法通过将知识库中的实体对与文本中的实体进行匹配来产生大规模的训练数据,有效地解决了标注数据不足的问题。在基于最大期望算法的蛋白质交互识别的基础上,提出了一种基于词频统计的蛋白质交互关系识别。该方法对每一个蛋白质对签名档进行处理,取出两个目标蛋白质中间的单词;然后对其进行词性标注,只保留名词和动词,同时进行词干提取;最终得到每个蛋白质对签名档下的词频统计。利用得到的词频信息设定阈值来获取签名档的高频词,改进最大期望算法的初始化过程。实验结果表明,通过加入高频词信息的干预来进一步获取句子的类别作为初始值较原始的基于最大期望算法的模型,取得了更高且均衡的精确度和召回率,对目前基于远监督的蛋白质交互关系识别方法进行了明显的改进。 Current protein-protein interaction(PPI)extraction approach based on distant supervision gathers large scales of training data by aligning entity pairs in knowledge base with entities in text,which solves the problem of lack of annotation data effectively.In this paper,based on the protein interaction recognition using the expectation maximization algorithm,we propose a novel method of word frequency count,which processes the signature of each protein pair and obtains the unigram words between two target proteins.Then,the data which is obtained by the first step should be processed with POS tagging and stem extraction,only the nouns and verbs saved.Finally,we can obtain the word frequency statistics for signatures of protein pairs.High frequency words are produced by setting the threshold for the word frequency statistics,which can be used to improve the initialization step of the expectation maximization algorithm.The experiment shows that the high and well balanced precision and recall are achieved by further integrating the high-frequency word information to obtain the sentence category as the initial model based on the maximum expectation algorithm,which shows significant improvement in comparison to current PPI based on distant supervision.

作者蔡松成牛耘 CAI Song-cheng;NIU Yun(School of Computer Science and Technology,Nanjing University of Aeronautics and Astronautics,Nanjing 211106,China)

机构地区南京航空航天大学计算机科学与技术学院

出处《计算机技术与发展》 2019年第2期65-68,72,共5页 Computer Technology and Development

基金国家自然科学基金(61202132)

关键词远监督蛋白质交互最大期望算法词频统计 distant supervision protein-protein interaction expectation maximization algorithm word frequency count

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1杨志豪,洪莉,林鸿飞,李彦鹏.基于支持向量机的生物医学文献蛋白质关系抽取[J].智能系统学报,2008,3(4):361-369. 被引量：20
2刘念,马长林,张勇,王梦.基于树核的蛋白质相互作用关系提取的研究[J].华中科技大学学报（自然科学版）,2013,41(S2):232-236. 被引量：5
3唐楠,杨志豪,林鸿飞,李彦鹏.基于多核学习的医学文献蛋白质关系抽取[J].计算机工程,2011,37(10):184-186. 被引量：13
4王宇伟,牛耘.基于关系相似性的蛋白质交互作用识别[J].计算机技术与发展,2015,25(2):42-46. 被引量：3

二级参考文献35

1饶文碧,柯慧燕.Web文本分类技术研究及其实现[J].计算机技术与发展,2006,16(3):116-118. 被引量：5
2王煜,白石,王正欧.用于Web文本分类的快速KNN算法[J].情报学报,2007,26(1):60-64. 被引量：33
3[1]PUSTEJOVSKY J,CASTANO,ZHANG J.Robust relational parsing over biomedical literature:extracting inhibit relations[C]// Proceedings of the Seventh Pacific Symposium on Bio-Computing.[S.l.],2002:362-373.
4[2]LEROY G,CHEN H,MARTINEZ J D.A shallow parser based on closed-class words to capture relations in biomedical text[J].Journal of Biomedical Informatics,2003,36(3):145-158.
5[3]PARK J C,KIM H S,KIM J J.Bidirectional incremental parsing for automatic pathway identification with combinatory categorical grammar[C]// Proceedings of the Pacific Symposium on Bio-Computing.Hawaii,USA,2001:396-407.
6[4]TEMKIN J M,GILDER M R.Extraction of protein interaction information from unstructured text using a context-free grammar[J].Bioinformatics,2003,19:2046-2053.
7[5]AHMED S T,CHINDAMBARAM D,DAVULCU H,et al.IntEx:a syntactic role driven protein-protein interaction extractor for bio-medical text[C]// Proceeding of the ACL-ISMB Workshop on Linking Biological Literature,Ontologies and Databases:Mining Biological Semantics.Detroit,Michigan,USA,2005:54-61.
8[6]ONO T,HISHIGAKI H,TANIGAMIi A,et al.Automatic extraction of information on protein-protein interactions from the biological literature[J].Bioinformatics,2001,17 (2):155-161.
9[7]HUANG M L,ZHU X Y,HAO Y,et al.Discovering patterns to extract protein-protein interactions from full texts[J].Bioinformatics,2004,20 (18):3604-3612.
10[8]DAVID C,BEMARD B,WILLIAM L,et al.BioRAT:extracting biological information from full-length papers[J].Bioinformatics,2004,20(17):3206-3213.

共引文献26

1谭建奇,廖贤平,黄孝庭,陈振洲.SVM在临床医学中的应用[J].海南医学,2009,20(9):134-137. 被引量：2
2张克菊,韩毅.关系抽取技术的发展与应用——以生物信息学为例[J].情报科学,2010,28(1):102-106. 被引量：1
3吴明智,崔雷.生物医学实体关系抽取的研究[J].中华医学图书情报杂志,2010,19(5):5-10. 被引量：5
4王秀艳,崔雷.应用关键动词抽取生物医学实体间语义关系研究综述[J].现代图书情报技术,2011(9):21-27. 被引量：1
5封二英,牛耘,魏欧.基于大规模文本的蛋白质交互关系自动提取[J].计算机应用,2012,32(A01):147-150. 被引量：6
6封二英,牛耘,魏欧,蔡昕烨.基于关系相似性的蛋白质交互自动识别[J].计算机科学,2013,40(6):229-232. 被引量：4
7王艳华,杨志豪,李彦鹏,唐利娟,林鸿飞.基于监督学习和半监督学习的蛋白质关系抽取[J].江西师范大学学报（自然科学版）,2013,37(4):392-396. 被引量：1
8王宇伟,牛耘.基于关系相似性的蛋白质交互作用识别[J].计算机技术与发展,2015,25(2):42-46. 被引量：3
9王宇伟,牛耘,魏欧.基于相似性混合模型的蛋白质交互识别[J].计算机工程,2015,41(7):25-30. 被引量：2
10吴红梅,牛耘.基于特征加权的蛋白质交互识别[J].计算机技术与发展,2016,26(2):114-117. 被引量：3

同被引文献9

1刘为怀,才华,何东杰.一种基于中文分词和数据聚合的餐饮行为特征挖掘方法[J].软件产业与工程,2015,0(4):47-51. 被引量：10
2曹建玲,彭晨,谢超杰,任智.基于消息侦听的高效快速发布/订阅路由算法[J].华中科技大学学报（自然科学版）,2016,44(8):99-105. 被引量：2
3李聪颖,王瑞刚,于金良.大数据分布式全文检索系统的设计与实现[J].计算机与数字工程,2016,44(12):2426-2430. 被引量：10
4张欣,马瑞敏.基于改进PageRank算法的核心专利发现研究[J].图书情报工作,2018,62(10):106-115. 被引量：25
5李岳梦.搜索引擎浅谈[J].电信网技术,2018,0(4):76-81. 被引量：2
6叶雪梅,毛雪岷,夏锦春,王波.文本分类TF-IDF算法的改进研究[J].计算机工程与应用,2019,55(2):104-109. 被引量：108
7马旭,王淑丽.基于Flask框架的展示型网站的设计与实现[J].数字技术与应用,2018,36(11):137-138. 被引量：10
8陈善雄,彭茂玲,钱仁飞,单欲立,郑方园.数字PCR仪成像系统的自动对焦算法研究[J].重庆大学学报（自然科学版）,2019,42(9):34-43. 被引量：4
9曹军博,叶霞,许飞翔,尹列东.改进的CBOW情感信息获取研究[J].计算机工程与应用,2020,56(9):142-147. 被引量：6

引证文献3

1佘广夫,曾涛,唐咏雪.工艺质量在线统计分析软件的设计与开发[J].四川冶金,2000,22(2):60-62.
2张贤亮,张尤赛.基于TF-IDF算法的分层搜索引擎设计[J].计算机与数字工程,2021,49(3):456-461. 被引量：5
3刘伟,杨尚伟,林晨炜,万昀烨,陈善雄.一种基于主题分类与语义相似度的专利推荐算法[J].无线互联科技,2021,18(21):105-107.

二级引证文献5

1刘伟,钟艳,宾强,肖宇辉,伍嘉晖.智能课程思政教学素材管理系统的设计与研发[J].电脑知识与技术,2021,17(31):82-84. 被引量：1
2杨雄,张晓惠,刘畅.供应链产品信息搜索系统中基于同态加密的隐私保护研究[J].网络安全技术与应用,2022(3):32-33. 被引量：2
3魏元潇,宋琨,钟绮桐.基于社会化聆听的服装品牌资产度量方法[J].丝绸,2022,59(9):62-70. 被引量：2
4朱艳芳,赵蕾,王琪.针对Lucene搜索引擎的算法研究[J].软件,2023,44(5):161-164. 被引量：1
5刘国柱,张津烽,王华东.改进TF-IDF算法在电商仿真实训平台中的应用[J].计算机仿真,2023,40(7):273-277. 被引量：1

1薛朋强,鲜英,努尔布力,吾守尔.斯拉木.面向维吾尔文的敏感信息过滤方法研究[J].计算机工程与应用,2018,54(5):236-241. 被引量：6
2签名档[J].新城乡,2018,0(9):80-80.
3签名档[J].新城乡,2018,0(11):80-80.
4签名档[J].新城乡,2018,0(10):80-80.
5冯雨轩,王圣玥,杨丹丹,郭仁春,赵立杰,邢杰.物联网智能浇灌控制系统[J].计算机科学与应用,2017,7(4):329-335.
6陶志勇,刘晓芳,王和章.融合密度峰值的高斯混合模型聚类算法[J].计算机应用,2018,38(12):3433-3437. 被引量：11
7古丽娜孜.艾力木江,乎西旦.居马洪,孙铁利,梁义.一种基于SV-NN的哈萨克语文本分类方法[J].东北师大学报（自然科学版）,2018,50(2):58-65. 被引量：2
8古丽娜孜.艾力木江,乎西旦.居马洪,孙铁利,梁义.基于支持向量的最近邻文本分类方法[J].智能系统学报,2018,13(5):799-807. 被引量：3
9菊之雅(推荐者).诙谐签名档[J].故事会,2018,0(21):16-16.
10周继红(推荐).签名档[J].故事会,2018,0(24):16-16.

计算机技术与发展

2019年第2期

浏览历史

内容加载中请稍等...

基于词频统计的蛋白质交互关系识别被引量：3

参考文献4

二级参考文献35

共引文献26

同被引文献9

引证文献3

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于词频统计的蛋白质交互关系识别 被引量：3

参考文献4

二级参考文献35

共引文献26

同被引文献9

引证文献3

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于词频统计的蛋白质交互关系识别被引量：3