-
题名基于双语URL匹配模式可信度的平行网页识别研究
被引量:3
- 1
-
-
作者
章成志
马舒天
揭春雨
姚旭晨
-
机构
南京理工大学信息管理系
香港城市大学翻译及语言学系
百度在线网络技术(北京)有限公司
-
出处
《中文信息学报》
CSCD
北大核心
2018年第3期91-100,共10页
-
基金
香港城市大学SRG-Fd项目(7008003)
香港研资局GRF项目(CityU 144410
+1 种基金
11600415)
国家自然科学基金(70903032)
-
文摘
平行语料是自然语言处理中一项重要的基础资源,在双语平行网页中大量存在。该文首先介绍双语URL匹配模式的可信度计算方法,然后提出基于局部可信度的双语平行网页识别算法,再依据匹配模式的全局可信度,提出两种优化方法:即利用全局可信度,救回因低于局部可信度阈值而被初始算法滤掉的匹配模式;通过全局可信度和网页检测方法,挖出深层网页。进一步,结合网站双语可信度、链接关系,侦测出种子网站周边更多较具可信度的双语网站。除了双语URL匹配模式自动识别,还利用搜索引擎,依据少数高可信度的匹配模式快速识别双语网页。为了提高以上五种方法识别候选双语网页对的准确率,计算了候选双语网页对的双语相似度,并设置阈值过滤非双语网页对。通过实验验证了所提方法的有效性。
-
关键词
平行网页获取
平行语料库
双语URL匹配模式
双语文本挖掘
-
Keywords
parallel webpage mining
parallel corpora
bilingual URL pairing pattern
bilingual text mining
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名学术文本被引片段的自动识别研究
被引量:7
- 2
-
-
作者
章成志
徐津
马舒天
-
机构
南京理工大学经济管理学院信息管理系
-
出处
《情报理论与实践》
CSSCI
北大核心
2019年第9期139-145,共7页
-
基金
国家社会科学基金重大项目“情报学学科建设与情报工作未来发展路径研究”(项目编号:17ZDA291)
江苏省研究生科研创新计划项目“学术文献引文域自动识别研究”(项目编号:KYCX18_0365)的成果
-
文摘
[目的/意义]目前学术文献被引片段识别研究存在两个问题:对于给定的一个引文上下文,其所对应的被引片段句子数量并没有明确的定义;构建特征中很少考虑句子中词语的语义相似度特征。文章基于以上两个角度,对已有的实验方案进行改进,旨在提高被引片段的识别效果。[方法/过程]首先,按照不同的粒度对被引文献进行句子切分,以考察不同粒度切分下被引片段的识别效果,从而确定被引片段的最佳句子数量。随后,在被引片段识别模型中加入词语语义相似度特征,即通过词嵌入进行分布式词向量表示,并依据词汇语义网络本体,度量不同句子中词语间的语义相似度。[结果/结论]实验结果表明,随着句子切分粒度的逐渐增加,被引片段识别效果呈下降趋势;另外,所增加的词语语义相似度特征能够有效地在句子间建立细粒度的语义关联,提高了模型的稳定性,从而提升了被引片段的识别效果。[局限]仅从特征构建的角度对被引片段的识别工作进行优化,提升效果较为有限。模型选择方面,仍局限于使用传统的机器学习算法,未考虑现有的深度学习算法对本工作进行改进。
-
关键词
学术文献
被引片段
引文分析
文本分类
语义相似度
-
Keywords
academic article
cited spans
citation analysis
text classification
semantic similarity
-
分类号
G354.1
[文化科学—情报学]
-