期刊文献+

Internet中文个人信息搜索 被引量:7

Chinese Personal Information Searching in Internet
下载PDF
导出
摘要 本文构造了一个用于自动生成Internet个人信息索引的实验系统PersonIndexer。在CERNET两个网址上进行的初步实验表明,PersonIndexer对中文姓名、拼音人名、中文机构名的召回率和精确率平均分别为97.8%和61.9%、100%和64.5%、94.5%和92.1%,对电子邮件地址和电话传真号码的召回率和精确率均为100%。鉴于Internet上的信息检索以及自然语言处理这两个领域都互向对方提出了要求,我们相信,面向大规模真实文本的汉语分析技术与Internet的结合。 PersonIndexer, a prototype system for automatically generating Chinese personal information index in Internet, is proposed in this paper. Preliminary experimental results on all HTML texts under two CERNET web sites indicate that, the average recall and precision for extraction of Chinese names, Chinese names in Pinyin form as well as Chinese organization names are 97.8% & 61.9%, 100% & 64.5%,94.5% & 92.1% respectively, and the recall and precision for extracting email addresses, telephone and fax numbers are about 100%. We believe that, the integration of large-scale-running-text-oriented Chinese NLP techniques with information retrieval techniques in Internet, will become a hot research topic of Chinese information processing in the near future.
出处 《中文信息学报》 CSCD 北大核心 1999年第2期24-32,共9页 Journal of Chinese Information Processing
基金 清华大学国家重点实验室开放基金
关键词 中文姓名辨识 个人信息搜索 INTERNET 信息处理 automatic index generator Chinese name identification personal information searching Internet
  • 相关文献

参考文献14

  • 1沈达阳,林作铨.Internet上的软件Agent[J].计算机科学,1997,24(4):14-19. 被引量:17
  • 2陈智健.Internet/Intranet上信息查询的研究与实现,汕头大学硕士论文[M].,1998..
  • 3孙茂权 张维杰.英语姓名译名的自动辨识.计算机语言学研究与应用[M].北京语言学院出版社,1993..
  • 4沈达阳 孙茂松.中国地名的自动辨识.计算语言学研究与进展[M].清华大学出版社,1995..
  • 5沈达阳,孙茂松,黄昌宁.汉语分词系统中的信息集成和最佳路径搜索方法[J].中文信息学报,1997,11(2):34-47. 被引量:13
  • 6孙茂松,计算语言学研究与应用,1993年
  • 7Shen Dayang,Proc AP Web’98,1998年
  • 8陈智健,硕士学位论文,1998年
  • 9Sun Maosong,Proc 5th ANLP,1997年
  • 10Shen Dayang,Proc Workshop DAIMAS-97,1997年

二级参考文献12

  • 1宋柔,计算语言学研究与应用,1993年
  • 2孙茂松,计算语言学研究与应用,1993年
  • 3郑家恒,计算语言学研究与应用,1993年
  • 4张俊盛,中文信息学报,1992年,6卷,3期
  • 5团体著者,姓氏人名用字分析统计,1990年
  • 6沈达阳,硕士学位论文,1996年
  • 7孙茂松,Proc of the 3rd International Conference on Chinese Information Processing,1992年
  • 8何克抗,中文信息学报,1991年,2期
  • 9沈达阳,基于统计的分词模型
  • 10沈达阳,局部统计在汉语未登录词辨识中应用及其实现方法

共引文献110

同被引文献24

引证文献7

二级引证文献92

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部