-
题名基于语义的互联网药品信息抽取算法
被引量:7
- 1
-
-
作者
沈元一
郑骁庆
顾轶灵
-
机构
复旦大学软件学院
-
出处
《计算机系统应用》
2011年第1期41-47,共7页
-
基金
国家科技支撑项目(2006BAH02A05-06)
国家自然科学基金(60903078
60973025)
-
文摘
针对现有互联网信息抽取技术存在准确率不高、覆盖率低、人工干预多等诸多缺陷,提出了一种新的互联网药品信息抽取算法,通过引入语义技术构建三维语义词典,屏蔽不同药品信息网页在内容和结构上的异构性,同时利用所需抽取的目标药品属性信息具有一定聚集度的特征,基于信息熵的理论设计出对目标信息智能定位和抽取的方法。实验证明该算法既能降低人工干预,又具备较高的准确率和召回率。应用该算法能实时自动全面准确地获取互联网药品信息,为政府药监部门提供丰富的监管依据,对规范医药电子商务市场,保证人们的用药安全具有重要的现实意义。
-
关键词
WEB信息抽取
语义词典
DOM
信息熵
XPATH
医药电子商务
-
Keywords
Web information extraction
semantic dictionary
DOM
information entropy
XPath
medical E-business
-
分类号
TP393.09
[自动化与计算机技术—计算机应用技术]
-
-
题名基于结构语义熵的网上商品信息提取系统
被引量:2
- 2
-
-
作者
吴晓彦
郑骁庆
顾轶灵
沈元一
-
机构
复旦大学软件学院
-
出处
《计算机应用与软件》
CSCD
2010年第9期49-52,84,共5页
-
基金
国家科技支撑计划项目(2006bah02a05-06)
-
文摘
目前网上销售已成为一种重要的商品销售途径,其中商品网页信息提取是商品发布信息监测、商品比价等应用的技术基础。传统的网页信息提取系统在提取这些商品信息时存在人工干预过多和提取数据的针对性不强的问题。针对商品销售网站数据的具体表现形式,提出了一种基于结构语义熵的商品信息提取算法。该算法结合了商品的语义特征和网页的结构表现形式,可以实现全自动的网页商品提取。并通过实验证明了算法的有效性,和其在网上商品销售领域的普适性。
-
关键词
网页信息提取
结构语义熵
信息聚集度分析
-
Keywords
Web information extraction Structured-semantic entropy Information aggregation analysis
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-