-
题名无监督的中文商品属性结构化方法
被引量:3
- 1
-
-
作者
侯博议
陈群
杨婧颖
李战怀
-
机构
西北工业大学计算机学院
-
出处
《软件学报》
EI
CSCD
北大核心
2017年第2期262-277,共16页
-
基金
国家重点基础研究发展计划(973)(2012CB316203)
国家自然科学基金(61332006
+2 种基金
61472321)
西北工业大学基础研究基金(3102014JSJ0013
3102014JSJ0005)~~
-
文摘
从非结构化商品描述文本中抽取结构化属性信息,对于电子商务实现商品的对比与推荐及用户需求预测等功能具有重要意义.现有结构化方法大多采用监督或半监督的分类方法抽取属性值与属性名,通过文法分析器分析属性值与属性名之间的文法依存关系,并根据关联规则实现属性值与属性名的匹配.这些方法存在以下不足:(1)需要人工标记部分属性值、属性名及它们之间的对应关系;(2)属性值-属性名匹配的准确度受到语言习惯、句意逻辑、语料库及属性名候选集质量的严重制约.提出了一种无监督的中文商品属性结构化方法.该方法借助搜索引擎,基于小概率事件原理分析文法关系来抽取属性值与属性名.同时,提出相对不选取条件概率场,并使用Page Rank算法来计算属性值与属性名的配对概率.该方法无需人工标记的开销,且无论商品描述中是否显式地包含相应的属性名,该方法都能自动抽取到属性值并匹配相应的属性名.使用百度搜索引擎上的真实语料,针对4类商品的中文描述进行了实验.实验结果验证了对于候选属性名的自动生成,所提出的基于搜索引擎搜索属性值,并在包含属性值的搜索结果中抽取一般名词的候选属性名生成方法与只在描述句中抽取一般名词的候选属性名生成方法相比,查全率提高了20%以上;对于非量化类属性,所提出的基于相对不选取条件概率场的属性值-属性名匹配方法与基于依存关联的方法相比,Rank-1的准确率提高了30%以上,平均MRR提高了0.3以上.
-
关键词
结构化
相对不选取条件概率场
PAGE
RANK
基于概率的文法分析
搜索引擎
-
Keywords
structralization
relative conditional deselect probability field
Page Rank
grammatical relation analysis based on probability
search engine
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名人工智能风险分析技术研究进展
被引量:8
- 2
-
-
作者
陈群
陈肇强
侯博议
王丽娟
罗雨晨
李战怀
-
机构
西北工业大学计算机学院
西北工业大学大数据存储与管理工业和信息化部重点实验室
-
出处
《大数据》
2020年第1期47-59,共13页
-
基金
国家重点研发计划基金资助项目(No.2018YFB1003400)
国家自然科学基金资助项目(No.61732014,No.61672432)
陕西省自然科学基础研究计划基金资助项目(No.2018JM6086).
-
文摘
目前基于深度学习模型的预测在真实场景中具有不确定性和不可解释性,给人工智能应用的落地带来了不可避免的风险。首先阐述了风险分析的必要性以及其需要具备的3个基本特征:可量化、可解释、可学习。接着,分析了风险分析的研究现状,并重点介绍了笔者最近提出的一个可量化、可解释和可学习的风险分析技术框架。最后,讨论风险分析的现有以及潜在的应用,并展望其未来的研究方向。
-
关键词
人工智能
风险分析
不确定性
可解释性
-
Keywords
artificial intelligence
risk analysis
uncertainty
interpretability
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-