-
题名基于机器学习的网页文本抽取技术
被引量:1
- 1
-
-
作者
程娟
-
机构
江汉大学文理学院图书馆
-
出处
《图书馆学研究》
CSSCI
2008年第5期21-22,共2页
-
文摘
本文主要研究了从不同类型的html页面中根据需要抽取指定文本的技术。首先分析了目前主流的文本抽取技术的优点及缺点,并针对传统文本抽取技术的不足提出了基于机器学习的网页文本抽取技术;然后重点分析了此技术的实现原理,并在最后以案例方式介绍了使用java语言构建基于此技术的文本抽取系统。
-
关键词
文本抽取
文本密度
机器学习
神经网络java
-
Keywords
text extraction text density machine learning neural networks java
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名两种学习算法在算术关系抽取中的应用比较
- 2
-
-
作者
苏林忠
-
机构
华南理工大学信息化办公室
-
出处
《电脑知识与技术》
2010年第7期5302-5304,共3页
-
文摘
加减文字题是小学数学的一个重点和难点问题,长期以来,人们对加减文字题的研究局限于教育学和心理学领域,该文从文本分类以及信息检索的角度出发,将加减文字题中的算术关系看成是一个分类问题,尝试用机器学习的方法来对其进行分类,分别研究了人工神经网络(ANN)和支持向量机(SVM)在加减文字题算术关系抽取中的应用,并对两种算法的试验结果进行了比较和分析。通过分词,关键词选取,构造特征向量,分别运用两种算法对其进行分类。对试验结果进行评测发现,在一定条件下SVM算法明显优于ANN算法。
-
关键词
加减文字题
人工神经网络
支持向量机
关系抽取
文本分类
中文信息处理
-
Keywords
are selected
and formed into feature vector. Two machine learning methods
Support Vector machines (SVM) and Artificial neural Network (ANN)
are compared when they are used in the relation extraction respectively. The empirical result indicates that SVM is more effective than ANN in our experiments. Key words: add and subtraction word problems
ANN
SVM
relation extraction
text categorization
Chinese information processing
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
-