期刊文献+
共找到104篇文章
< 1 2 6 >
每页显示 20 50 100
利用基于重复序列PCR的标记和A-PAGE鉴定小麦背景中的黑麦染色体片段 被引量:2
1
作者 何道文 彭正松 伍碧华 《西南大学学报(自然科学版)》 CAS CSCD 北大核心 2007年第5期66-69,共4页
利用基于重复序列PCR的标记和酸性丙烯酰胺凝胶电泳(A-PAGE)对小麦品种中国春与秦岭黑麦杂交后代(BC2F4)共75份材料进行了筛选,鉴定含有黑麦成分的株系.根据黑麦特异重复序列pSc20H设计特异引物,用PCR方法从75个株系中筛选出30份含有黑... 利用基于重复序列PCR的标记和酸性丙烯酰胺凝胶电泳(A-PAGE)对小麦品种中国春与秦岭黑麦杂交后代(BC2F4)共75份材料进行了筛选,鉴定含有黑麦成分的株系.根据黑麦特异重复序列pSc20H设计特异引物,用PCR方法从75个株系中筛选出30份含有黑麦成分的材料.从这30份材料中,用A-PAGE的方法鉴定出10个株系为1RS/1BL易位系.实验结果表明,用基于PCR的标记能快速准确地对小麦背景中外源染色质的鉴定.结合其它方法还能进行小片段移位的鉴定. 展开更多
关键词 小麦 黑麦染色体片段 重复序列PCR 酸性丙烯酰胺凝胶电泳
下载PDF
基于分块的网页信息解析器的研究与设计 被引量:55
2
作者 于满泉 陈铁睿 许洪波 《计算机应用》 CSCD 北大核心 2005年第4期974-976,共3页
详细介绍了网页信息解析的基本技术手段,在综合权衡优缺点的基础上,提出了针对新 闻网站复杂结构页面较为有效的分块算法,并结合实际的项目需求,设计实现了网页信息解析器 TVPS,实验结果表明,该解析器具有良好的性能,满足实际的需求。
关键词 WEB挖掘 HTML标记 视觉特征 网页分块
下载PDF
基于结构与内容的网页主题信息提取研究 被引量:15
3
作者 吴鹏飞 孟祥增 +1 位作者 刘俊晓 马凤娟 《山东大学学报(理学版)》 CAS CSCD 北大核心 2006年第3期41-44,共4页
结合HTML网页内部特征与外部的结构布局,提出采用映射表这种网页映射模式对网页视图进行变换,基于结构与启发式规则对网页进行区域分割与识别,并利用向量空间模型对网页内容分析,从而准确得到具有高语义内聚性的网页主题内容.实验结果表... 结合HTML网页内部特征与外部的结构布局,提出采用映射表这种网页映射模式对网页视图进行变换,基于结构与启发式规则对网页进行区域分割与识别,并利用向量空间模型对网页内容分析,从而准确得到具有高语义内聚性的网页主题内容.实验结果表明,此方法对各种复杂结构的网页主题信息提取较为理想. 展开更多
关键词 映射表 启发式规则 HTML 区域分割 向量空间模型
下载PDF
主题爬行中的隧道穿越技术 被引量:11
4
作者 彭涛 孟宇 +2 位作者 左万利 王英 胡亮 《计算机研究与发展》 EI CSCD 北大核心 2010年第4期628-637,共10页
由于网络环境的复杂性和网页内容的多主题性,要想得到更多的特定主题相关网页,就要穿越那些主题不相关网页来获取更多的主题相关网页,即隧道穿越.将隧道穿越分为灰色隧道穿越和黑色隧道穿越.对于灰色隧道,在爬行过程中,将一个多主题Web... 由于网络环境的复杂性和网页内容的多主题性,要想得到更多的特定主题相关网页,就要穿越那些主题不相关网页来获取更多的主题相关网页,即隧道穿越.将隧道穿越分为灰色隧道穿越和黑色隧道穿越.对于灰色隧道,在爬行过程中,将一个多主题Web页面分割成数量不多的内容块分别处理来避免由于网页整体主题不相关给该块所带来的影响.对于黑色隧道的穿越,将隧道中主题不相关网页根据其父亲页面的主题相关性赋予一个深度值,然后根据其深度值的大小进行取舍,来达到扩展主题爬行区域的目的.实验结果显示,这两种方法都达到了预期效果,所以方法是有效、稳健和实用的. 展开更多
关键词 主题爬行 灰色隧道穿越 黑色隧道穿越 网页分块 TARGET LENGTH
下载PDF
根据形状相似性的书法内容检索 被引量:12
5
作者 章夏芬 庄越挺 +1 位作者 鲁伟明 吴飞 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2005年第11期2565-2569,共5页
提出了一种根据形状相似性来检索书法字的算法:将扫描的书法作品先切分成单个书法字,并提取轮廓特征;接着由形状相似性算法计算相似度,然后按相似程度大小显示同一字不同的书法风格.实验证明,该算法具有很好的效果.
关键词 书法内容检索 页面切分 形状相似性
下载PDF
基于FFT的网页正文提取算法研究与实现 被引量:15
6
作者 李蕾 王劲林 +1 位作者 白鹤 胡晶晶 《计算机工程与应用》 CSCD 北大核心 2007年第30期148-151,共4页
主要研究"正文式"网页的有效信息提取算法。该种底层网页真正含有Web页面所表达的主题信息,通常包含一大段的正文信息,正文信息的前后是一些格式信息(例如导航信息、交互信息、JavaScript脚本等)。分析了此种网页的页面结构特... 主要研究"正文式"网页的有效信息提取算法。该种底层网页真正含有Web页面所表达的主题信息,通常包含一大段的正文信息,正文信息的前后是一些格式信息(例如导航信息、交互信息、JavaScript脚本等)。分析了此种网页的页面结构特征,将问题转化为——给定一个底层网页的HTML源文件,求解最佳的正文区间;从而提出了一种基于快速傅立叶变换的网页正文内容提取算法。采用窗口分段的方法,利用统计学原理和FFT,得出每个可能区间的权值,从而求解出最佳正文区间。实验结果表明,此种方法能比较准确的对"正文式"网页的有效信息进行提取。 展开更多
关键词 中文信息处理 WEB页面 信息提取 页面结构 FFT 区域分割
下载PDF
结合网页结构与文本特征的正文提取方法 被引量:15
7
作者 熊忠阳 蔺显强 +1 位作者 张玉芳 牙漫 《计算机工程》 CAS CSCD 2013年第12期200-203,210,共5页
网页中存在正文信息以及与正文无关的信息,无关信息的存在对Web页面的分类、存储及检索等带来负面的影响。为降低无关信息的影响,从网页的结构特征和文本特征出发,提出一种结合网页结构特征与文本特征的正文提取方法。通过正则表达式去... 网页中存在正文信息以及与正文无关的信息,无关信息的存在对Web页面的分类、存储及检索等带来负面的影响。为降低无关信息的影响,从网页的结构特征和文本特征出发,提出一种结合网页结构特征与文本特征的正文提取方法。通过正则表达式去除网页中的无关元素,完成对网页的初次过滤。根据网页的结构特征对网页进行线性分块,依据各个块的文本特征将其区分为链接块与文本块,并利用噪音块连续出现的结果完成对正文部分的定位,得到网页正文信息。实验结果表明,该方法能够快速准确地提取网页的正文内容。 展开更多
关键词 正文提取 网页去噪 网页分块 主题爬行 信息检索 WEB挖掘
下载PDF
一种基于连通域的版面分割方法 被引量:7
8
作者 郭丽 孙兴华 +1 位作者 王正群 杨静宇 《计算机工程与应用》 CSCD 北大核心 2003年第5期105-107,共3页
版面分割是版面分析的重要组成部分,是一个受到广泛关注的研究课题。该文提出了一种基于连通域的版面分割算法,首先对文档图像进行倾斜校正,然后采用模糊处理以得到较大的连通单元,再根据区域连通的特性进行版面分割和处理。实验表明,... 版面分割是版面分析的重要组成部分,是一个受到广泛关注的研究课题。该文提出了一种基于连通域的版面分割算法,首先对文档图像进行倾斜校正,然后采用模糊处理以得到较大的连通单元,再根据区域连通的特性进行版面分割和处理。实验表明,基于连通域的算法分割版面准确,速度快,适用范围广,不仅可用于矩形版面,对于非Manhattan版面等复杂版面也能取得令人满意的效果。 展开更多
关键词 连通域 版面分割方法 版面分析 动态聚类法 图像模糊 印刷体文字识别系统
下载PDF
一种基于节点密度分割和标签传播的Web页面挖掘方法 被引量:13
9
作者 张乃洲 曹薇 李石君 《计算机学报》 EI CSCD 北大核心 2015年第2期349-364,共16页
获取Web页面中的重要内容如文本和链接,在许多Web挖掘研究领域有着重要的应用价值.目前针对该问题主要采用Web页面分割和区块识别的方法.但现有的方法将Web页面中重要文本和链接的识别视为两个相互独立的问题,这种做法忽略了Web页面中... 获取Web页面中的重要内容如文本和链接,在许多Web挖掘研究领域有着重要的应用价值.目前针对该问题主要采用Web页面分割和区块识别的方法.但现有的方法将Web页面中重要文本和链接的识别视为两个相互独立的问题,这种做法忽略了Web页面中文本和链接的内在语义关系,同时降低了页面处理的效率.文中提出了一种Web页面重要内容挖掘的统一框架,该框架主要由3个部分组成:第一,先将Web页面转换为DOM树表示,然后采用节点密度熵为度量将DOM树分割为不同的页面块;第二,采用基于K最近邻标签传播的半监督方法自动扩展页面块训练集;第三,在扩展的页面块训练集上对SVM分类器进行训练,并用来对页面块进行分类.采用该框架可以将Web页面块区分为多种类型,并且该框架独立于Web页面的类型和布局.我们在真实的Web环境下进行了广泛的实验,实验结果表明了该方法的有效性. 展开更多
关键词 页面分割 节点密度 标签传播 DOM树 块分类 社会计算 社交网络
下载PDF
基于模拟退火算法和二阶HMM的Web信息抽取 被引量:7
10
作者 李伟男 李书琴 +2 位作者 景旭 魏露 李新乐 《计算机工程与设计》 CSCD 北大核心 2014年第4期1264-1268,共5页
针对传统隐马尔科夫模型对初值敏感和未考虑历史状态的问题,提出了使用模拟退火算法训练二阶隐马尔科夫模型参数的SA-HMM2。在基于SA-HMM2的Web信息抽取方法中,采用基于视觉的网页分割算法VIPS对网页分块得到状态转移序列,利用提出的SA-... 针对传统隐马尔科夫模型对初值敏感和未考虑历史状态的问题,提出了使用模拟退火算法训练二阶隐马尔科夫模型参数的SA-HMM2。在基于SA-HMM2的Web信息抽取方法中,采用基于视觉的网页分割算法VIPS对网页分块得到状态转移序列,利用提出的SA-HMM2训练算法获取HMM2全局最优模型参数,用改进的Viterbi算法实现了Web信息的抽取。实验结果表明,该方法在平均综合值方面比HMM、GA-HMM分别提高约21%和7%。 展开更多
关键词 WEB信息抽取 隐马尔科夫模型 二阶隐马尔科夫模型 模拟退火算法 基于视觉的网页分割算法
下载PDF
连通区的页面分割与分类方法 被引量:3
11
作者 王姝华 曹阳 +1 位作者 李佐 蔡士杰 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2002年第1期17-20,25,共5页
页面分割与分类是文档处理的关键步骤 ,但目前多数方法对页面的块和倾斜进行了限制 .文中提出一种新的基于连通区的页面分割与分类方法 .首先采用快速算法抽取页面内的连通区 ,然后利用改进的 RL SA算法分割页面 ,并根据连通区的分布情... 页面分割与分类是文档处理的关键步骤 ,但目前多数方法对页面的块和倾斜进行了限制 .文中提出一种新的基于连通区的页面分割与分类方法 .首先采用快速算法抽取页面内的连通区 ,然后利用改进的 RL SA算法分割页面 ,并根据连通区的分布情况以及块的特征对块进行分类 .该方法将页面分割与分类紧密结合 ,充分考虑到块的局部特征 ,保证块分类的正确性 。 展开更多
关键词 文档处理 页面分割 页面分类 PLSA 图像处理 计算机
下载PDF
基于维基百科和网页分块的主题爬行策略 被引量:5
12
作者 熊忠阳 史艳 张玉芳 《计算机应用》 CSCD 北大核心 2011年第12期3264-3267,共4页
针对传统主题爬行策略的不足和局限性,提出一种基于维基百科(Wikipedia)和网页分块的主题爬行策略,通过Wikipedia的主题分类树和主题描述文档获取主题向量,以此来描述主题;并在下载网页后引入网页分块,过滤噪声链接;在计算候选链接优先... 针对传统主题爬行策略的不足和局限性,提出一种基于维基百科(Wikipedia)和网页分块的主题爬行策略,通过Wikipedia的主题分类树和主题描述文档获取主题向量,以此来描述主题;并在下载网页后引入网页分块,过滤噪声链接;在计算候选链接优先级时,引入块相关性,以弥补锚文本信息量有限的缺点;通过改变主题向量空间的大小来验证主题描述的详略对爬行性能的影响。实验结果表明,该策略有效,并且在一定限度内,对主题描述越详细,搜集的网页的相关度就越高。 展开更多
关键词 主题爬行 维基百科 主题描述 网页分块 相关度计算
下载PDF
基于多特征和SVM的文本图像版面分类方法 被引量:6
13
作者 程娟 平西建 周冠玮 《数据采集与处理》 CSCD 北大核心 2008年第5期569-574,共6页
对文本图像的灰度、形状和纹理等视觉特征进行了较为全面的分析,研究了版面中文本、表格、图形和图像在各种特征层面上的差异。针对中英文版面,结合投影法与连通域分析快速准确的分割图像,提取了能够表征区域信息的17维特征向量,然后使... 对文本图像的灰度、形状和纹理等视觉特征进行了较为全面的分析,研究了版面中文本、表格、图形和图像在各种特征层面上的差异。针对中英文版面,结合投影法与连通域分析快速准确的分割图像,提取了能够表征区域信息的17维特征向量,然后使用基于正态决策树的多分类支持向量机将文本图像版面区域分为文本、表格、图形和图像四类。实验结果表明算法能够快速、准确地处理文本图像版面,具有较强的应用价值。 展开更多
关键词 版面分割 灰度特征 形状特征 纹理特征 支持向量机
下载PDF
一种垂直页面分割与信息提取方法的研究 被引量:3
14
作者 李军 陈君 +1 位作者 王玲芳 倪宏 《计算机应用研究》 CSCD 北大核心 2013年第3期844-847,852,共5页
在综合分析不同页面分割算法和适用条件的基础上,研究针对垂直型网站的页面分割和信息提取算法。以DOM(document object model)树为基础,提出页面内容聚集度的概念,统计获取页面分割标签和样式层叠表映射,对页面进行分割;采用正文识别... 在综合分析不同页面分割算法和适用条件的基础上,研究针对垂直型网站的页面分割和信息提取算法。以DOM(document object model)树为基础,提出页面内容聚集度的概念,统计获取页面分割标签和样式层叠表映射,对页面进行分割;采用正文识别和前缀匹配的方法,完成从页面分块信息提取。结合实际的网络视频项目需求,实现面向垂直型网站页面的分割和信息提取器。实验结果表明,该网页分割和信息提取方法对垂直页面信息提取具有良好的性能,满足实际项目需求。 展开更多
关键词 页面分割 信息获取 垂直网站 内容聚集度 分割标签 前缀匹配
下载PDF
基于连通域的版面分割研究 被引量:3
15
作者 郭丽 黄元元 杨静宇 《南京理工大学学报》 EI CAS CSCD 北大核心 2003年第1期16-19,共4页
版面分割是OCR(光学字符识别 )系统的重要组成部分 ,在将印刷文档转换为电子文档的过程中是必不可少的。该文对基于连通域的版面分割方法进行研究 ,首先用动态聚类法选取模糊阈值 ;然后对文档图像进行模糊处理 ,形成大的连通区域 ;再根... 版面分割是OCR(光学字符识别 )系统的重要组成部分 ,在将印刷文档转换为电子文档的过程中是必不可少的。该文对基于连通域的版面分割方法进行研究 ,首先用动态聚类法选取模糊阈值 ;然后对文档图像进行模糊处理 ,形成大的连通区域 ;再根据连通域的位置关系等分割出文档的各个分栏。实验表明 ,该方法对于简单的矩形版面及复杂的版面 ,例如 ,非Manhattan版面等都能较好地分割。 展开更多
关键词 连通域 动态聚类法 版面分割 图像处理 光学字符识别 OCR
下载PDF
一种基于SVM和AdaBoost的Web实体信息抽取方法 被引量:3
16
作者 孙明 陆春生 +2 位作者 徐秀星 李庆忠 彭朝晖 《计算机应用与软件》 CSCD 北大核心 2013年第4期101-106,152,共7页
提出一种基于SVM和AdaBoost的Web实体信息抽取方法。首先提出一种基于SVM的Web页面主数据区域识别方法,基于Web实体实例在页面中的展示特征,有效地将Web页面进行数据区域分割,识别出Web实体实例所在的主数据区域;然后基于Web实体属性标... 提出一种基于SVM和AdaBoost的Web实体信息抽取方法。首先提出一种基于SVM的Web页面主数据区域识别方法,基于Web实体实例在页面中的展示特征,有效地将Web页面进行数据区域分割,识别出Web实体实例所在的主数据区域;然后基于Web实体属性标签的特征,提出一种基于AdaBoost的集成学习方法,从页面的主数据区域自动地抽取Web实体信息。在两个真实数据集上进行实验,并与相关研究工作进行比较,实验结果说明该方法能够取得良好的抽取效果。 展开更多
关键词 WEB信息抽取 页面分割 集成学习
下载PDF
基于多种策略的页面内容提取算法 被引量:4
17
作者 高琰 谷士文 谭立球 《西南交通大学学报》 EI CSCD 北大核心 2007年第4期473-477,共5页
针对W eb页面存在与主题无关的噪音的问题,提出了基于页面结构与页面内容相结合的多策略页面内容提取算法.该算法根据改进的VIPS(基于视觉信息的页面分割算法)生成页面的块结构树,通过定义内聚度阈值和块结构树的最大深度,实现了块结构... 针对W eb页面存在与主题无关的噪音的问题,提出了基于页面结构与页面内容相结合的多策略页面内容提取算法.该算法根据改进的VIPS(基于视觉信息的页面分割算法)生成页面的块结构树,通过定义内聚度阈值和块结构树的最大深度,实现了块结构树中不同区域内不同分块粒度的要求;根据W eb页面提供的结构信息和内容信息提取块结构树叶子节点中的"主题"块和"主题相关"块;最后,对主题块和主题相关块的内容进行合并,提取页面的主要内容.实验表明,对任意下载、不同内容类型的页面,该算法都能有效地提取页面内容. 展开更多
关键词 VIPS(基于视觉信息的页面分割算法) 内聚度 最大深度 内容信息 结构信息
下载PDF
基于主题相关概念和网页分块的主题爬虫研究 被引量:9
18
作者 黄仁 王良伟 《计算机应用研究》 CSCD 北大核心 2013年第8期2377-2380,2409,共5页
针对传统主题爬虫的不足,提出一种基于主题相关概念和网页分块的主题爬虫。先通过主题分类树获取主题相关概念集合,然后结合主题描述文档构建主题向量来描述主题;下载网页后引入网页分块来穿越"灰色隧道";采用文本内容和链接... 针对传统主题爬虫的不足,提出一种基于主题相关概念和网页分块的主题爬虫。先通过主题分类树获取主题相关概念集合,然后结合主题描述文档构建主题向量来描述主题;下载网页后引入网页分块来穿越"灰色隧道";采用文本内容和链接结构相结合的策略计算候选链接优先级,并在HITS算法的基础上提出了R-HITS算法计算链接结构对候选链接优先级的贡献。实验结果表明,利用该方法实现的主题爬虫查准率达66%、信息量总和达53%,在垂直搜索引擎和舆情分析应用方面有更好的搜索效果。 展开更多
关键词 主题爬虫 主题相关概念 网页分块 优先级计算 R-HITS
下载PDF
基于网页分块的Shark-Search算法 被引量:7
19
作者 陈军 陈竹敏 《山东大学学报(理学版)》 CAS CSCD 北大核心 2007年第9期62-66,共5页
Shark-Search算法是一个经典的主题爬取算法.针对该算法在爬取噪音链接较多的Web页面时性能并不理想的问题,提出了基于网页分块的Shark-Search算法,该算法从页面、块、链接的多种粒度来更加有效的进行链接的选择与过滤.实验证明,改进的S... Shark-Search算法是一个经典的主题爬取算法.针对该算法在爬取噪音链接较多的Web页面时性能并不理想的问题,提出了基于网页分块的Shark-Search算法,该算法从页面、块、链接的多种粒度来更加有效的进行链接的选择与过滤.实验证明,改进的Shark-Search算法比传统的Shark-Search算法在查准率和信息量总和上有了质的提高. 展开更多
关键词 Shark-Search算法 主题爬取 页面分块 相关性计算
下载PDF
基于分块的网页主题信息自动提取算法 被引量:6
20
作者 殷贤亮 李猛 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2007年第10期39-41,共3页
对互联网上大量存在的基于模板的网页,根据其半结构化的特点,提出了一种网页分块和主题信息自动提取算法.该算法利用网页标记对网页进行分块,改进了传统的文本特征选择方法,把网页块表示成特征向量,并根据有序标记集识别主题内容块.用... 对互联网上大量存在的基于模板的网页,根据其半结构化的特点,提出了一种网页分块和主题信息自动提取算法.该算法利用网页标记对网页进行分块,改进了传统的文本特征选择方法,把网页块表示成特征向量,并根据有序标记集识别主题内容块.用该算法改进了网页分类的预处理过程,提高了分类的速度和准确性.实验表明,对网页进行主题信息提取后再进行分类,可以提高分类系统的查全率和查准率. 展开更多
关键词 网页分块 主题信息 自动提取 特征选择 网页分类
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部