期刊文献+
共找到27篇文章
< 1 2 >
每页显示 20 50 100
基于文本块密度和标签路径覆盖率的网页正文抽取 被引量:5
1
作者 刘鹏程 胡骏 吴共庆 《计算机应用研究》 CSCD 北大核心 2018年第6期1645-1650,共6页
大多数网页除了正文信息外,还包括导航、广告和免责声明等噪声信息。为了提高网页正文抽取的准确性,提出了一种基于文本块密度和标签路径覆盖率的抽取方法(CETD-TPC)。结合网页文本块密度特征和标签路径特征的优点,设计了融合两种特征... 大多数网页除了正文信息外,还包括导航、广告和免责声明等噪声信息。为了提高网页正文抽取的准确性,提出了一种基于文本块密度和标签路径覆盖率的抽取方法(CETD-TPC)。结合网页文本块密度特征和标签路径特征的优点,设计了融合两种特征的新特征,利用新特征抽取网页中的最佳文本块,最后,抽取该文本块中的正文内容。该方法有效地解决了网页正文中噪声块信息过滤和短文本难以抽取的问题,且无须训练和人工处理。在Clean Eval数据集和从知名网站上随机选取的新闻网页数据集上的实验结果表明,CETD-TPC方法在不同数据源上均具有很好的适用性,抽取性能优于CETR、CETD和CEPR算法。 展开更多
关键词 正文抽取 文本块密度 标签路径覆盖率 特征融合
下载PDF
视图中插入文本块的编程方法 被引量:1
2
作者 李霞 《广州大学学报(自然科学版)》 CAS 2002年第4期57-59,共3页
在一般应用软件中 ,文本输入是必不可少的 .如何让文本输入像画线、画圆、画椭圆一样简单方便 ,实现在视图中插入文本块 ?可将输入的文本看成是一个文本块 ,或者说是一个矩形 ,在矩形中完成文本的输入、修改、换行等操作 .这样 ,工作就... 在一般应用软件中 ,文本输入是必不可少的 .如何让文本输入像画线、画圆、画椭圆一样简单方便 ,实现在视图中插入文本块 ?可将输入的文本看成是一个文本块 ,或者说是一个矩形 ,在矩形中完成文本的输入、修改、换行等操作 .这样 ,工作就转化为在视图中插入一个矩形 ,编程并让该矩形响应鼠标和键盘消息 ,从而实现文本块中文本的输入及各项操作 .具体通过VC ++中文档、视图之间数据交换和各自职能的特点以及C ++中面向对象的技术[1,2 ] ,实现了在视图中插入文本块的方法 .这里的文本块如其它的图形对象一样 ,可以选择、可以移动、可以修改、可以删除 .最后给出了实现结果的图片 . 展开更多
关键词 编程方法 文本块 矩形 面向对象 视图 文本输入 智能教育软件 文字处理
下载PDF
基于文本块密度与标签路径等特征的正文提取 被引量:1
3
作者 杨贤 唐超兰 李航 《广东工业大学学报》 CAS 2018年第2期51-56,共6页
为了解决网页中除正文信息外还包含网页导航、广告和免责声明等噪声信息的问题,本文提出一种基于标签路径等多特征和文本块密度的正文提取方法.首先根据文本块密度特征确定正文区域,然后在区域内使用标签路径等特征剔去噪音节点,最后抽... 为了解决网页中除正文信息外还包含网页导航、广告和免责声明等噪声信息的问题,本文提出一种基于标签路径等多特征和文本块密度的正文提取方法.首先根据文本块密度特征确定正文区域,然后在区域内使用标签路径等特征剔去噪音节点,最后抽取该文本块中的正文节点内容.该方法有效解决了网页正文块中噪声信息难以过滤和标签路径等特征易对正文部分外较长文本误抽取的问题,且无须训练和人工处理.从知名网站上随机选取新闻网页数据集进行实验,验证了该方法在不同数据源上都具有很好的适用性,抽取精确度优于CETR、CETD等方法. 展开更多
关键词 正文抽取 文本块 标签路径 文本密度
下载PDF
VC插入汉字文本块的编程方法
4
作者 邹雪峰 张翔 刘琳琳 《长江大学学报(自科版)(上旬)》 CAS 2012年第12期102-104,共3页
一般的绘图软件如Surfer、Graph等只支持英文和数字的文本输出,给图形资料解释说明带来不方便。采用VC编程实现了对汉字文本块输出,并设计了相应的独立文本类CText,对汉字双字节作了校正处理,杜绝了断字和乱码的出现。同时,该类实现了... 一般的绘图软件如Surfer、Graph等只支持英文和数字的文本输出,给图形资料解释说明带来不方便。采用VC编程实现了对汉字文本块输出,并设计了相应的独立文本类CText,对汉字双字节作了校正处理,杜绝了断字和乱码的出现。同时,该类实现了位置、颜色、大小等属性设置功能,在实际的矢量绘图软件中,应用效果良好。 展开更多
关键词 文本 文本块 矢量绘图 字符串绘制 鼠标交互
下载PDF
基于语料库的大学生英语写作中的文本导向词块研究
5
作者 吕茂丽 魏晓莲 《英语广场(学术研究)》 2023年第26期58-62,共5页
为探究大学生在英语写作中所使用文本导向词块的特征,本文借助中国学生万篇英语作文语料库(TECCL)和语料分析工具AntConc4.1.2对6869篇大学生英语作文进行统计,聚焦分析其中四词和五词文本导向词块的结构特征和功能特征。结果发现,在结... 为探究大学生在英语写作中所使用文本导向词块的特征,本文借助中国学生万篇英语作文语料库(TECCL)和语料分析工具AntConc4.1.2对6869篇大学生英语作文进行统计,聚焦分析其中四词和五词文本导向词块的结构特征和功能特征。结果发现,在结构特征上,介词结构是使用频率最高的结构类型,而名词结构和动词结构明显使用频率不高,且文本导向词块的使用表现出核心词匮乏的情况;在功能特征上,文本导向词块实施了附加、因果和引用等语篇功能和逻辑关系,但存在误用、文本衔接不紧密和连贯性不足等问题。此结果产生的原因一方面是大学生对特定词块的过度依赖,另一方面是大学生对文本导向词块功能和用法掌握不当。此研究对大学英语学习者和英语写作教学有一定的启示意义。 展开更多
关键词 文本导向词 大学生英语写作 语料库
下载PDF
篇章级并列关系文本块识别方法研究 被引量:1
6
作者 裴晶晶 乐小虬 《数据分析与知识发现》 CSSCI CSCD 北大核心 2019年第5期51-56,共6页
【目的】识别出科技论文中分布在不同段落、在语义及版面视觉上具有并列关系的文本块,捕捉并列关系文本特征,为并列关系知识对象识别提供预训练模型。【方法】以段落为处理单元,在字符向量和词向量的基础上附加版面视觉特征,对不同层级... 【目的】识别出科技论文中分布在不同段落、在语义及版面视觉上具有并列关系的文本块,捕捉并列关系文本特征,为并列关系知识对象识别提供预训练模型。【方法】以段落为处理单元,在字符向量和词向量的基础上附加版面视觉特征,对不同层级具有并列关系的文本进行多维特征表征,利用卷积神经网络(Convolutional Neural Networks, CNN)模型对标注数据进行文本分类训练,得到并列关系文本块识别模型。【结果】在人工标注的科技论文数据集上展开实验,对并列关系文本块分类准确率达96%,比基准模型高出约3%,召回率高出约2%。【局限】仅适用于HTML网页文本数据,对于其他格式的文本数据还有待进一步研究和实验。【结论】以段落为处理单元,综合多种特征后利用卷积神经网络模型能够高效识别篇章级并列关系文本块,可以作为并列关系知识对象识别预训练模型。 展开更多
关键词 并列关系 文本表示 文本块 深度学习
原文传递
文本语块识别典型方法的比较与分析 被引量:2
7
作者 梁颖红 曹军 《计算机技术与发展》 2008年第11期76-79,共4页
文本语块识别在自然语言处理领域具有重要作用。以WINNOW、支持向量机和感知器三种典型的语块识别方法为对象,从模型和特征两方面对每种方法进行了剖析,并比较和分析了三种方法与隐马尔科夫模型的优缺点,指出如果为了避免数据稀疏而只采... 文本语块识别在自然语言处理领域具有重要作用。以WINNOW、支持向量机和感知器三种典型的语块识别方法为对象,从模型和特征两方面对每种方法进行了剖析,并比较和分析了三种方法与隐马尔科夫模型的优缺点,指出如果为了避免数据稀疏而只采用"词性"特征来识别多种语块,那些对于"词"敏感的短语准确率将会很低。因此针对不同的语块采用不同的特征和策略,不同短语的识别相互借鉴,把不同语块的识别集成在一起,将会起到很好的效果。 展开更多
关键词 文本识别 支持向量机 感知器 WINNOW 隐马尔科夫模型
下载PDF
基于文本布局块距离度量的文档图像检索
8
作者 王牡丹 邬春学 《电子科技》 2017年第9期46-49,共4页
针对现有基于图像文档转换为文本后进行文档检索的方法,无法满足当今超大量数字图像库的处理场景。文中提出一种基于文本布局块的文档图像检索方法。根据文本布局块之间的距离特征,定义了新的距离函数,利用新的距离函数计算得到文本布... 针对现有基于图像文档转换为文本后进行文档检索的方法,无法满足当今超大量数字图像库的处理场景。文中提出一种基于文本布局块的文档图像检索方法。根据文本布局块之间的距离特征,定义了新的距离函数,利用新的距离函数计算得到文本布局块之间的距离矩阵,并结合匈牙利算法求出文档图像的最佳匹配结果。通过大量实验证明,所提方法能够有效地提高图像文档检索准确度,并且能保证78.2%的正确率。 展开更多
关键词 图像文档检索 文档图像分割 文本布局 距离函数 匈牙利算法
下载PDF
信息化教学资源中的文本信息设计
9
作者 张国强 《教育实践与研究(小学版)(A)》 2008年第6期23-25,共3页
文本是教学网页中最基本的设计元素,为了满足易认、易懂、易读的需要,网络教学资源开发者需要根据教学信息的内容特征,认真设计文本信息的字体、大小和颜色。另外,为了提高文本信息的易读性,需要强化文本信息的结构特征,以文本块方式组... 文本是教学网页中最基本的设计元素,为了满足易认、易懂、易读的需要,网络教学资源开发者需要根据教学信息的内容特征,认真设计文本信息的字体、大小和颜色。另外,为了提高文本信息的易读性,需要强化文本信息的结构特征,以文本块方式组织文本信息。 展开更多
关键词 教学网页 文本 文本块
下载PDF
基于标签路径覆盖率和多文本特征的正文抽取算法
10
作者 郑野 宋旭东 +1 位作者 于林林 陈鑫影 《大连交通大学学报》 CAS 2019年第5期112-116,共5页
如何正确识别网页中存在的网页评论、导航、版权声明等噪音数据,提高网页抽取正文的准确度,提出了一种结合多种文本特征的正文抽取算法(CETD-TPF).在文本块密度和标签路径覆盖率的基础之上又融合了文本符号特征,利用新特征确定并抽取正... 如何正确识别网页中存在的网页评论、导航、版权声明等噪音数据,提高网页抽取正文的准确度,提出了一种结合多种文本特征的正文抽取算法(CETD-TPF).在文本块密度和标签路径覆盖率的基础之上又融合了文本符号特征,利用新特征确定并抽取正文文本块.此方法有效的解决了网页正文短文本难以抽取的问题,且无需人工训练和处理.在对各大知名新闻网站随机选取的数据集进行实验表明,CETD-TPF方法在不同数据源上的适用性较好,正文抽取精度好于CETR、CETD算法. 展开更多
关键词 文本块密度 标签路径覆盖率 正文抽取
下载PDF
基于文字混合特征的视频文本定位研究
11
作者 赵超 方向忠 《微计算机信息》 2009年第18期161-162,176,共3页
针对视频中文本信息在视频序列和视频索引中的重要性,本文提出了一种基于文字混合特征的文本定位算法。该算法首先对视频序列中每隔25帧的单帧图像进行边缘检测和投影处理来提取文本块,然后用支持向量基进行筛选,排除非文本块的干扰,最... 针对视频中文本信息在视频序列和视频索引中的重要性,本文提出了一种基于文字混合特征的文本定位算法。该算法首先对视频序列中每隔25帧的单帧图像进行边缘检测和投影处理来提取文本块,然后用支持向量基进行筛选,排除非文本块的干扰,最后利用视频序列中相邻帧之间的相关性来搜索剩余帧中的文本块。本文的算法在提高检测速度的同时保证了较高的检测准确度。 展开更多
关键词 文本块 支持向量基 视频序列
下载PDF
Web页面清洗技术的研究与实现 被引量:20
12
作者 周源远 王继成 +1 位作者 郑刚 张福炎 《计算机工程》 CAS CSCD 北大核心 2002年第9期48-50,197,共4页
文章提出了Web页面清洗的概念,给出了一种基于规则的Web页面清洗方案,并实现了基于此方案的系统。文中的页面清洗建立在Web页面的DOM树结构上,并通过人工判定的方法进行了实验和评估。实验结果表明该方案切实可行、清洗方法具有较快的... 文章提出了Web页面清洗的概念,给出了一种基于规则的Web页面清洗方案,并实现了基于此方案的系统。文中的页面清洗建立在Web页面的DOM树结构上,并通过人工判定的方法进行了实验和评估。实验结果表明该方案切实可行、清洗方法具有较快的速度和准确性。 展开更多
关键词 WEB页面 清洗技术 文本块 链接 DOM 解析器 Internet 信息检索
下载PDF
基于文档指纹的中文复制检测方法 被引量:7
13
作者 麻会东 刘国华 +1 位作者 李现伟 刘春辉 《广西师范大学学报(自然科学版)》 CAS 北大核心 2007年第4期112-115,共4页
文档复制检测技术是保护知识产权和提高信息检索效率的有效有段。目前,关于英文的复制检测技术已经趋向成熟,但关于中文的复制检测技术才刚刚起步。在此提出基于文档指纹的中文复制检测方法,改进了正向最大匹配分词方法并建立了相应的... 文档复制检测技术是保护知识产权和提高信息检索效率的有效有段。目前,关于英文的复制检测技术已经趋向成熟,但关于中文的复制检测技术才刚刚起步。在此提出基于文档指纹的中文复制检测方法,改进了正向最大匹配分词方法并建立了相应的语料库机制,提出k-words分解句子的方法;定义了两篇文档同粒度指纹矩阵之间的匹配运算。实验结果表明,所提出的方法能高效地进行中文文档复制检测。 展开更多
关键词 指纹 剽窃 文本块 匹配
下载PDF
基于提取关键词的中文文档复制检测研究 被引量:6
14
作者 麻会东 刘国华 +3 位作者 李旭 梁鹏 刘春辉 张凌宇 《计算机工程与科学》 CSCD 2007年第10期63-64,88,共3页
文档复制检测技术在保护知识产权和信息索引中起重要作用,它可以防止剽窃事件的发生,提高互联网检索效率。目前,英文复制检测技术已经比较成熟,但中文复制检测技术研究还处于起步阶段。本文提出一种基于关键词的指纹提取方法;提出k-word... 文档复制检测技术在保护知识产权和信息索引中起重要作用,它可以防止剽窃事件的发生,提高互联网检索效率。目前,英文复制检测技术已经比较成熟,但中文复制检测技术研究还处于起步阶段。本文提出一种基于关键词的指纹提取方法;提出k-words方法分解句子;定义了数字指纹树概念,并用数字指纹树来存储指纹。最后,用实验验证了所提出的方法。 展开更多
关键词 指纹 剽窃 文本块 匹配
下载PDF
文档复制检测技术 被引量:1
15
作者 麻会东 刘国华 +1 位作者 梁鹏 苑迎 《燕山大学学报》 CAS 2007年第5期410-417,共8页
随着数字图书馆和互联网的飞速发展,数字化文档唾手可得。近年来学术剽窃现象屡见报端,互联网上日益增多的重复网页降低了检索效率,给用户带来不便。文档复制检测技术在保护知识产权和优化搜索引擎方面起着重要作用,是近年来数据库安全... 随着数字图书馆和互联网的飞速发展,数字化文档唾手可得。近年来学术剽窃现象屡见报端,互联网上日益增多的重复网页降低了检索效率,给用户带来不便。文档复制检测技术在保护知识产权和优化搜索引擎方面起着重要作用,是近年来数据库安全领域研究的热点。文档复制检测方法有两类:一是基于词频统计的方法,一是基于字符串匹配的方法。本文详尽分析了现有基于这两类方法的复制检测技术,并指出它们的优缺点,针对两类方法都存在的问题提出一些改进方案。最后总结了复制检测技术应满足的特性,讨论了检测方法的准确性和文档分解规则。 展开更多
关键词 复制检测 剽窃 指纹 文本块 匹配
下载PDF
文档抄袭检测研究
16
作者 张超 侯青青 +2 位作者 陶宏敏 李俊杰 邹威 《消费电子》 2013年第4期34-35,共2页
针对作业抄袭现象,建议教师使用作业抄袭检测系统,分析了各种文档抄袭检测系统和文档特征提取方式,研究并提出了基于句子相似度语句定位的作业抄袭检测。
关键词 文档抄袭 特征提取 文本块
下载PDF
基于特征和HMM的信息提取 被引量:2
17
作者 纪祥 刘华虓 +1 位作者 吴芬芬 刘磊 《吉林大学学报(信息科学版)》 CAS 2009年第4期396-399,共4页
为了解决在信息提取中,召回率和精度都不高的问题,提出了改进的HMM(Hidden Markov Models)模型,该模型采用一种新的文本分块技术。通过文本的语义特征和结构特征,抽取具有特征的状态,并在此基础上,抽取剩余的无特征的状态改进HMM,测试... 为了解决在信息提取中,召回率和精度都不高的问题,提出了改进的HMM(Hidden Markov Models)模型,该模型采用一种新的文本分块技术。通过文本的语义特征和结构特征,抽取具有特征的状态,并在此基础上,抽取剩余的无特征的状态改进HMM,测试了由卡耐基梅隆大学数据搜索引擎研究小组所提供的100篇计算机科学文件头部。结果表明,与基于字词和传统的HMM方法相比,召回率和精确率分别达到了91.99%和94.79%。 展开更多
关键词 文本块 特征提取 机器学习 HMM模型
下载PDF
电脑平面设计及印前图文处理问答(二十四)
18
作者 刘武辉 《广东印刷》 2007年第6期13-15,共3页
如何断开链接文本块之间的链接关系? 答:想断开文本对象之间的链接,可将链接框拖动到页面任一空白位置即可。
关键词 电脑平面设计 图文处理 印前 文本对象 链接 文本块 断开
下载PDF
跟我学用Flash MX(二)
19
作者 王毅 《软件世界(PC任我行)》 2002年第10期74-77,共4页
关键词 FLASHMX 动画制作软件 动态文本 输入文本 文本块
下载PDF
用搜狗输入法造词
20
作者 南湖秋水 《网友世界》 2009年第19期24-24,共1页
有时经常要在文档中输入包含几个段落的长文本块.例如对外信函中要留下你的联系方式(包括姓名、工作单位、邮编.电话、Emall等信息),而一般的手工造词方式不支持这种包含几个段落的造词,不过搜狗的拼音或五笔输入法的。自定义短... 有时经常要在文档中输入包含几个段落的长文本块.例如对外信函中要留下你的联系方式(包括姓名、工作单位、邮编.电话、Emall等信息),而一般的手工造词方式不支持这种包含几个段落的造词,不过搜狗的拼音或五笔输入法的。自定义短语设置”可以满足这种特殊要求,从而达到简化输入这种长文本块的目的,以下以搜狗拼音为例(搜狗五笔方法雷同)。 展开更多
关键词 五笔输入法 联系方式 工作单位 文本块 自定义 拼音 文档
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部