期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
27
篇文章
<
1
2
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于文本块密度和标签路径覆盖率的网页正文抽取
被引量:
5
1
作者
刘鹏程
胡骏
吴共庆
《计算机应用研究》
CSCD
北大核心
2018年第6期1645-1650,共6页
大多数网页除了正文信息外,还包括导航、广告和免责声明等噪声信息。为了提高网页正文抽取的准确性,提出了一种基于文本块密度和标签路径覆盖率的抽取方法(CETD-TPC)。结合网页文本块密度特征和标签路径特征的优点,设计了融合两种特征...
大多数网页除了正文信息外,还包括导航、广告和免责声明等噪声信息。为了提高网页正文抽取的准确性,提出了一种基于文本块密度和标签路径覆盖率的抽取方法(CETD-TPC)。结合网页文本块密度特征和标签路径特征的优点,设计了融合两种特征的新特征,利用新特征抽取网页中的最佳文本块,最后,抽取该文本块中的正文内容。该方法有效地解决了网页正文中噪声块信息过滤和短文本难以抽取的问题,且无须训练和人工处理。在Clean Eval数据集和从知名网站上随机选取的新闻网页数据集上的实验结果表明,CETD-TPC方法在不同数据源上均具有很好的适用性,抽取性能优于CETR、CETD和CEPR算法。
展开更多
关键词
正文抽取
文本块
密度
标签路径覆盖率
特征融合
下载PDF
职称材料
视图中插入文本块的编程方法
被引量:
1
2
作者
李霞
《广州大学学报(自然科学版)》
CAS
2002年第4期57-59,共3页
在一般应用软件中 ,文本输入是必不可少的 .如何让文本输入像画线、画圆、画椭圆一样简单方便 ,实现在视图中插入文本块 ?可将输入的文本看成是一个文本块 ,或者说是一个矩形 ,在矩形中完成文本的输入、修改、换行等操作 .这样 ,工作就...
在一般应用软件中 ,文本输入是必不可少的 .如何让文本输入像画线、画圆、画椭圆一样简单方便 ,实现在视图中插入文本块 ?可将输入的文本看成是一个文本块 ,或者说是一个矩形 ,在矩形中完成文本的输入、修改、换行等操作 .这样 ,工作就转化为在视图中插入一个矩形 ,编程并让该矩形响应鼠标和键盘消息 ,从而实现文本块中文本的输入及各项操作 .具体通过VC ++中文档、视图之间数据交换和各自职能的特点以及C ++中面向对象的技术[1,2 ] ,实现了在视图中插入文本块的方法 .这里的文本块如其它的图形对象一样 ,可以选择、可以移动、可以修改、可以删除 .最后给出了实现结果的图片 .
展开更多
关键词
编程方法
文本块
矩形
面向对象
视图
文本
输入
智能教育软件
文字处理
下载PDF
职称材料
基于文本块密度与标签路径等特征的正文提取
被引量:
1
3
作者
杨贤
唐超兰
李航
《广东工业大学学报》
CAS
2018年第2期51-56,共6页
为了解决网页中除正文信息外还包含网页导航、广告和免责声明等噪声信息的问题,本文提出一种基于标签路径等多特征和文本块密度的正文提取方法.首先根据文本块密度特征确定正文区域,然后在区域内使用标签路径等特征剔去噪音节点,最后抽...
为了解决网页中除正文信息外还包含网页导航、广告和免责声明等噪声信息的问题,本文提出一种基于标签路径等多特征和文本块密度的正文提取方法.首先根据文本块密度特征确定正文区域,然后在区域内使用标签路径等特征剔去噪音节点,最后抽取该文本块中的正文节点内容.该方法有效解决了网页正文块中噪声信息难以过滤和标签路径等特征易对正文部分外较长文本误抽取的问题,且无须训练和人工处理.从知名网站上随机选取新闻网页数据集进行实验,验证了该方法在不同数据源上都具有很好的适用性,抽取精确度优于CETR、CETD等方法.
展开更多
关键词
正文抽取
文本块
标签路径
文本
密度
下载PDF
职称材料
VC插入汉字文本块的编程方法
4
作者
邹雪峰
张翔
刘琳琳
《长江大学学报(自科版)(上旬)》
CAS
2012年第12期102-104,共3页
一般的绘图软件如Surfer、Graph等只支持英文和数字的文本输出,给图形资料解释说明带来不方便。采用VC编程实现了对汉字文本块输出,并设计了相应的独立文本类CText,对汉字双字节作了校正处理,杜绝了断字和乱码的出现。同时,该类实现了...
一般的绘图软件如Surfer、Graph等只支持英文和数字的文本输出,给图形资料解释说明带来不方便。采用VC编程实现了对汉字文本块输出,并设计了相应的独立文本类CText,对汉字双字节作了校正处理,杜绝了断字和乱码的出现。同时,该类实现了位置、颜色、大小等属性设置功能,在实际的矢量绘图软件中,应用效果良好。
展开更多
关键词
文本
框
文本块
矢量绘图
字符串绘制
鼠标交互
下载PDF
职称材料
基于语料库的大学生英语写作中的文本导向词块研究
5
作者
吕茂丽
魏晓莲
《英语广场(学术研究)》
2023年第26期58-62,共5页
为探究大学生在英语写作中所使用文本导向词块的特征,本文借助中国学生万篇英语作文语料库(TECCL)和语料分析工具AntConc4.1.2对6869篇大学生英语作文进行统计,聚焦分析其中四词和五词文本导向词块的结构特征和功能特征。结果发现,在结...
为探究大学生在英语写作中所使用文本导向词块的特征,本文借助中国学生万篇英语作文语料库(TECCL)和语料分析工具AntConc4.1.2对6869篇大学生英语作文进行统计,聚焦分析其中四词和五词文本导向词块的结构特征和功能特征。结果发现,在结构特征上,介词结构是使用频率最高的结构类型,而名词结构和动词结构明显使用频率不高,且文本导向词块的使用表现出核心词匮乏的情况;在功能特征上,文本导向词块实施了附加、因果和引用等语篇功能和逻辑关系,但存在误用、文本衔接不紧密和连贯性不足等问题。此结果产生的原因一方面是大学生对特定词块的过度依赖,另一方面是大学生对文本导向词块功能和用法掌握不当。此研究对大学英语学习者和英语写作教学有一定的启示意义。
展开更多
关键词
文本
导向词
块
大学生英语写作
语料库
下载PDF
职称材料
篇章级并列关系文本块识别方法研究
被引量:
1
6
作者
裴晶晶
乐小虬
《数据分析与知识发现》
CSSCI
CSCD
北大核心
2019年第5期51-56,共6页
【目的】识别出科技论文中分布在不同段落、在语义及版面视觉上具有并列关系的文本块,捕捉并列关系文本特征,为并列关系知识对象识别提供预训练模型。【方法】以段落为处理单元,在字符向量和词向量的基础上附加版面视觉特征,对不同层级...
【目的】识别出科技论文中分布在不同段落、在语义及版面视觉上具有并列关系的文本块,捕捉并列关系文本特征,为并列关系知识对象识别提供预训练模型。【方法】以段落为处理单元,在字符向量和词向量的基础上附加版面视觉特征,对不同层级具有并列关系的文本进行多维特征表征,利用卷积神经网络(Convolutional Neural Networks, CNN)模型对标注数据进行文本分类训练,得到并列关系文本块识别模型。【结果】在人工标注的科技论文数据集上展开实验,对并列关系文本块分类准确率达96%,比基准模型高出约3%,召回率高出约2%。【局限】仅适用于HTML网页文本数据,对于其他格式的文本数据还有待进一步研究和实验。【结论】以段落为处理单元,综合多种特征后利用卷积神经网络模型能够高效识别篇章级并列关系文本块,可以作为并列关系知识对象识别预训练模型。
展开更多
关键词
并列关系
文本
表示
文本块
深度学习
原文传递
文本语块识别典型方法的比较与分析
被引量:
2
7
作者
梁颖红
曹军
《计算机技术与发展》
2008年第11期76-79,共4页
文本语块识别在自然语言处理领域具有重要作用。以WINNOW、支持向量机和感知器三种典型的语块识别方法为对象,从模型和特征两方面对每种方法进行了剖析,并比较和分析了三种方法与隐马尔科夫模型的优缺点,指出如果为了避免数据稀疏而只采...
文本语块识别在自然语言处理领域具有重要作用。以WINNOW、支持向量机和感知器三种典型的语块识别方法为对象,从模型和特征两方面对每种方法进行了剖析,并比较和分析了三种方法与隐马尔科夫模型的优缺点,指出如果为了避免数据稀疏而只采用"词性"特征来识别多种语块,那些对于"词"敏感的短语准确率将会很低。因此针对不同的语块采用不同的特征和策略,不同短语的识别相互借鉴,把不同语块的识别集成在一起,将会起到很好的效果。
展开更多
关键词
文本
语
块
识别
支持向量机
感知器
WINNOW
隐马尔科夫模型
下载PDF
职称材料
基于文本布局块距离度量的文档图像检索
8
作者
王牡丹
邬春学
《电子科技》
2017年第9期46-49,共4页
针对现有基于图像文档转换为文本后进行文档检索的方法,无法满足当今超大量数字图像库的处理场景。文中提出一种基于文本布局块的文档图像检索方法。根据文本布局块之间的距离特征,定义了新的距离函数,利用新的距离函数计算得到文本布...
针对现有基于图像文档转换为文本后进行文档检索的方法,无法满足当今超大量数字图像库的处理场景。文中提出一种基于文本布局块的文档图像检索方法。根据文本布局块之间的距离特征,定义了新的距离函数,利用新的距离函数计算得到文本布局块之间的距离矩阵,并结合匈牙利算法求出文档图像的最佳匹配结果。通过大量实验证明,所提方法能够有效地提高图像文档检索准确度,并且能保证78.2%的正确率。
展开更多
关键词
图像文档检索
文档图像分割
文本
布局
块
距离函数
匈牙利算法
下载PDF
职称材料
信息化教学资源中的文本信息设计
9
作者
张国强
《教育实践与研究(小学版)(A)》
2008年第6期23-25,共3页
文本是教学网页中最基本的设计元素,为了满足易认、易懂、易读的需要,网络教学资源开发者需要根据教学信息的内容特征,认真设计文本信息的字体、大小和颜色。另外,为了提高文本信息的易读性,需要强化文本信息的结构特征,以文本块方式组...
文本是教学网页中最基本的设计元素,为了满足易认、易懂、易读的需要,网络教学资源开发者需要根据教学信息的内容特征,认真设计文本信息的字体、大小和颜色。另外,为了提高文本信息的易读性,需要强化文本信息的结构特征,以文本块方式组织文本信息。
展开更多
关键词
教学网页
文本
文本块
下载PDF
职称材料
基于标签路径覆盖率和多文本特征的正文抽取算法
10
作者
郑野
宋旭东
+1 位作者
于林林
陈鑫影
《大连交通大学学报》
CAS
2019年第5期112-116,共5页
如何正确识别网页中存在的网页评论、导航、版权声明等噪音数据,提高网页抽取正文的准确度,提出了一种结合多种文本特征的正文抽取算法(CETD-TPF).在文本块密度和标签路径覆盖率的基础之上又融合了文本符号特征,利用新特征确定并抽取正...
如何正确识别网页中存在的网页评论、导航、版权声明等噪音数据,提高网页抽取正文的准确度,提出了一种结合多种文本特征的正文抽取算法(CETD-TPF).在文本块密度和标签路径覆盖率的基础之上又融合了文本符号特征,利用新特征确定并抽取正文文本块.此方法有效的解决了网页正文短文本难以抽取的问题,且无需人工训练和处理.在对各大知名新闻网站随机选取的数据集进行实验表明,CETD-TPF方法在不同数据源上的适用性较好,正文抽取精度好于CETR、CETD算法.
展开更多
关键词
文本块
密度
标签路径覆盖率
正文抽取
下载PDF
职称材料
基于文字混合特征的视频文本定位研究
11
作者
赵超
方向忠
《微计算机信息》
2009年第18期161-162,176,共3页
针对视频中文本信息在视频序列和视频索引中的重要性,本文提出了一种基于文字混合特征的文本定位算法。该算法首先对视频序列中每隔25帧的单帧图像进行边缘检测和投影处理来提取文本块,然后用支持向量基进行筛选,排除非文本块的干扰,最...
针对视频中文本信息在视频序列和视频索引中的重要性,本文提出了一种基于文字混合特征的文本定位算法。该算法首先对视频序列中每隔25帧的单帧图像进行边缘检测和投影处理来提取文本块,然后用支持向量基进行筛选,排除非文本块的干扰,最后利用视频序列中相邻帧之间的相关性来搜索剩余帧中的文本块。本文的算法在提高检测速度的同时保证了较高的检测准确度。
展开更多
关键词
文本块
支持向量基
视频序列
下载PDF
职称材料
Web页面清洗技术的研究与实现
被引量:
20
12
作者
周源远
王继成
+1 位作者
郑刚
张福炎
《计算机工程》
CAS
CSCD
北大核心
2002年第9期48-50,197,共4页
文章提出了Web页面清洗的概念,给出了一种基于规则的Web页面清洗方案,并实现了基于此方案的系统。文中的页面清洗建立在Web页面的DOM树结构上,并通过人工判定的方法进行了实验和评估。实验结果表明该方案切实可行、清洗方法具有较快的...
文章提出了Web页面清洗的概念,给出了一种基于规则的Web页面清洗方案,并实现了基于此方案的系统。文中的页面清洗建立在Web页面的DOM树结构上,并通过人工判定的方法进行了实验和评估。实验结果表明该方案切实可行、清洗方法具有较快的速度和准确性。
展开更多
关键词
WEB页面
清洗技术
文本块
链接
块
DOM
解析器
Internet
信息检索
下载PDF
职称材料
基于文档指纹的中文复制检测方法
被引量:
7
13
作者
麻会东
刘国华
+1 位作者
李现伟
刘春辉
《广西师范大学学报(自然科学版)》
CAS
北大核心
2007年第4期112-115,共4页
文档复制检测技术是保护知识产权和提高信息检索效率的有效有段。目前,关于英文的复制检测技术已经趋向成熟,但关于中文的复制检测技术才刚刚起步。在此提出基于文档指纹的中文复制检测方法,改进了正向最大匹配分词方法并建立了相应的...
文档复制检测技术是保护知识产权和提高信息检索效率的有效有段。目前,关于英文的复制检测技术已经趋向成熟,但关于中文的复制检测技术才刚刚起步。在此提出基于文档指纹的中文复制检测方法,改进了正向最大匹配分词方法并建立了相应的语料库机制,提出k-words分解句子的方法;定义了两篇文档同粒度指纹矩阵之间的匹配运算。实验结果表明,所提出的方法能高效地进行中文文档复制检测。
展开更多
关键词
指纹
剽窃
文本块
匹配
下载PDF
职称材料
基于提取关键词的中文文档复制检测研究
被引量:
6
14
作者
麻会东
刘国华
+3 位作者
李旭
梁鹏
刘春辉
张凌宇
《计算机工程与科学》
CSCD
2007年第10期63-64,88,共3页
文档复制检测技术在保护知识产权和信息索引中起重要作用,它可以防止剽窃事件的发生,提高互联网检索效率。目前,英文复制检测技术已经比较成熟,但中文复制检测技术研究还处于起步阶段。本文提出一种基于关键词的指纹提取方法;提出k-word...
文档复制检测技术在保护知识产权和信息索引中起重要作用,它可以防止剽窃事件的发生,提高互联网检索效率。目前,英文复制检测技术已经比较成熟,但中文复制检测技术研究还处于起步阶段。本文提出一种基于关键词的指纹提取方法;提出k-words方法分解句子;定义了数字指纹树概念,并用数字指纹树来存储指纹。最后,用实验验证了所提出的方法。
展开更多
关键词
指纹
剽窃
文本块
匹配
下载PDF
职称材料
文档复制检测技术
被引量:
1
15
作者
麻会东
刘国华
+1 位作者
梁鹏
苑迎
《燕山大学学报》
CAS
2007年第5期410-417,共8页
随着数字图书馆和互联网的飞速发展,数字化文档唾手可得。近年来学术剽窃现象屡见报端,互联网上日益增多的重复网页降低了检索效率,给用户带来不便。文档复制检测技术在保护知识产权和优化搜索引擎方面起着重要作用,是近年来数据库安全...
随着数字图书馆和互联网的飞速发展,数字化文档唾手可得。近年来学术剽窃现象屡见报端,互联网上日益增多的重复网页降低了检索效率,给用户带来不便。文档复制检测技术在保护知识产权和优化搜索引擎方面起着重要作用,是近年来数据库安全领域研究的热点。文档复制检测方法有两类:一是基于词频统计的方法,一是基于字符串匹配的方法。本文详尽分析了现有基于这两类方法的复制检测技术,并指出它们的优缺点,针对两类方法都存在的问题提出一些改进方案。最后总结了复制检测技术应满足的特性,讨论了检测方法的准确性和文档分解规则。
展开更多
关键词
复制检测
剽窃
指纹
文本块
匹配
下载PDF
职称材料
文档抄袭检测研究
16
作者
张超
侯青青
+2 位作者
陶宏敏
李俊杰
邹威
《消费电子》
2013年第4期34-35,共2页
针对作业抄袭现象,建议教师使用作业抄袭检测系统,分析了各种文档抄袭检测系统和文档特征提取方式,研究并提出了基于句子相似度语句定位的作业抄袭检测。
关键词
文档抄袭
特征提取
文本块
下载PDF
职称材料
基于特征和HMM的信息提取
被引量:
2
17
作者
纪祥
刘华虓
+1 位作者
吴芬芬
刘磊
《吉林大学学报(信息科学版)》
CAS
2009年第4期396-399,共4页
为了解决在信息提取中,召回率和精度都不高的问题,提出了改进的HMM(Hidden Markov Models)模型,该模型采用一种新的文本分块技术。通过文本的语义特征和结构特征,抽取具有特征的状态,并在此基础上,抽取剩余的无特征的状态改进HMM,测试...
为了解决在信息提取中,召回率和精度都不高的问题,提出了改进的HMM(Hidden Markov Models)模型,该模型采用一种新的文本分块技术。通过文本的语义特征和结构特征,抽取具有特征的状态,并在此基础上,抽取剩余的无特征的状态改进HMM,测试了由卡耐基梅隆大学数据搜索引擎研究小组所提供的100篇计算机科学文件头部。结果表明,与基于字词和传统的HMM方法相比,召回率和精确率分别达到了91.99%和94.79%。
展开更多
关键词
文本块
特征提取
机器学习
HMM模型
下载PDF
职称材料
电脑平面设计及印前图文处理问答(二十四)
18
作者
刘武辉
《广东印刷》
2007年第6期13-15,共3页
如何断开链接文本块之间的链接关系? 答:想断开文本对象之间的链接,可将链接框拖动到页面任一空白位置即可。
关键词
电脑平面设计
图文处理
印前
文本
对象
链接
文本块
断开
下载PDF
职称材料
跟我学用Flash MX(二)
19
作者
王毅
《软件世界(PC任我行)》
2002年第10期74-77,共4页
关键词
FLASHMX
动画制作软件
动态
文本
输入
文本
文本块
下载PDF
职称材料
用搜狗输入法造词
20
作者
南湖秋水
《网友世界》
2009年第19期24-24,共1页
有时经常要在文档中输入包含几个段落的长文本块.例如对外信函中要留下你的联系方式(包括姓名、工作单位、邮编.电话、Emall等信息),而一般的手工造词方式不支持这种包含几个段落的造词,不过搜狗的拼音或五笔输入法的。自定义短...
有时经常要在文档中输入包含几个段落的长文本块.例如对外信函中要留下你的联系方式(包括姓名、工作单位、邮编.电话、Emall等信息),而一般的手工造词方式不支持这种包含几个段落的造词,不过搜狗的拼音或五笔输入法的。自定义短语设置”可以满足这种特殊要求,从而达到简化输入这种长文本块的目的,以下以搜狗拼音为例(搜狗五笔方法雷同)。
展开更多
关键词
五笔输入法
狗
联系方式
工作单位
文本块
自定义
拼音
文档
下载PDF
职称材料
题名
基于文本块密度和标签路径覆盖率的网页正文抽取
被引量:
5
1
作者
刘鹏程
胡骏
吴共庆
机构
合肥工业大学计算机与信息学院
出处
《计算机应用研究》
CSCD
北大核心
2018年第6期1645-1650,共6页
基金
国家重点研发计划资助项目(2016YFB1000901)
国家自然科学基金资助项目(61273297
+3 种基金
61229301
61673152)
国家教育部创新团队发展计划资助项目(IRT13059)
国家留学基金资助项目(201506695019)
文摘
大多数网页除了正文信息外,还包括导航、广告和免责声明等噪声信息。为了提高网页正文抽取的准确性,提出了一种基于文本块密度和标签路径覆盖率的抽取方法(CETD-TPC)。结合网页文本块密度特征和标签路径特征的优点,设计了融合两种特征的新特征,利用新特征抽取网页中的最佳文本块,最后,抽取该文本块中的正文内容。该方法有效地解决了网页正文中噪声块信息过滤和短文本难以抽取的问题,且无须训练和人工处理。在Clean Eval数据集和从知名网站上随机选取的新闻网页数据集上的实验结果表明,CETD-TPC方法在不同数据源上均具有很好的适用性,抽取性能优于CETR、CETD和CEPR算法。
关键词
正文抽取
文本块
密度
标签路径覆盖率
特征融合
Keywords
content extraction
text block density
tag path coverage
feature fusion
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
视图中插入文本块的编程方法
被引量:
1
2
作者
李霞
机构
广州大学教育软件所
出处
《广州大学学报(自然科学版)》
CAS
2002年第4期57-59,共3页
文摘
在一般应用软件中 ,文本输入是必不可少的 .如何让文本输入像画线、画圆、画椭圆一样简单方便 ,实现在视图中插入文本块 ?可将输入的文本看成是一个文本块 ,或者说是一个矩形 ,在矩形中完成文本的输入、修改、换行等操作 .这样 ,工作就转化为在视图中插入一个矩形 ,编程并让该矩形响应鼠标和键盘消息 ,从而实现文本块中文本的输入及各项操作 .具体通过VC ++中文档、视图之间数据交换和各自职能的特点以及C ++中面向对象的技术[1,2 ] ,实现了在视图中插入文本块的方法 .这里的文本块如其它的图形对象一样 ,可以选择、可以移动、可以修改、可以删除 .最后给出了实现结果的图片 .
关键词
编程方法
文本块
矩形
面向对象
视图
文本
输入
智能教育软件
文字处理
Keywords
applications
text_block
rectangle
object_orientation
view
分类号
G434 [文化科学—教育技术学]
TP311.11 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于文本块密度与标签路径等特征的正文提取
被引量:
1
3
作者
杨贤
唐超兰
李航
机构
广东工业大学艺术与设计学院
广东工业大学计算机学院
出处
《广东工业大学学报》
CAS
2018年第2期51-56,共6页
基金
广东省部产学研专项资金企业创新平台资助项目(2013B090800042)
文摘
为了解决网页中除正文信息外还包含网页导航、广告和免责声明等噪声信息的问题,本文提出一种基于标签路径等多特征和文本块密度的正文提取方法.首先根据文本块密度特征确定正文区域,然后在区域内使用标签路径等特征剔去噪音节点,最后抽取该文本块中的正文节点内容.该方法有效解决了网页正文块中噪声信息难以过滤和标签路径等特征易对正文部分外较长文本误抽取的问题,且无须训练和人工处理.从知名网站上随机选取新闻网页数据集进行实验,验证了该方法在不同数据源上都具有很好的适用性,抽取精确度优于CETR、CETD等方法.
关键词
正文抽取
文本块
标签路径
文本
密度
Keywords
content extraction
text block
tag path
text density
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
VC插入汉字文本块的编程方法
4
作者
邹雪峰
张翔
刘琳琳
机构
油气资源与勘探技术教育部重点实验室(长江大学)长江大学地球物理与石油资源学院
辽河油田曙光技术处作业一大队
出处
《长江大学学报(自科版)(上旬)》
CAS
2012年第12期102-104,共3页
文摘
一般的绘图软件如Surfer、Graph等只支持英文和数字的文本输出,给图形资料解释说明带来不方便。采用VC编程实现了对汉字文本块输出,并设计了相应的独立文本类CText,对汉字双字节作了校正处理,杜绝了断字和乱码的出现。同时,该类实现了位置、颜色、大小等属性设置功能,在实际的矢量绘图软件中,应用效果良好。
关键词
文本
框
文本块
矢量绘图
字符串绘制
鼠标交互
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于语料库的大学生英语写作中的文本导向词块研究
5
作者
吕茂丽
魏晓莲
机构
山东科技大学外国语学院
出处
《英语广场(学术研究)》
2023年第26期58-62,共5页
基金
校级教育教学研究“群星计划”项目:新文科背景下“三提升、四协同”深度融合信息技术的大学英语教学研究与实践(编号:QX2021ZD14)
山东省本科高校教学改革研究项目:“三提升、四协同”深度融合智能技术的大学英语教学研究和实践(编号:M2021026)。
文摘
为探究大学生在英语写作中所使用文本导向词块的特征,本文借助中国学生万篇英语作文语料库(TECCL)和语料分析工具AntConc4.1.2对6869篇大学生英语作文进行统计,聚焦分析其中四词和五词文本导向词块的结构特征和功能特征。结果发现,在结构特征上,介词结构是使用频率最高的结构类型,而名词结构和动词结构明显使用频率不高,且文本导向词块的使用表现出核心词匮乏的情况;在功能特征上,文本导向词块实施了附加、因果和引用等语篇功能和逻辑关系,但存在误用、文本衔接不紧密和连贯性不足等问题。此结果产生的原因一方面是大学生对特定词块的过度依赖,另一方面是大学生对文本导向词块功能和用法掌握不当。此研究对大学英语学习者和英语写作教学有一定的启示意义。
关键词
文本
导向词
块
大学生英语写作
语料库
分类号
H0-0 [语言文字—语言学]
下载PDF
职称材料
题名
篇章级并列关系文本块识别方法研究
被引量:
1
6
作者
裴晶晶
乐小虬
机构
中国科学院文献情报中心
中国科学院大学经济与管理学院图书情报与档案管理系
出处
《数据分析与知识发现》
CSSCI
CSCD
北大核心
2019年第5期51-56,共6页
文摘
【目的】识别出科技论文中分布在不同段落、在语义及版面视觉上具有并列关系的文本块,捕捉并列关系文本特征,为并列关系知识对象识别提供预训练模型。【方法】以段落为处理单元,在字符向量和词向量的基础上附加版面视觉特征,对不同层级具有并列关系的文本进行多维特征表征,利用卷积神经网络(Convolutional Neural Networks, CNN)模型对标注数据进行文本分类训练,得到并列关系文本块识别模型。【结果】在人工标注的科技论文数据集上展开实验,对并列关系文本块分类准确率达96%,比基准模型高出约3%,召回率高出约2%。【局限】仅适用于HTML网页文本数据,对于其他格式的文本数据还有待进一步研究和实验。【结论】以段落为处理单元,综合多种特征后利用卷积神经网络模型能够高效识别篇章级并列关系文本块,可以作为并列关系知识对象识别预训练模型。
关键词
并列关系
文本
表示
文本块
深度学习
Keywords
Coordinate Relationship
Text Representation
Text Block
Deep Learning
分类号
G250.76 [文化科学—图书馆学]
原文传递
题名
文本语块识别典型方法的比较与分析
被引量:
2
7
作者
梁颖红
曹军
机构
苏州市职业大学计算机学院
东北林业大学机电工程学院
出处
《计算机技术与发展》
2008年第11期76-79,共4页
基金
国家自然科学基金(60575041)
哈尔滨市青年科学基金(2005AFQXJ020)
2007年黑龙江省博士后基金(520-415029)
文摘
文本语块识别在自然语言处理领域具有重要作用。以WINNOW、支持向量机和感知器三种典型的语块识别方法为对象,从模型和特征两方面对每种方法进行了剖析,并比较和分析了三种方法与隐马尔科夫模型的优缺点,指出如果为了避免数据稀疏而只采用"词性"特征来识别多种语块,那些对于"词"敏感的短语准确率将会很低。因此针对不同的语块采用不同的特征和策略,不同短语的识别相互借鉴,把不同语块的识别集成在一起,将会起到很好的效果。
关键词
文本
语
块
识别
支持向量机
感知器
WINNOW
隐马尔科夫模型
Keywords
text chunking
SVM
perceptron
WINNOW
hidden Markov model
分类号
TP391.43 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于文本布局块距离度量的文档图像检索
8
作者
王牡丹
邬春学
机构
上海理工大学光电信息与计算机工程学院
出处
《电子科技》
2017年第9期46-49,共4页
基金
国家自然科学基金(61202376)
上海市教育基金会晨光计划基金(10CG49)
文摘
针对现有基于图像文档转换为文本后进行文档检索的方法,无法满足当今超大量数字图像库的处理场景。文中提出一种基于文本布局块的文档图像检索方法。根据文本布局块之间的距离特征,定义了新的距离函数,利用新的距离函数计算得到文本布局块之间的距离矩阵,并结合匈牙利算法求出文档图像的最佳匹配结果。通过大量实验证明,所提方法能够有效地提高图像文档检索准确度,并且能保证78.2%的正确率。
关键词
图像文档检索
文档图像分割
文本
布局
块
距离函数
匈牙利算法
Keywords
image document retrieval
document image segmentation
text layout block
distance function
Hungarian algorithm
分类号
TN911.73 [电子电信—通信与信息系统]
TP391.41 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
信息化教学资源中的文本信息设计
9
作者
张国强
机构
河北师范大学信息技术学院
出处
《教育实践与研究(小学版)(A)》
2008年第6期23-25,共3页
基金
河北省教育科学研究"十一五"规划课题"中小学信息化教育资源开发的界面设计研究"(课题编号:06130036)阶段研究成果之一
文摘
文本是教学网页中最基本的设计元素,为了满足易认、易懂、易读的需要,网络教学资源开发者需要根据教学信息的内容特征,认真设计文本信息的字体、大小和颜色。另外,为了提高文本信息的易读性,需要强化文本信息的结构特征,以文本块方式组织文本信息。
关键词
教学网页
文本
文本块
分类号
G434 [文化科学—教育技术学]
下载PDF
职称材料
题名
基于标签路径覆盖率和多文本特征的正文抽取算法
10
作者
郑野
宋旭东
于林林
陈鑫影
机构
大连交通大学软件学院
大连科技学院数字技术学院
出处
《大连交通大学学报》
CAS
2019年第5期112-116,共5页
基金
辽宁省自然科学基金资助项目(1553735707452,20170540144)
文摘
如何正确识别网页中存在的网页评论、导航、版权声明等噪音数据,提高网页抽取正文的准确度,提出了一种结合多种文本特征的正文抽取算法(CETD-TPF).在文本块密度和标签路径覆盖率的基础之上又融合了文本符号特征,利用新特征确定并抽取正文文本块.此方法有效的解决了网页正文短文本难以抽取的问题,且无需人工训练和处理.在对各大知名新闻网站随机选取的数据集进行实验表明,CETD-TPF方法在不同数据源上的适用性较好,正文抽取精度好于CETR、CETD算法.
关键词
文本块
密度
标签路径覆盖率
正文抽取
Keywords
text block density
label path coverage
text extraction
分类号
TP3 [自动化与计算机技术—计算机科学与技术]
下载PDF
职称材料
题名
基于文字混合特征的视频文本定位研究
11
作者
赵超
方向忠
机构
上海交通大学图像通信与信息处理研究所
上海市数字媒体处理与传输重点实验室
出处
《微计算机信息》
2009年第18期161-162,176,共3页
文摘
针对视频中文本信息在视频序列和视频索引中的重要性,本文提出了一种基于文字混合特征的文本定位算法。该算法首先对视频序列中每隔25帧的单帧图像进行边缘检测和投影处理来提取文本块,然后用支持向量基进行筛选,排除非文本块的干扰,最后利用视频序列中相邻帧之间的相关性来搜索剩余帧中的文本块。本文的算法在提高检测速度的同时保证了较高的检测准确度。
关键词
文本块
支持向量基
视频序列
Keywords
text block
support vector mechanic
video stream
分类号
TP753 [自动化与计算机技术—检测技术与自动化装置]
下载PDF
职称材料
题名
Web页面清洗技术的研究与实现
被引量:
20
12
作者
周源远
王继成
郑刚
张福炎
机构
南京大学软件新技术国家重点实验室
出处
《计算机工程》
CAS
CSCD
北大核心
2002年第9期48-50,197,共4页
基金
国家自然科学基金项目"Web"信息过滤的智能化方法与协"Web作技术研究(60073030)
富士通研究所清洗技术项目
文摘
文章提出了Web页面清洗的概念,给出了一种基于规则的Web页面清洗方案,并实现了基于此方案的系统。文中的页面清洗建立在Web页面的DOM树结构上,并通过人工判定的方法进行了实验和评估。实验结果表明该方案切实可行、清洗方法具有较快的速度和准确性。
关键词
WEB页面
清洗技术
文本块
链接
块
DOM
解析器
Internet
信息检索
Keywords
Web page cleaning
Text block
Link block
DOM
Parser
分类号
TP393.4 [自动化与计算机技术—计算机应用技术]
G354.4 [文化科学—情报学]
下载PDF
职称材料
题名
基于文档指纹的中文复制检测方法
被引量:
7
13
作者
麻会东
刘国华
李现伟
刘春辉
机构
燕山大学信息科学与工程学院
出处
《广西师范大学学报(自然科学版)》
CAS
北大核心
2007年第4期112-115,共4页
基金
教育部科学技术研究基金重点项目(205014)
文摘
文档复制检测技术是保护知识产权和提高信息检索效率的有效有段。目前,关于英文的复制检测技术已经趋向成熟,但关于中文的复制检测技术才刚刚起步。在此提出基于文档指纹的中文复制检测方法,改进了正向最大匹配分词方法并建立了相应的语料库机制,提出k-words分解句子的方法;定义了两篇文档同粒度指纹矩阵之间的匹配运算。实验结果表明,所提出的方法能高效地进行中文文档复制检测。
关键词
指纹
剽窃
文本块
匹配
Keywords
fingerprint
plagiarism
chunk
match
分类号
TP309 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于提取关键词的中文文档复制检测研究
被引量:
6
14
作者
麻会东
刘国华
李旭
梁鹏
刘春辉
张凌宇
机构
燕山大学信息科学与工程学院
出处
《计算机工程与科学》
CSCD
2007年第10期63-64,88,共3页
文摘
文档复制检测技术在保护知识产权和信息索引中起重要作用,它可以防止剽窃事件的发生,提高互联网检索效率。目前,英文复制检测技术已经比较成熟,但中文复制检测技术研究还处于起步阶段。本文提出一种基于关键词的指纹提取方法;提出k-words方法分解句子;定义了数字指纹树概念,并用数字指纹树来存储指纹。最后,用实验验证了所提出的方法。
关键词
指纹
剽窃
文本块
匹配
Keywords
fingerprint
plagiarism
chunk
match
分类号
TP309 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
文档复制检测技术
被引量:
1
15
作者
麻会东
刘国华
梁鹏
苑迎
机构
燕山大学信息科学与工程学院
出处
《燕山大学学报》
CAS
2007年第5期410-417,共8页
基金
教育部科学技术研究重点资助项目(No.205014)
河北省教育厅自然科学基金(No.2005102)
文摘
随着数字图书馆和互联网的飞速发展,数字化文档唾手可得。近年来学术剽窃现象屡见报端,互联网上日益增多的重复网页降低了检索效率,给用户带来不便。文档复制检测技术在保护知识产权和优化搜索引擎方面起着重要作用,是近年来数据库安全领域研究的热点。文档复制检测方法有两类:一是基于词频统计的方法,一是基于字符串匹配的方法。本文详尽分析了现有基于这两类方法的复制检测技术,并指出它们的优缺点,针对两类方法都存在的问题提出一些改进方案。最后总结了复制检测技术应满足的特性,讨论了检测方法的准确性和文档分解规则。
关键词
复制检测
剽窃
指纹
文本块
匹配
Keywords
copy detection
plagiarism
fingerprint
chunk
match
分类号
TP309 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
文档抄袭检测研究
16
作者
张超
侯青青
陶宏敏
李俊杰
邹威
机构
华中科技大学文华学院
出处
《消费电子》
2013年第4期34-35,共2页
文摘
针对作业抄袭现象,建议教师使用作业抄袭检测系统,分析了各种文档抄袭检测系统和文档特征提取方式,研究并提出了基于句子相似度语句定位的作业抄袭检测。
关键词
文档抄袭
特征提取
文本块
分类号
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于特征和HMM的信息提取
被引量:
2
17
作者
纪祥
刘华虓
吴芬芬
刘磊
机构
吉林大学计算机科学与技术院
出处
《吉林大学学报(信息科学版)》
CAS
2009年第4期396-399,共4页
基金
中国高等教育博士研究基金资助项目(20060183044)
文摘
为了解决在信息提取中,召回率和精度都不高的问题,提出了改进的HMM(Hidden Markov Models)模型,该模型采用一种新的文本分块技术。通过文本的语义特征和结构特征,抽取具有特征的状态,并在此基础上,抽取剩余的无特征的状态改进HMM,测试了由卡耐基梅隆大学数据搜索引擎研究小组所提供的100篇计算机科学文件头部。结果表明,与基于字词和传统的HMM方法相比,召回率和精确率分别达到了91.99%和94.79%。
关键词
文本块
特征提取
机器学习
HMM模型
Keywords
text block
characterextraction
machine learning
hidden markov models (HMM)
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
电脑平面设计及印前图文处理问答(二十四)
18
作者
刘武辉
机构
武汉大学印刷与包装系
出处
《广东印刷》
2007年第6期13-15,共3页
文摘
如何断开链接文本块之间的链接关系? 答:想断开文本对象之间的链接,可将链接框拖动到页面任一空白位置即可。
关键词
电脑平面设计
图文处理
印前
文本
对象
链接
文本块
断开
分类号
TS803 [轻工技术与工程]
下载PDF
职称材料
题名
跟我学用Flash MX(二)
19
作者
王毅
出处
《软件世界(PC任我行)》
2002年第10期74-77,共4页
关键词
FLASHMX
动画制作软件
动态
文本
输入
文本
文本块
分类号
TP317.4 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
用搜狗输入法造词
20
作者
南湖秋水
出处
《网友世界》
2009年第19期24-24,共1页
文摘
有时经常要在文档中输入包含几个段落的长文本块.例如对外信函中要留下你的联系方式(包括姓名、工作单位、邮编.电话、Emall等信息),而一般的手工造词方式不支持这种包含几个段落的造词,不过搜狗的拼音或五笔输入法的。自定义短语设置”可以满足这种特殊要求,从而达到简化输入这种长文本块的目的,以下以搜狗拼音为例(搜狗五笔方法雷同)。
关键词
五笔输入法
狗
联系方式
工作单位
文本块
自定义
拼音
文档
分类号
TP391.14 [自动化与计算机技术—计算机应用技术]
S829.2 [农业科学—畜牧学]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于文本块密度和标签路径覆盖率的网页正文抽取
刘鹏程
胡骏
吴共庆
《计算机应用研究》
CSCD
北大核心
2018
5
下载PDF
职称材料
2
视图中插入文本块的编程方法
李霞
《广州大学学报(自然科学版)》
CAS
2002
1
下载PDF
职称材料
3
基于文本块密度与标签路径等特征的正文提取
杨贤
唐超兰
李航
《广东工业大学学报》
CAS
2018
1
下载PDF
职称材料
4
VC插入汉字文本块的编程方法
邹雪峰
张翔
刘琳琳
《长江大学学报(自科版)(上旬)》
CAS
2012
0
下载PDF
职称材料
5
基于语料库的大学生英语写作中的文本导向词块研究
吕茂丽
魏晓莲
《英语广场(学术研究)》
2023
0
下载PDF
职称材料
6
篇章级并列关系文本块识别方法研究
裴晶晶
乐小虬
《数据分析与知识发现》
CSSCI
CSCD
北大核心
2019
1
原文传递
7
文本语块识别典型方法的比较与分析
梁颖红
曹军
《计算机技术与发展》
2008
2
下载PDF
职称材料
8
基于文本布局块距离度量的文档图像检索
王牡丹
邬春学
《电子科技》
2017
0
下载PDF
职称材料
9
信息化教学资源中的文本信息设计
张国强
《教育实践与研究(小学版)(A)》
2008
0
下载PDF
职称材料
10
基于标签路径覆盖率和多文本特征的正文抽取算法
郑野
宋旭东
于林林
陈鑫影
《大连交通大学学报》
CAS
2019
0
下载PDF
职称材料
11
基于文字混合特征的视频文本定位研究
赵超
方向忠
《微计算机信息》
2009
0
下载PDF
职称材料
12
Web页面清洗技术的研究与实现
周源远
王继成
郑刚
张福炎
《计算机工程》
CAS
CSCD
北大核心
2002
20
下载PDF
职称材料
13
基于文档指纹的中文复制检测方法
麻会东
刘国华
李现伟
刘春辉
《广西师范大学学报(自然科学版)》
CAS
北大核心
2007
7
下载PDF
职称材料
14
基于提取关键词的中文文档复制检测研究
麻会东
刘国华
李旭
梁鹏
刘春辉
张凌宇
《计算机工程与科学》
CSCD
2007
6
下载PDF
职称材料
15
文档复制检测技术
麻会东
刘国华
梁鹏
苑迎
《燕山大学学报》
CAS
2007
1
下载PDF
职称材料
16
文档抄袭检测研究
张超
侯青青
陶宏敏
李俊杰
邹威
《消费电子》
2013
0
下载PDF
职称材料
17
基于特征和HMM的信息提取
纪祥
刘华虓
吴芬芬
刘磊
《吉林大学学报(信息科学版)》
CAS
2009
2
下载PDF
职称材料
18
电脑平面设计及印前图文处理问答(二十四)
刘武辉
《广东印刷》
2007
0
下载PDF
职称材料
19
跟我学用Flash MX(二)
王毅
《软件世界(PC任我行)》
2002
0
下载PDF
职称材料
20
用搜狗输入法造词
南湖秋水
《网友世界》
2009
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
2
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部