期刊文献+
共找到26篇文章
< 1 2 >
每页显示 20 50 100
Mathematical Expression Extraction in Text Fields of Documents Based on HMM
1
作者 Xuedong Tian Ruihan Bai +2 位作者 Fang Yang Jinyuan Bai Xinfu Li 《Journal of Computer and Communications》 2017年第14期1-13,共13页
Aiming at the problem that the mathematical expressions in unstructured text fields of documents are hard to be extracted automatically, rapidly and effectively, a method based on Hidden Markov Model (HMM) is proposed... Aiming at the problem that the mathematical expressions in unstructured text fields of documents are hard to be extracted automatically, rapidly and effectively, a method based on Hidden Markov Model (HMM) is proposed. Firstly, this method trained the HMM model through employing the symbol combination features of mathematical expressions. Then, some preprocessing works such as removing labels and filtering words were carried out. Finally, the preprocessed text was converted into an observation sequence as the input of the HMM model to determine which is the mathematical expression and extracts it. The experimental results show that the proposed method can effectively extract the mathematical expressions from the text fields of documents, and also has the relatively high accuracy rate and recall rate. 展开更多
关键词 mathematical Expression extraction Hidden MARKOV Model text FIELDS DOCUMENTS SYMBOL Combination Features
下载PDF
Postscript格式科技文献中数学表达式的提取方法 被引量:4
2
作者 张志伟 孔凡让 吴欣 《计算机应用与软件》 CSCD 北大核心 2008年第11期157-159,162,共4页
从Postscript格式的科技文献中提取识别数学表达式,是数学表达式识别领域的一个新的研究方向。主要针对以Word和Latex为生成源的PS文档,提出了基于内容的数学表达式提取方法。首先重载了PS语言中的一些相关命令,以提取PS文档中的字符与... 从Postscript格式的科技文献中提取识别数学表达式,是数学表达式识别领域的一个新的研究方向。主要针对以Word和Latex为生成源的PS文档,提出了基于内容的数学表达式提取方法。首先重载了PS语言中的一些相关命令,以提取PS文档中的字符与线段信息;之后根据字符名称、字体、位置等信息对字符进行分析,同时连接线段并加以识别,从而提取出数学符号;最后,根据符号问的空间位置关系和启发式规则,将数学符号归并,提取出最终的表达式。实验结果表明该方法正确率达到98.56%。 展开更多
关键词 数学表达式提取 postscript 文本抽取
下载PDF
从Postscript格式文献中提取数学公式的方法
3
作者 张志伟 孔凡让 柴华 《数据采集与处理》 CSCD 北大核心 2008年第4期454-458,共5页
从Postscript格式文献中提取识别数学公式,是数学公式识别领域的一个新的研究方向。主要针对以Word和Latex为生成源的Postscript文档,提出了基于内容的数学公式提取方法。首先重载了Postscript语言中的一些相关命令,先后提取出Postscrip... 从Postscript格式文献中提取识别数学公式,是数学公式识别领域的一个新的研究方向。主要针对以Word和Latex为生成源的Postscript文档,提出了基于内容的数学公式提取方法。首先重载了Postscript语言中的一些相关命令,先后提取出Postscript文档中的字符及由线段连接得到的图形。然后根据字符名称、字体信息、位置信息对字符进行判断分析,提取出其中的数学符号;对提取出的图形,进行编码以识别出其对应的数学符号。最后,根据得到的数学符号之间的空间位置关系,借助启发式规则,将数学符号合并,提取出完整的数学公式。实验结果表明,该方法数学符号识别的正确率达到99.3%。 展开更多
关键词 数学公式提取 postscript 启发式规则
下载PDF
社交媒体视角下快递服务质量的消费者需求解构
4
作者 柳虎威 《北京经济管理职业学院学报》 2024年第3期41-48,共8页
快递服务质量评价是提升消费者满意度和忠诚度的重要举措。本文采用网络文本挖掘的方法,以新浪微博中的5000条快递服务评论为研究对象,运用反向鱼骨图法和用户需求树模型对快递服务评价的功能进行分析,并选用TF-IDF和Word2Vec两种模型... 快递服务质量评价是提升消费者满意度和忠诚度的重要举措。本文采用网络文本挖掘的方法,以新浪微博中的5000条快递服务评论为研究对象,运用反向鱼骨图法和用户需求树模型对快递服务评价的功能进行分析,并选用TF-IDF和Word2Vec两种模型提取高频词及其相关词,从基本服务、预约收发服务、价格服务、信息服务和售后服务五个维度,通过可视化方式展现消费者对快递服务的需求和关注点。研究发现,消费者对快递服务的核心需求体现在配送时效、服务便捷性、个性化定制、信息交互性和投诉处理效率等方面,快递企业需要全面提升服务水平,加强信息化和智能化建设,优化服务流程,为消费者提供高品质、高体验的快递服务。本文为快递企业改进服务质量、提升消费者满意度提供了新的思路和方法。 展开更多
关键词 快递服务质量 网络文本挖掘 需求分析 关键词提取 可视化
下载PDF
基于Python语言的电缆清册编制工具的实现
5
作者 张鹏 《电工技术》 2024年第1期73-75,共3页
针对传统电缆清册编制方法费时费力、容易出错的问题,利用Python语言开发出电缆清册编制工具。该工具利用正则表达式从端子排图中提取电缆文本,并生成电缆清册。反过来,该工具能读取电缆清册,在端子排图中自动标注。与传统方法相比,该... 针对传统电缆清册编制方法费时费力、容易出错的问题,利用Python语言开发出电缆清册编制工具。该工具利用正则表达式从端子排图中提取电缆文本,并生成电缆清册。反过来,该工具能读取电缆清册,在端子排图中自动标注。与传统方法相比,该工具不仅节省了工程师的设计时间,还能有效降低人为错误的出现,从而提高工作效率。 展开更多
关键词 电缆清册 端子排图 文本提取 正则表达式
下载PDF
A New Method to Extract Text from Natural Scenes
6
作者 郝峻晟 戚飞虎 +1 位作者 朱凯华 蒋人杰 《Journal of Donghua University(English Edition)》 EI CAS 2005年第4期52-57,共6页
This paper presents a new method for text detection, location and binarization from natural scenes. Several morphological steps are used to detect the general position of the text, including English, Chinese and Japan... This paper presents a new method for text detection, location and binarization from natural scenes. Several morphological steps are used to detect the general position of the text, including English, Chinese and Japanese characters. Next bonnding boxes are processed by a new “Expand, Break and Merge” (EBM) method to get the precise text areas. Finally, text is binarized by a hybrid method based on Otsu and Niblack. This new approach can extract different kinds of text from complicated natural scenes. It is insensitive to noise, distortedness, and text orientation. It also has good performance on extracting texts in various sizes. 展开更多
关键词 text extraction mathematical morphology bounding boxes binarization
下载PDF
语义空间下基于情感表达的生成式文本隐写方法
7
作者 刘玉玲 王翠林 付章杰 《通信学报》 EI CSCD 北大核心 2023年第4期176-186,共11页
针对现有生成式文本隐写方法存在的“过度优化”文本质量以及生成的隐写文本在语义表达上缺乏约束等问题,提出了一种在语义空间下基于情感表达的生成式文本隐写方法。该方法利用新媒体平台提供的情景融合的伪装场景,研究如何利用无监督... 针对现有生成式文本隐写方法存在的“过度优化”文本质量以及生成的隐写文本在语义表达上缺乏约束等问题,提出了一种在语义空间下基于情感表达的生成式文本隐写方法。该方法利用新媒体平台提供的情景融合的伪装场景,研究如何利用无监督抽取模型从原始数据集中抽取情感表达组合候选集合,并基于改进的二部图排序算法对情感表达组合候选集合进行排序,得到情感表达组合集合;然后将其映射到语义空间,实现基于情感表达组合生成用户观点的同时嵌入秘密信息。实验结果表明,与同类语义空间下生成式文本隐写方法相比,所提方法生成的含密商品评论的困惑度最低可达10.536,且含密商品评论与主题具有较强相关性,进一步保证了隐写文本的认知隐蔽性,同时所提方法还可有效地用于安全保密通信领域,能够避免发送方被追踪溯源和关联分析。 展开更多
关键词 生成式文本隐写 语义空间 无监督抽取模型 情感表达
下载PDF
汉字数学表达式的自动生成 被引量:16
8
作者 张问银 孙星明 +1 位作者 曾振柄 吴尽昭 《计算机研究与发展》 EI CSCD 北大核心 2004年第5期848-852,共5页
汉字的数学表达式是一种全新的汉字表示方法 通过对汉字部件特征的深入分析 ,利用图像处理技术对汉字数学表达式的自动生成做了探讨 选取了大约 5 0 0个基本汉字部件 ,提取了各部件的连通数、亏格数、端点数、折点数、连接点数、交叉点... 汉字的数学表达式是一种全新的汉字表示方法 通过对汉字部件特征的深入分析 ,利用图像处理技术对汉字数学表达式的自动生成做了探讨 选取了大约 5 0 0个基本汉字部件 ,提取了各部件的连通数、亏格数、端点数、折点数、连接点数、交叉点数以及NMI,HNMI ,VNMI值作为汉字部件的基本特征 ;并通过汉字连通区域的分割与合并进行汉字部件的划分和识别 ;最后 ,通过汉字结构的识别得到了汉字的数学表达式 实验中 ,汉字表达式自动生成的正确率为 92 % 这将在排版印刷、广告及包装设计。 展开更多
关键词 汉字 数学表达式 特征提取 部件识别
下载PDF
中文文本中时间信息解析方法 被引量:17
9
作者 张春菊 张雪英 +1 位作者 李明 王曙 《地理与地理信息科学》 CSCD 北大核心 2014年第6期1-6,F0002,共7页
探讨了基于触发词汇和规则模型相结合的中文文本中时间信息解析方法。通过分析、归纳中文文本中时间信息描述特点,构建时间词汇词典和时间信息描述模式库,设计时间信息抽取、规范化表达和语义推理算法,实现了中文文本中时间信息的解析... 探讨了基于触发词汇和规则模型相结合的中文文本中时间信息解析方法。通过分析、归纳中文文本中时间信息描述特点,构建时间词汇词典和时间信息描述模式库,设计时间信息抽取、规范化表达和语义推理算法,实现了中文文本中时间信息的解析。实验结果表明,中文文本中时间信息抽取的准确率、召回率和F1值分别为75.00%、88.24%和40.54%,为泛在时空信息动态关联更新和实时挖掘分析提供数据源,且通过与空间维数据有机地、交互地组织,能够实时展现地理现象和事物的时空演化过程、时空分布特征,从而推动地理信息检索、LBS等地理信息服务向动态化、多维化方向发展。 展开更多
关键词 时间信息抽取 时间词汇词典 规范化表达 时间推理 中文文本
下载PDF
基于改进Hough变换的符号线段特征提取 被引量:11
10
作者 陈洪波 王强 +1 位作者 徐晓蓉 张超英 《光学精密工程》 EI CAS CSCD 2003年第6期632-636,共5页
研究了数学表达式识别中符号线段特征的提取问题。为正确提取符号的线段特征及其一些相关属性,提高识别系统的符号识别率,对Hough变换的局限性进行了分析,并作了一些改进,改进算法在原算法的基础上增加了线段的连续性的检测以及相关属... 研究了数学表达式识别中符号线段特征的提取问题。为正确提取符号的线段特征及其一些相关属性,提高识别系统的符号识别率,对Hough变换的局限性进行了分析,并作了一些改进,改进算法在原算法的基础上增加了线段的连续性的检测以及相关属性的提取,如线段数目、方向(角度)以及始末端点等。实验证明,该算法能有效地提取出符号线段及其一些属性,可应用于其他识别系统的符号特征提取。 展开更多
关键词 数学表达式识别 HOUGH变换 线段检测 特征提取
下载PDF
中文科技文档中的数学表达式定位 被引量:4
11
作者 张志伟 孔凡让 +2 位作者 刘维来 龙潜 刘永斌 《中文信息学报》 CSCD 北大核心 2007年第4期86-91,共6页
数学表达式定位是印刷体数学表达式识别的前提。针对中文科技文档,分别对独立表达式和内嵌表达式的定位问题提出了新的方法。采用自适应神经模糊推理系统(ANFIS)对行特征进行分类,提取出独立表达式;采用模糊聚类和动态规划方法,从文档... 数学表达式定位是印刷体数学表达式识别的前提。针对中文科技文档,分别对独立表达式和内嵌表达式的定位问题提出了新的方法。采用自适应神经模糊推理系统(ANFIS)对行特征进行分类,提取出独立表达式;采用模糊聚类和动态规划方法,从文档中依次提取出汉字、中文标点和英文字符,利用启发式规则合并剩余的数学符号而提取出内嵌表达式。实验表明,提出的表达式定位方法有很高的正确率。 展开更多
关键词 人工智能 模式识别 数学表达式定位 自适应神经模糊推理系统 模糊聚类 中英文分离
下载PDF
中文文本中时间信息抽取及规范化方法 被引量:9
12
作者 宋国民 张三强 +1 位作者 贾奋励 姜松言 《测绘科学技术学报》 北大核心 2019年第5期538-544,共7页
时间信息抽取和规范化表达在时空泛在信息处理、关联、聚合和内容服务中具有重要作用。设计并实现了一种基于规则的时间信息抽取和规范化表达的方法。首先,结合中文文本中时间信息描述的特点,定义了基本时间单元和派生时间单元,并由时... 时间信息抽取和规范化表达在时空泛在信息处理、关联、聚合和内容服务中具有重要作用。设计并实现了一种基于规则的时间信息抽取和规范化表达的方法。首先,结合中文文本中时间信息描述的特点,定义了基本时间单元和派生时间单元,并由时间单元组合形成不同的时间表达式;然后,构建了时间词汇词典和时间表达式抽取的正则表达式模板;最后,设计了时间推理和计算的方法,实现了时间信息的规范化表达。基于中文文本语料进行了时间信息抽取测试。实验结果表明,本文方法具有较好的时间信息抽取效果。 展开更多
关键词 中文文本 时间 信息抽取 规范化 时间表达式 正则表达式 时间推理
下载PDF
有效的场景文本提取算法 被引量:4
13
作者 何兴恒 胡德婷 《计算机工程与设计》 CSCD 北大核心 2008年第10期2598-2599,2603,共3页
自然场景图像中的文本提供了重要的语意信息,它是图像内容的重要来源。针对当前的求解算法普遍存在提取文本精确度不高等缺点,提出了一种文本定位准确的文本提取算法。先将原始图片进行金字塔分解,然后进行彩色图像边缘提取和二值化,再... 自然场景图像中的文本提供了重要的语意信息,它是图像内容的重要来源。针对当前的求解算法普遍存在提取文本精确度不高等缺点,提出了一种文本定位准确的文本提取算法。先将原始图片进行金字塔分解,然后进行彩色图像边缘提取和二值化,再形态学文本定位,最后文本区域字符提取。对ICDAR数据库图片的测试结果表明,该方法对文字颜色、大小字体以及排列方向具有较强的鲁棒性,同时也具有较高的精确度和提取率。 展开更多
关键词 文本提取 金字塔分解 边缘检测 二值化 数学形态学
下载PDF
基于多方法融合的文本定位算法的研究 被引量:4
14
作者 潘道远 宋顺林 《计算机应用与软件》 CSCD 2010年第6期236-238,255,共4页
针对自然场景中标志文本提出一种文本定位算法。在彩色图像边缘提取的基础上,利用形态学文本定位获得备选文本区域,再用神经网络对备选文本区域进行分类,最后提取文本区域文字。该算法既考虑文本的形状边缘信息,又考虑文本的颜色信息,... 针对自然场景中标志文本提出一种文本定位算法。在彩色图像边缘提取的基础上,利用形态学文本定位获得备选文本区域,再用神经网络对备选文本区域进行分类,最后提取文本区域文字。该算法既考虑文本的形状边缘信息,又考虑文本的颜色信息,充分利用基于边缘的方法和基于神经网络学习的方法的优点。实验结果表明,提出的文本定位算法具有较高的准确率。 展开更多
关键词 文本定位 边缘提取 数学形态学 神经网络
下载PDF
小波域内背景图像的文本信息提取研究 被引量:2
15
作者 张晓威 郑雄波 郭健 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2008年第3期314-318,共5页
提出了一种基于二维小波分解的背景图像文本提取算法.该算法首先对图像进行二维小波变换,设置滑动窗扫描高频子带,计算滑动窗内图像的小波纹理特征,采用k-均值聚类算法将图像分为文本区域、简单背景区域和复杂背景区域,最后对文本区域... 提出了一种基于二维小波分解的背景图像文本提取算法.该算法首先对图像进行二维小波变换,设置滑动窗扫描高频子带,计算滑动窗内图像的小波纹理特征,采用k-均值聚类算法将图像分为文本区域、简单背景区域和复杂背景区域,最后对文本区域进行形态运算,精确地定位文本区域.实验结果表明,该算法能够准确地从背景图像中提取出不同语种、字体、大小和排列方式的文本信息. 展开更多
关键词 小波变换 文本提取 K-均值聚类 纹理特征 数学形态学
下载PDF
基于Ontology扩展查询的数学表达式检索模型 被引量:2
16
作者 李新福 徐筱 田学东 《计算机工程》 CAS CSCD 北大核心 2018年第5期155-161,共7页
针对现有数学表达式检索系统中待检索表达式与目标文档之间的语义关联问题,在使用序列化特征提取方法解析La Te X表达式的基础上,提出一种基于Ontology的数学表达式检索方法。运用Ontology建立数学表达式及其概念之间的联系并构建数学... 针对现有数学表达式检索系统中待检索表达式与目标文档之间的语义关联问题,在使用序列化特征提取方法解析La Te X表达式的基础上,提出一种基于Ontology的数学表达式检索方法。运用Ontology建立数学表达式及其概念之间的联系并构建数学表达式语义本体库,以达到输入关键词、概念、短语和数学名词可检索数学表达式语义相关文献的目的。实验结果表明,基于Ontology的数学表达式检索方法运用本体概念扩展查询结果集,使得查全率、查准率和扩展率均有一定程度提高。 展开更多
关键词 数学表达式检索 语义 序列化特征提取 本体 查询扩展
下载PDF
领域内文本褒贬倾向性分类中的特征提取技术 被引量:2
17
作者 熊德兰 柴玉梅 《微计算机信息》 北大核心 2006年第12X期263-264,289,共3页
本文介绍了文本褒贬倾向性分类的方法和技术,重点论述了文本的表示方法和褒贬特征抽取的方法,提出了基于MI特征提取方法的改进办法。实验结果表明,这种改进有利于褒贬特征的抽取,从而提高了分类的精度。
关键词 文本倾向性分类 文本表示 特征提取 向量空间模型
下载PDF
视频图像内文字的自动提取新方法 被引量:5
18
作者 季丽琴 王加俊 《苏州大学学报(自然科学版)》 CAS 2006年第2期43-47,共5页
提出了一种基于彩色边缘检测、形态学和逻辑与运算的视频文字提取方法,首先,分别运用垂直、水平、对角三个方向的彩色边缘检测算子提取出原图的边缘图像,然后分别对上述三幅边缘图像进行数学形态学运算,得到三幅不同方向的连通域图。最... 提出了一种基于彩色边缘检测、形态学和逻辑与运算的视频文字提取方法,首先,分别运用垂直、水平、对角三个方向的彩色边缘检测算子提取出原图的边缘图像,然后分别对上述三幅边缘图像进行数学形态学运算,得到三幅不同方向的连通域图。最后,将这三幅连通域图相与,消除无用的信息,得到最终的文字区域。实验证明,该方法具有高的文字提取率和好的鲁棒性。 展开更多
关键词 彩色边缘检测 数学形态学 文字提取
下载PDF
对“如积释锁”的探讨 被引量:2
19
作者 李迪 《内蒙古师范大学学报(自然科学汉文版)》 CAS 2001年第2期167-173,共7页
对中国宋元间出现的“如积释锁”进行了探讨 .分为 3部分 :对“释锁”的理解 ;对“如积”的理解 ;关于《如积释锁》与元裕细草问题 .重点是对《如积释锁》这本书的研究以及对元裕细草可能形式的探讨 .
关键词 释锁 如积 《如积释锁》 刘汝谐 元裕 数学著作 中国数学史
下载PDF
面向微博热点事件的话题检测及表述方法研究 被引量:15
20
作者 周炜翔 张仰森 张良 《计算机应用研究》 CSCD 北大核心 2019年第12期3565-3569,3578,共6页
针对微博文本数据稀疏导致热点话题难以检测的问题,提出了一种基于IDLDA-ITextRank的话题检测模型。首先,通过引入微博时间序列特征和词频特征,构建了IDLDA话题文本聚类模型,利用该模型将同一话题的文本聚到一个文本集合TS;然后,通过采... 针对微博文本数据稀疏导致热点话题难以检测的问题,提出了一种基于IDLDA-ITextRank的话题检测模型。首先,通过引入微博时间序列特征和词频特征,构建了IDLDA话题文本聚类模型,利用该模型将同一话题的文本聚到一个文本集合TS;然后,通过采用编辑距离和字向量相结合的相似度计算方法,构建了ITextRank文本摘要和关键词抽取模型,对文本集合TS抽取摘要及其关键词;最后,利用词语互信息和左右信息熵将所抽取的关键词转换成关键主题短语,再将关键主题短语和摘要相结合对话题内容进行表述。通过实验表明,IDLDA模型相较于传统的BTM和LDA模型对话题文本的聚类效果更好,利用关键主题短语和摘要对微博的话题进行表述,比直接利用主题词进行话题表述具有更好的可理解性。 展开更多
关键词 文本聚类 IDLDA-ItextRank模型 话题抽取 话题表述
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部