期刊文献+
共找到116篇文章
< 1 2 6 >
每页显示 20 50 100
An Optimized Chinese Filtering Model Using Value Scale Extended Text Vector
1
作者 Siyu Lu Ligao Cai +5 位作者 Zhixin Liu Shan Liu Bo Yang Lirong Yin Mingzhe Liu Wenfeng Zheng 《Computer Systems Science & Engineering》 SCIE EI 2023年第11期1881-1899,共19页
With the development of Internet technology,the explosive growth of Internet information presentation has led to difficulty in filtering effective information.Finding a model with high accuracy for text classification... With the development of Internet technology,the explosive growth of Internet information presentation has led to difficulty in filtering effective information.Finding a model with high accuracy for text classification has become a critical problem to be solved by text filtering,especially for Chinese texts.This paper selected the manually calibrated Douban movie website comment data for research.First,a text filtering model based on the BP neural network has been built;Second,based on the Term Frequency-Inverse Document Frequency(TF-IDF)vector space model and the doc2vec method,the text word frequency vector and the text semantic vector were obtained respectively,and the text word frequency vector was linearly reduced by the Principal Component Analysis(PCA)method.Third,the text word frequency vector after dimensionality reduction and the text semantic vector were combined,add the text value degree,and the text synthesis vector was constructed.Experiments show that the model combined with text word frequency vector degree after dimensionality reduction,text semantic vector,and text value has reached the highest accuracy of 84.67%. 展开更多
关键词 Chinese text filtering text vector word frequency vectors text semantic vectors value degree BP neural network TF-IDF doc2vec PCA
下载PDF
Environmental complaint insights through text mining based on the driver,pressure,state,impact,and response(DPSIR)framework:Evidence from an Italian environmental agency
2
作者 Fabiana MANSERVISI Michele BANZI +5 位作者 Tomaso TONELLI Paolo VERONESI Susanna RICCI Damiano DISTANTE Stefano FARALLI Giuseppe BORTONE 《Regional Sustainability》 2023年第3期261-281,共21页
Individuals,local communities,environmental associations,private organizations,and public representatives and bodies may all be aggrieved by environmental problems concerning poor air quality,illegal waste disposal,wa... Individuals,local communities,environmental associations,private organizations,and public representatives and bodies may all be aggrieved by environmental problems concerning poor air quality,illegal waste disposal,water contamination,and general pollution.Environmental complaints represent the expressions of dissatisfaction with these issues.As the timeconsuming of managing a large number of complaints,text mining may be useful for automatically extracting information on stakeholder priorities and concerns.The paper used text mining and semantic network analysis to crawl relevant keywords about environmental complaints from two online complaint submission systems:online claim submission system of Regional Agency for Prevention,Environment and Energy(Arpae)(“Contact Arpae”);and Arpae's internal platform for environmental pollution(“Environmental incident reporting portal”)in the Emilia-Romagna Region,Italy.We evaluated the total of 2477 records and classified this information based on the claim topic(air pollution,water pollution,noise pollution,waste,odor,soil,weather-climate,sea-coast,and electromagnetic radiation)and geographical distribution.Then,this paper used natural language processing to extract keywords from the dataset,and classified keywords ranking higher in Term Frequency-Inverse Document Frequency(TF-IDF)based on the driver,pressure,state,impact,and response(DPSIR)framework.This study provided a systemic approach to understanding the interaction between people and environment in different geographical contexts and builds sustainable and healthy communities.The results showed that most complaints are from the public and associated with air pollution and odor.Factories(particularly foundries and ceramic industries)and farms are identified as the drivers of environmental issues.Citizen believed that environmental issues mainly affect human well-being.Moreover,the keywords of“odor”,“report”,“request”,“presence”,“municipality”,and“hours”were the most influential and meaningful concepts,as demonstrated by their high degree and betweenness centrality values.Keywords connecting odor(classified as impacts)and air pollution(classified as state)were the most important(such as“odor-burnt plastic”and“odor-acrid”).Complainants perceived odor annoyance as a primary environmental concern,possibly related to two main drivers:“odor-factory”and“odorsfarms”.The proposed approach has several theoretical and practical implications:text mining may quickly and efficiently address citizen needs,providing the basis toward automating(even partially)the complaint process;and the DPSIR framework might support the planning and organization of information and the identification of stakeholder concerns and priorities,as well as metrics and indicators for their assessment.Therefore,integration of the DPSIR framework with the text mining of environmental complaints might generate a comprehensive environmental knowledge base as a prerequisite for a wider exploitation of analysis to support decision-making processes and environmental management activities. 展开更多
关键词 Environmental complaints text mining approach Term frequency-inverse Document frequency(TF-IDF) DRIVER PRESSURE STATE impact and response(DPSIR)framework Semantic network analysis Regional Agency for Prevention Environment and Energy(Arpae)
下载PDF
乡村环境治理:制度、技术与效能——基于中央政策文本分析
3
作者 邓学衷 唐滔 《智慧农业导刊》 2024年第13期82-86,共5页
基于新公共治理理论的“制度-技术-效能”框架,运用词频和词频聚类分析法,对1978—2022年中国中央政府机构关于乡村环境治理政策文件进行文本分析发现,乡村环境治理政策的阶段性演变逐步聚焦到治理效能,政策的制度设计走向系统化和协调... 基于新公共治理理论的“制度-技术-效能”框架,运用词频和词频聚类分析法,对1978—2022年中国中央政府机构关于乡村环境治理政策文件进行文本分析发现,乡村环境治理政策的阶段性演变逐步聚焦到治理效能,政策的制度设计走向系统化和协调性,技术工具转向开发和运用适用技术进行精细化治理,以实现乡村绿色发展和全面振兴的效能目标。为此,乡村环境治理实践应立足于治理区域的实际情况,强化治理机制的协同效能、提升数字化治理效能、增强适应性治理效能。 展开更多
关键词 乡村环境治理 “制度-技术-效能”分析框架 政策文本 治理效能 词频聚类分析法
下载PDF
融合TF-IDF和LDA的中文FastText短文本分类方法 被引量:30
4
作者 冯勇 屈渤浩 +2 位作者 徐红艳 王嵘冰 张永刚 《应用科学学报》 CAS CSCD 北大核心 2019年第3期378-388,共11页
FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocatio... FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocation, LDA)的中文FastText短文本分类方法.该方法在FastText文本分类模型的输入阶段对n元语法模型处理后的词典进行TF-IDF筛选,使用LDA模型进行语料库主题分析,依据所得结果对特征词典进行补充,从而在计算输入词序列向量均值时偏向高区分度的词条,使其更适用于中文短文本分类环境.对比实验结果可知,所提方法在中文短文本分类方面具有更高的精确率. 展开更多
关键词 中文短文本分类 Fasttext 词频-逆文本频率 词向量 隐含狄利克雷分布
下载PDF
江苏省医保定点零售药店管理政策研究
5
作者 刘若颖 许洪皓 +1 位作者 那昕 褚淑贞 《卫生经济研究》 北大核心 2024年第2期14-18,共5页
目的:分析医保定点零售药店相关政策文本,梳理政策重点,为定点药店发展提供建议。方法:以江苏省为例,借助ROST CM6和Ucinet 6.0软件,对政策文本进行词频统计和语义网络分析,并梳理归纳定点药店三类管理模式的特点。结果:词频分析结果显... 目的:分析医保定点零售药店相关政策文本,梳理政策重点,为定点药店发展提供建议。方法:以江苏省为例,借助ROST CM6和Ucinet 6.0软件,对政策文本进行词频统计和语义网络分析,并梳理归纳定点药店三类管理模式的特点。结果:词频分析结果显示,8个关键词出现频数超过150次,药品类关键词出现频次最高;语义网络图表明,定点药店政策核心要义为“医保”“药品”;定点药店管理模式具有三种模式共融并行、依托省级处方流转平台、重视药学服务能力建设等特点。结论:明晰医保定点药店遴选规则,搭建定点药店持续运营新模式,高效承接处方流转,落实药学服务建设,实现医保定点零售药店更好持续发展。 展开更多
关键词 医保定点零售药店 处方流转 药学服务 政策文本分析 词频分析
下载PDF
基于TextRank算法的联合打分文本摘要生成 被引量:9
6
作者 朱玉佳 祝永志 董兆安 《通信技术》 2021年第2期323-326,共4页
自动文本摘要生成是自然语言处理领域中颇具挑战性的问题之一,其任务是为书籍、篇章、新闻或者微博等某一文本资源生成简洁而又具有意义的文本摘要。TextRank算法是一种基于图的文本摘要生成算法,只利用当前文档即可实现关键词提取和文... 自动文本摘要生成是自然语言处理领域中颇具挑战性的问题之一,其任务是为书籍、篇章、新闻或者微博等某一文本资源生成简洁而又具有意义的文本摘要。TextRank算法是一种基于图的文本摘要生成算法,只利用当前文档即可实现关键词提取和文摘生成,因其简洁有效而得到广泛应用。本文在TextRank算法的基础上提出一个无监督抽取式联合打分模型。一方面,结合词频逆句频余弦相似度与词向量余弦相似度共同计算句子得分;另一方面,采用最大边缘相关度算法(Maximal Marginal Relevance,MMR)将抽取得到的摘要去除冗余。实验表明,改进后的方法生成的摘要具有更高的质量,尤其具有更好的梗概性和多样性。 展开更多
关键词 文本摘要生成 textRank 词频逆句频余弦相似度 最大边缘相关度 词向量
下载PDF
An improved TF-IDF approach for text classification 被引量:4
7
作者 张云涛 龚玲 王永成 《Journal of Zhejiang University-Science A(Applied Physics & Engineering)》 SCIE EI CAS CSCD 2005年第1期49-55,共7页
This paper presents a new improved term frequency/inverse document frequency (TF-IDF) approach which uses confidence, support and characteristic words to enhance the recall and precision of text classification. Synony... This paper presents a new improved term frequency/inverse document frequency (TF-IDF) approach which uses confidence, support and characteristic words to enhance the recall and precision of text classification. Synonyms defined by a lexicon are processed in the improved TF-IDF approach. We detailedly discuss and analyze the relationship among confidence, recall and precision. The experiments based on science and technology gave promising results that the new TF-IDF approach improves the precision and recall of text classification compared with the conventional TF-IDF approach. 展开更多
关键词 Term frequency/inverse document frequency (TF-IDF) text classification CONFIDENCE SUPPORT Characteristic words
下载PDF
基于TextRank的单文本关键字提取算法
8
作者 朱必熙 《兰州工业学院学报》 2018年第3期58-61,共4页
TextRank算法在搜索关键字提取中应用十分广泛,针对TextRank算法因考虑句子单词顺序而导致权值范围过大的算法缺陷,提出了忽视句子单词的顺序,仅考虑某文本中的某一句的共现关系,进行频率、权值分析.结果表明,该种方式能够有效地提高查... TextRank算法在搜索关键字提取中应用十分广泛,针对TextRank算法因考虑句子单词顺序而导致权值范围过大的算法缺陷,提出了忽视句子单词的顺序,仅考虑某文本中的某一句的共现关系,进行频率、权值分析.结果表明,该种方式能够有效地提高查询效率. 展开更多
关键词 textRank 权值 频率 单文本 关键字 提取算法
下载PDF
中国纺织服装上市企业数字化转型特点与建议 被引量:3
9
作者 郑通 张立杰 《丝绸》 CAS CSCD 北大核心 2023年第12期11-16,共6页
文章为帮助纺织服装企业顺利进行数字化转型,以中国纺织服装上市企业为样本,采用文本量化分析方法,归纳数字化转型的主要特点并提出转型建议。通过对2016—2022年纺织服装上市企业年度报告进行分析,发现中国纺织服装上市企业数字化转型... 文章为帮助纺织服装企业顺利进行数字化转型,以中国纺织服装上市企业为样本,采用文本量化分析方法,归纳数字化转型的主要特点并提出转型建议。通过对2016—2022年纺织服装上市企业年度报告进行分析,发现中国纺织服装上市企业数字化转型主要拥有的特点包括:以技术进步为主要动力;以业务流程全面改革为目标;以消费者需求为导向;以信息系统为支撑;以数据为关键生产要素。针对中国纺织服装上市企业的数字化转型特点,从政府和企业两个层面提出数字化转型建议,具体包括:政府引导企业数字化转型;企业的业务流程全面转型。 展开更多
关键词 纺织服装上市企业 数字化转型 文本量化分析 词频统计 转型特点 转型建议
下载PDF
基于字频差算法与左切分词库构建的专利文献组件名称识别方法
10
作者 孔嘉斌 吕剑文 +1 位作者 刘江南 杜文轩 《计算机科学》 CSCD 北大核心 2023年第7期229-236,共8页
机械专利文献蕴含着海量以组件名称为信息单元的领域知识信息,组件名称用词灵活多变,具有独特、复杂和生僻等特点,难以被计算机准确识别,成为专利知识挖掘的一大阻碍。为了提出组件名称的高效识别方法,剖析并提炼专利文本语句中的组件... 机械专利文献蕴含着海量以组件名称为信息单元的领域知识信息,组件名称用词灵活多变,具有独特、复杂和生僻等特点,难以被计算机准确识别,成为专利知识挖掘的一大阻碍。为了提出组件名称的高效识别方法,剖析并提炼专利文本语句中的组件名称构词特征;从组件名称相关的外部用词入手,通过标识附图标记,识别其左侧的名称字符,自动从文本中检索候选名称,并构建组件候选名称集合;提出了字频差算法,过滤候选名称集合的冗余字符;提出了动态构建左切分词库算法,进一步剔除未能被过滤的冗余字符;通过交叉实验测试和分析识别过程中字频差先验阈值、词频阈值和字频差阈值的选取对识别效果的影响,形成一种面向机械领域中文专利的组件名称识别三段式综合方法。最后通过对实验结果的对比分析,验证了该方法的有效性与高效性。 展开更多
关键词 专利文本 冗余字符 附图标记 字频差 左切分词
下载PDF
基于词频分析的杭州星级酒店外国顾客满意度研究
11
作者 方旻圆 饶华清 《浙江海洋大学学报(人文科学版)》 2023年第3期75-82,共8页
酒店在线评论的收集和分析可以反映顾客的满意度,利用得当,可以增加订单转化率,为酒店创造长期收益。杭州作为新兴国际城市,外国顾客日益增多,对于高级酒店的消费日趋增多。因此,分析外国顾客的满意度组成,对于杭州高级酒店日后的管理... 酒店在线评论的收集和分析可以反映顾客的满意度,利用得当,可以增加订单转化率,为酒店创造长期收益。杭州作为新兴国际城市,外国顾客日益增多,对于高级酒店的消费日趋增多。因此,分析外国顾客的满意度组成,对于杭州高级酒店日后的管理有着借鉴意义。与传统的内容分析相比,词频分析具有批量处理大量数据、文本的优势。基于此,本文采用AntConc软件进行词频分析,得出主要结论:(1)房间、服务、位置、食物和价格是提及最多的评论属性词;(2)外国顾客不是一味追求性价比,他们更加在乎房间的舒适度、干净度,以及服务人员的英文流畅度;(3)维护泳池、酒吧等酒店设施,并打造自身特色服务,可以吸引外国顾客。在此基础上,对酒店管理者提出几点建议,旨在提升酒店的国际竞争力。 展开更多
关键词 星级酒店 在线评论 词频分析 顾客满意度 文本挖掘 英文评论
下载PDF
基于朴素贝叶斯算法的信息过滤研究 被引量:2
12
作者 杜拓 方红 《信息与电脑》 2023年第9期90-92,共3页
随着信息量的快速增长,获取和筛选相关信息变得越来越重要。文章研究了基于朴素贝叶斯算法的信息过滤方法。首先,介绍了朴素贝叶斯算法的基本原理,包括贝叶斯定理、朴素贝叶斯分类器及该算法的优缺点。其次,探讨了朴素贝叶斯算法在信息... 随着信息量的快速增长,获取和筛选相关信息变得越来越重要。文章研究了基于朴素贝叶斯算法的信息过滤方法。首先,介绍了朴素贝叶斯算法的基本原理,包括贝叶斯定理、朴素贝叶斯分类器及该算法的优缺点。其次,探讨了朴素贝叶斯算法在信息过滤领域的应用,包括信息过滤的分类、文本表示方法、基于朴素贝叶斯的信息过滤模型构建。最后,通过实验评估了该方法在文本分类任务上的性能,包括不同特征表示方法的对比以及与其他分类算法的性能对比。实验结果表明,基于朴素贝叶斯算法的信息过滤具有较好的性能,可以有效分类不同主题的文本。 展开更多
关键词 朴素贝叶斯算法 信息过滤 文本分类 词袋模型 词频-逆文档频率(TF-IDF)权重计算
下载PDF
基于迁移学习的化学键能数据自动抽取
13
作者 庞娜 袁钺 薛秋红 《现代情报》 2023年第1期19-28,共10页
[目的/意义]在计算化学中,化学键能是重要的化学领域科学数据,目前化学键能数据抽取工作主要是由领域专家手动抽取,效率低下,大多数化学键能科学数据被湮没于海量文献中,无益于深入的、创新的科学数据分析。[方法/过程]为了解决该问题,... [目的/意义]在计算化学中,化学键能是重要的化学领域科学数据,目前化学键能数据抽取工作主要是由领域专家手动抽取,效率低下,大多数化学键能科学数据被湮没于海量文献中,无益于深入的、创新的科学数据分析。[方法/过程]为了解决该问题,本研究以ChemBE化学键能语料为实验对象,设计在较少专家支持的情况下,使用迁移学习的方法在化学论文中自动抽取与化学键能相关的科学数据。本文提出了一种端到端的BERT-CRF模型,通过构建领域高频子词的方法来解决大量未登录词的问题,并在后续深度学习模型的训练中,将构建好的领域高频子词作为领域特征输入到深度学习模型中,实现了对论文中的化学键能科学数据自动、高效地抽取。[结果/结论]实验表明,端到端的BERT-CRF模型与需要专家构建规则的基线模型相比,取得了理想的实验结果,F1值达到了88.56%。本文通过构建领域高频子词来解决大量未登录词的问题,降低了对领域专家的要求,可以较为容易地、低成本地迁移到其他领域。本文的研究结果是情报分析技术在化学领域的实践,为化学键能的智能知识检索提供了重要支撑。 展开更多
关键词 迁移学习 化学键能 深度学习 自动抽取 智能知识检索 领域高频子词 联合抽取模型 科学数据 文本挖掘
下载PDF
基于文本挖掘的专利技术主题分析研究综述 被引量:42
14
作者 胡阿沛 张静 +1 位作者 雷孝平 张晓宇 《情报杂志》 CSSCI 北大核心 2013年第12期88-92,61,共6页
为应对专利数量巨大和技术的日益复杂给专利技术主题分析带来的挑战,以及利用文本挖掘技术的专利技术主题分析近来成为研究热点。首先介绍文本挖掘的概念和其发展历史。其次,对目前基于文本挖掘的专利技术主题分析方法进行了归纳,包括... 为应对专利数量巨大和技术的日益复杂给专利技术主题分析带来的挑战,以及利用文本挖掘技术的专利技术主题分析近来成为研究热点。首先介绍文本挖掘的概念和其发展历史。其次,对目前基于文本挖掘的专利技术主题分析方法进行了归纳,包括主题词词频分析、共词分析、文本聚类分析和与引文聚类结合的分析方法,总结其常用的分析工具并介绍新的科学图谱分析软件——SciMAT。最后总结基于文本挖掘的专利技术主题分析方法的优点与不足,为其将来的研究提供建议。 展开更多
关键词 文本挖掘 技术主题 专利分析 词频分析 共词分 析文本聚类
下载PDF
基于词频信息的改进信息增益文本特征选择算法 被引量:16
15
作者 石慧 贾代平 苗培 《计算机应用》 CSCD 北大核心 2014年第11期3279-3282,共4页
为克服传统信息增益(IG)算法对特征项的频数考虑不足的缺陷,在对传统算法和相关改进算法深入分析的基础上,提出一种基于词频信息的改进的IG文本特征选择算法。分别从特征项在类内出现的频数、类内位置分布、不同类间的分布等方面对传统I... 为克服传统信息增益(IG)算法对特征项的频数考虑不足的缺陷,在对传统算法和相关改进算法深入分析的基础上,提出一种基于词频信息的改进的IG文本特征选择算法。分别从特征项在类内出现的频数、类内位置分布、不同类间的分布等方面对传统IG算法的参数进行了修正,使特征频数信息得到充分利用。对文本分类的实验结果表明,所提算法的分类精度明显高于传统IG算法和加权的IG改进算法。 展开更多
关键词 文本分类 特征选择 信息增益 词频 参数修正
下载PDF
基于相对词频的文本特征抽取方法 被引量:9
16
作者 张鹏飞 李赟 +1 位作者 刘建毅 钟义信 《计算机应用研究》 CSCD 北大核心 2005年第4期23-26,共4页
评估函数对已定义类别以外的语料区分度相对较低的问题出发,结合常用的停用词表功能,提出了基于与统计量相关的相对词频作评估函数的改进模型。该模型结合了现代汉语词频统计结果,使用相对词频选择特征词,较好地区分了特定类别与类别外... 评估函数对已定义类别以外的语料区分度相对较低的问题出发,结合常用的停用词表功能,提出了基于与统计量相关的相对词频作评估函数的改进模型。该模型结合了现代汉语词频统计结果,使用相对词频选择特征词,较好地区分了特定类别与类别外文本。实验结果验证了这种方法的可行性,并且取得了较好的分类效果。 展开更多
关键词 特征抽取 特征向量 评估函数 相对词频
下载PDF
消失文本条件下认知控制的眼动研究 被引量:17
17
作者 闫国利 王文静 白学军 《心理学探新》 CSSCI 北大核心 2007年第4期37-41,共5页
通过考察消失文本条件下的词频效应来探讨影响中文阅读眼动模式的控制因素。实验1发现当读者所注视的双字词在80ms后消失不会影响其正常阅读。实验2在实验1的基础上将材料的呈现时间设置为80ms,结果发现不论是正常阅读还是消失文本条件... 通过考察消失文本条件下的词频效应来探讨影响中文阅读眼动模式的控制因素。实验1发现当读者所注视的双字词在80ms后消失不会影响其正常阅读。实验2在实验1的基础上将材料的呈现时间设置为80ms,结果发现不论是正常阅读还是消失文本条件下均出现了显著的词频效应,结果支持眼动的认知控制模型。 展开更多
关键词 消失文本 词频效应 认知控制 眼动
下载PDF
一种词频与方差相结合的特征加权方法 被引量:3
18
作者 邱云飞 王威 +1 位作者 刘大有 邵良杉 《计算机应用研究》 CSCD 北大核心 2012年第6期2132-2134,共3页
通过分析特征词与类别间的相关性,提出了一种新的特征加权方法,依据特征词在特定类中出现的次数、特征词在某一类中的集中程度、特征词在特定类中的均匀分布程度来计算特征权值。通过与TF-IDF进行实验对比,新提出的TF-Var特征权重方法... 通过分析特征词与类别间的相关性,提出了一种新的特征加权方法,依据特征词在特定类中出现的次数、特征词在某一类中的集中程度、特征词在特定类中的均匀分布程度来计算特征权值。通过与TF-IDF进行实验对比,新提出的TF-Var特征权重方法使得分类的微平均准确率得到了明显的提高。 展开更多
关键词 文本分类 特征权重 词频 方差
下载PDF
优化的互信息特征选择方法 被引量:10
19
作者 朱颢东 陈宁 李红婵 《计算机工程与应用》 CSCD 北大核心 2010年第26期122-124,共3页
在文本分类中,互信息是一种被广泛应用的特征选择方法,但是该方法仅考虑了特征的文档频而没有考虑特征的词频,导致它经常倾向于选择出现频率较低的特征。为此,提出了一个新的文档频并把它引入到互信息方法中,从而获得了一种优化的互信... 在文本分类中,互信息是一种被广泛应用的特征选择方法,但是该方法仅考虑了特征的文档频而没有考虑特征的词频,导致它经常倾向于选择出现频率较低的特征。为此,提出了一个新的文档频并把它引入到互信息方法中,从而获得了一种优化的互信息方法。该优化的互信息方法不但考虑了特征的文档频而且还考虑了特征出现的词频。实验结果表明该优化的互信息方法性能良好。 展开更多
关键词 文本分类 互信息 特征选择 词频 文档频
下载PDF
基于多特征的中文关键词抽取方法 被引量:6
20
作者 杨颖 戴彬 《计算机应用与软件》 CSCD 北大核心 2014年第11期109-112,共4页
关键词抽取是信息检索、文本分类、文本聚类以及自动文摘生成等技术的基础。在分析传统中文关键词抽取方法不足的基础上,提出一种基于多特征的中文关键词提取方法。该方法在抽取中文关键词过程中,从词频、关联度、词性以及位置等多种特... 关键词抽取是信息检索、文本分类、文本聚类以及自动文摘生成等技术的基础。在分析传统中文关键词抽取方法不足的基础上,提出一种基于多特征的中文关键词提取方法。该方法在抽取中文关键词过程中,从词频、关联度、词性以及位置等多种特征来全面考查关键词,有效地避免了传统关键词提取方法产生的偏差。实验结果表明,与传统方法相比,该方法在不同测试集上关键词提取的平均召回率均得到明显提升。 展开更多
关键词 关键词抽取 词频 关联度 文本聚类
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部