期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
基于APACHE SPARK与NLTK的针灸文献词频统计及对比分析
1
作者 唐文超 肖彬 +3 位作者 温佩彤 吕若云 宁可 杨华元 《中华中医药学刊》 CAS 北大核心 2017年第9期2263-2267,共5页
目的:总结近30年来美国国立医学图书馆(NLM)医学文献分析和联机索引(MEDLINE)收录的针灸文献,通过词频分析针灸科研的现状。方法:以10年为一个检索时间段,将所有针灸文献分为3组,通过APACHE SPARK与自然语言工具包(NLTK)统计每组文献的... 目的:总结近30年来美国国立医学图书馆(NLM)医学文献分析和联机索引(MEDLINE)收录的针灸文献,通过词频分析针灸科研的现状。方法:以10年为一个检索时间段,将所有针灸文献分为3组,通过APACHE SPARK与自然语言工具包(NLTK)统计每组文献的前50位热门词频,对比每组热门词频的异同,分析各时间段的研究侧重点。结果:急症与疼痛为针灸科研领域持续关注的病种,除传统针刺外,电针、激光针灸与耳针同样受到重视。随着时间的推移,针灸科研的热门方向从神经系统的调节作用逐渐扩大至对骨骼、呼吸、心血管系统以及精神状态干预作用。同时随机对照、定量化实验的普及、Meta分析等新型分析方法的引入也为针灸临床提供了可靠的依据。结论:针灸科研经历了研究方法由简易转向严谨,病种侧重由狭窄转向广泛的转变,这样的改变加速了中医国际化、现代化进程,该统计方法也为中医文献研究提供了有益的参考。 展开更多
关键词 针灸文献 词频 APACHE SPARK nltk
下载PDF
基于NLTK的中文文本内容抽取方法 被引量:9
2
作者 李晨 刘卫国 《计算机系统应用》 2019年第1期275-278,共4页
NLTK是Python中用于自然语言处理的第三方模块,但处理中文文本具有一定局限性.利用NLTK对中文文本中的信息内容进行抽取与挖掘,采用同语境词提取、双连词搭配提取、概率统计以及篇章分析等方法,得到一个适用于中文文本的NLTK文本内容抽... NLTK是Python中用于自然语言处理的第三方模块,但处理中文文本具有一定局限性.利用NLTK对中文文本中的信息内容进行抽取与挖掘,采用同语境词提取、双连词搭配提取、概率统计以及篇章分析等方法,得到一个适用于中文文本的NLTK文本内容抽取框架,及其具体的实现方法.经实证分析表明,在抽取结果中可以找到反映文本特点的语料内容,得到抽取结果与文本主题具有较强相关性的结论. 展开更多
关键词 自然语言处理 中文文本 自然语言处理工具包
下载PDF
基于PLSA模型的在线评论量化研究
3
作者 王青芸 周靖 +1 位作者 李艳青 尧志毅 《赣南师范大学学报》 2021年第3期20-23,共4页
随着大数据时代的到来,网络购物的快速发展,越来越多的网民可以跨地域界线进行方便、快捷的购物交流.因此,由互联网用户创造的海量数据使得在线评论成为一种重要的网络口碑.本文以十几年来亚马逊在线市场几种产品的评价为例,首先依据评... 随着大数据时代的到来,网络购物的快速发展,越来越多的网民可以跨地域界线进行方便、快捷的购物交流.因此,由互联网用户创造的海量数据使得在线评论成为一种重要的网络口碑.本文以十几年来亚马逊在线市场几种产品的评价为例,首先依据评论的帮助等级确定评论使用价值.排除使用价值过低的评论后,再对剩余数据使用PLSA模型进行潜在语义分析,得出每篇在线评论的情感因素.将情感因素量化后,作为每条评论的情感评分,并以此将评论分为积极评论和消极评论.最后建立“时间-星级-评论”模型,研究星级对客户评论的影响.该模型从评论的来源着手,研究影响评论的因素,提早对产品的评论情感趋势进行预测,使公司能在销售前期便对产品的销售策略进行优化调整. 展开更多
关键词 在线评论 PLSA 量化分析 情感极性分析 nltk
下载PDF
基于Python自然语言处理工具包在语料库研究中的运用 被引量:8
4
作者 刘旭 《昆明冶金高等专科学校学报》 CAS 2015年第5期65-69,93,共6页
国内当前以语料库为基础的研究,在研究工具方面,多以Ant Conc、Power GREP为主,使用Python语言NLTK包进行数据处理分析的研究较少,限于软件自身设计,不能灵活地对研究方法提供支持。在研究中使用Python语言的NLTK处理包,使数据有了统一... 国内当前以语料库为基础的研究,在研究工具方面,多以Ant Conc、Power GREP为主,使用Python语言NLTK包进行数据处理分析的研究较少,限于软件自身设计,不能灵活地对研究方法提供支持。在研究中使用Python语言的NLTK处理包,使数据有了统一标准,避免了各类文字处理转换的麻烦,同时也弥补了Range等工具在句法分析、图形绘制、正则表达式检索等方面的缺憾。针对语料库研究的中文本分词、词形归并、文本检索统计等主要环节,简要介绍Python语言的NLTK自然语言处理包在语料库研究中的运用,并以古腾堡语料库中的简·奥斯丁小说《艾玛》为例,说明如何运用该自然语言处理包对语料进行加工处理。 展开更多
关键词 PYTHON nltk工具包 语料库研究
下载PDF
基于Python自然语言处理的文本分类研究 被引量:4
5
作者 韦文娟 韩家新 夏海洋 《福建电脑》 2016年第7期4-5,8,共3页
分类就是为给定的输入选择正确的类标签。在基本的分类任务中,每个输入被认为是与其他的输入隔离的,并且标签集是预先定义的。所以文本分类就是根据预先定义的主题类别,按照一定的规则将文档集合中未知类别的文本自动确定一个类别,它涉... 分类就是为给定的输入选择正确的类标签。在基本的分类任务中,每个输入被认为是与其他的输入隔离的,并且标签集是预先定义的。所以文本分类就是根据预先定义的主题类别,按照一定的规则将文档集合中未知类别的文本自动确定一个类别,它涉及到数据挖掘、计算语义学、信息学、人工智能等个学科,是自然语言处理的一个重要应用领域。目前,越来越多的统计分类方法、机器学习方法、数据挖掘技术和其它的新技术被应用到文本自动分类领域中,同时基于Python自然语言处理的文本分类研究在目前也得到广泛应用。 展开更多
关键词 PYTHON 自然语言处理 nltk 文本分类
下载PDF
英语及相关日耳曼语言词频与词长的对比研究 被引量:1
6
作者 李森 付莉 《语言与文化研究》 2009年第1期104-108,共5页
英语在发展过程中受到过许多周边地区语言的影响。多年来,众多学者就它们之间的表层关系进行了许多研究,但在语言深层特征方面鲜有问津。本文运用计算机辅助方法对英语及相关日耳曼语言的词频与词长特征进行了分析,认为影响语言深层特... 英语在发展过程中受到过许多周边地区语言的影响。多年来,众多学者就它们之间的表层关系进行了许多研究,但在语言深层特征方面鲜有问津。本文运用计算机辅助方法对英语及相关日耳曼语言的词频与词长特征进行了分析,认为影响语言深层特征的诱因源自毗邻地区的每种语言的封闭程度与语族的自我协调机制。 展开更多
关键词 英语 日耳曼语言 词频 词长 Matplotlib nltk PYTHON
下载PDF
自然语言理解——原理与工具的介绍
7
作者 夏添 《科技传播》 2010年第21期243-243,201,共2页
自然语言理解一直是一个很大很麻烦的问题,本文讨论了自然语言理解的基本概念,以及几个实现自然实现方法的讨论。最后,提出一个叫做nltk的工具。
关键词 自然语言理解 规则 nltk
下载PDF
Multilingual Sentiment Mining System to Prognosticate Governance
8
作者 Muhammad Shahid Bhatti Saman Azhar +3 位作者 Abid Sohail Mohammad Hijji Hamna Ayemen Areesha Ramzan 《Computers, Materials & Continua》 SCIE EI 2022年第4期389-406,共18页
In the age of the internet,social media are connecting us all at the tip of our fingers.People are linkedthrough different social media.The social network,Twitter,allows people to tweet their thoughts on any particula... In the age of the internet,social media are connecting us all at the tip of our fingers.People are linkedthrough different social media.The social network,Twitter,allows people to tweet their thoughts on any particular event or a specific political body which provides us with a diverse range of political insights.This paper serves the purpose of text processing of a multilingual dataset including Urdu,English,and Roman Urdu.Explore machine learning solutions for sentiment analysis and train models,collect the data on government from Twitter,apply sentiment analysis,and provide a python library that classifies text sentiment.Training data contained tweets in three languages:English:200k,Urdu:200k and Roman Urdu:11k.Five different classification models are applied to determine sentiments,and eventually,the use of ensemble technique to move forward with the acquired results is explored.The Logistic Regression model performed best with an accuracy of 75%,followed by the Linear Support Vector classifier and Stochastic Gradient Descent model,both having 74%accuracy.Lastly,Multinomial Naïve Bayes and Complement Naïve Bayes models both achieved 73%accuracy. 展开更多
关键词 Multilingual NLP artificial intelligence GOVERNMENT sentiment analysis NLP nltk ensemble technique MULTILINGUAL TWITTER data science
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部