期刊文献+
共找到164篇文章
< 1 2 9 >
每页显示 20 50 100
基于Word Clouds的大学英语读写教学设计 被引量:1
1
作者 张运超 朱晓申 +1 位作者 袁娇 宁姣姣 《宁波教育学院学报》 2018年第5期87-90,共4页
Word Clouds是一种基于词频的文本可视化形式,以美学意义的图形和图像予以呈现,能够直观形象地反映出文本中的文字密度及其重要性,可以作为一种有效的文本分析工具应用在外语教学中。文章综述了国内外Word Clouds在外语教学中应用的研... Word Clouds是一种基于词频的文本可视化形式,以美学意义的图形和图像予以呈现,能够直观形象地反映出文本中的文字密度及其重要性,可以作为一种有效的文本分析工具应用在外语教学中。文章综述了国内外Word Clouds在外语教学中应用的研究现状,依据双重编码理论、克拉申的输入假设和Swain的输出假设理论,以大学英语读写课程为切入点,通过将Word Clouds工具与英语读写课程相结合方式,构建大学英语读写教学新模型,从而激发学生的学习兴趣和提高教师的教学水平。 展开更多
关键词 word cloudS 双重编码理论 克拉申的输入假设 Swain的输出假设 大学英语读写教学
下载PDF
WocEA:The visualization of functional enrichment results in word clouds 被引量:2
2
作者 Wanshan Ning Shaofeng Lin +5 位作者 Jiaqi Zhou Yaping Guo Ying Zhang Di Peng Wankun Deng Yu Xue 《Journal of Genetics and Genomics》 SCIE CAS CSCD 2018年第7期415-417,共3页
The integration, analysis and visualization of the big omics data are critical for addressing a broad spectrum of biological questions. One of the most frequently conducted procedures is enrichment analysis, which sta... The integration, analysis and visualization of the big omics data are critical for addressing a broad spectrum of biological questions. One of the most frequently conducted procedures is enrichment analysis, which statistically tests whether individual functional an- notations of Gent Ontology (GO) or Kyoto Encyclopedia of Genes and Genomes (KEGG) are significantly over-or under-represented in an "interesting" gene or protein list against the reference set (Tavazoie et al., 1999). 展开更多
关键词 WocEA he visualization of functional enrichment results word clouds
原文传递
应用Jieba和Wordcloud库的词云设计与优化 被引量:20
3
作者 徐博龙 《福建电脑》 2019年第6期25-28,共4页
分词是Python中的一项重要应用,实现分词功能的工具有很多种,如jieba、SnowNLP、THULAC、NLPIR等。词云是在分词的基础上设计并实现的,它提供阅读整个信息的重点,揭示关键概念,并可使用不同的展示形式,以有趣、高效、新颖的方式呈现给... 分词是Python中的一项重要应用,实现分词功能的工具有很多种,如jieba、SnowNLP、THULAC、NLPIR等。词云是在分词的基础上设计并实现的,它提供阅读整个信息的重点,揭示关键概念,并可使用不同的展示形式,以有趣、高效、新颖的方式呈现给阅读者。在此,以中文分词为例,详细介绍使用jieba库和wordcloud库实现词云的设计与优化。 展开更多
关键词 PYTHON 中文分词 词云 Jieba wordcloud
下载PDF
文字云图的英语阅读教学设计与实践——以文字云图工具Wordle为例 被引量:17
4
作者 杜华 《现代教育技术》 CSSCI 2012年第9期65-69,共5页
文字云图是通过文字云图工具制作而成的反映文字频率的可视图的一种形象比喻,可以作为一种有效的文本分析工具应用在教学中。文章梳理了国内外文字云图应用研究现状,指出国内该领域研究的不足。并以英语阅读教学为切入点,从文字云图的... 文字云图是通过文字云图工具制作而成的反映文字频率的可视图的一种形象比喻,可以作为一种有效的文本分析工具应用在教学中。文章梳理了国内外文字云图应用研究现状,指出国内该领域研究的不足。并以英语阅读教学为切入点,从文字云图的可视化表征、生成线索词、语义和表象的双重表征等优势分析了文字云图应用在英语阅读教学中的可行性,以Wordle为例选择高中英语教材中的一节课"Harry Potter"进行了研究设计与实践,研究结果表明文字云图的使用能够调动学生的兴趣,给学生的英语阅读带来积极的促进作用。 展开更多
关键词 文本可视化 文字云图 wordle 英语阅读教学
下载PDF
基于点云分割网络的雷达信号分选方法 被引量:1
5
作者 陈涛 邱宝传 +1 位作者 肖易寒 杨博溢 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第4期1391-1398,共8页
针对现有基于图像分割的端到端雷达信号分选方法存在的像素点重叠与处理效率不高的问题,该文提出一种基于点云分割网络的端到端分选方法。首先将雷达脉冲流的脉冲描述字(PDW)映射为点云;之后利用点云分割网络(PointNet++)对该点云中各... 针对现有基于图像分割的端到端雷达信号分选方法存在的像素点重叠与处理效率不高的问题,该文提出一种基于点云分割网络的端到端分选方法。首先将雷达脉冲流的脉冲描述字(PDW)映射为点云;之后利用点云分割网络(PointNet++)对该点云中各点依据其所属辐射源进行分割;最后将具有相同标签的点聚类形成脉冲集合,分别提取各脉冲集合所包含的辐射源并形成相应的辐射源描述字。仿真结果表明:所提方法能够有效对未知雷达信号进行分选,在脉冲丢失和虚假脉冲干扰的分选环境下也表现出较强的可靠性与稳定性,并且由于采用具有轻量化特点的模型使得该方法的执行效率更高。 展开更多
关键词 电子侦察 信号分选 端到端 脉冲描述字 点云
下载PDF
我国院前医疗急救标准研究
6
作者 向珍君 巴依尔策策克 +3 位作者 陈辉 计玉容 赵婵 刘红梅 《中国卫生质量管理》 2024年第1期1-6,共6页
目的了解我国院前医疗急救标准现状,为推进院前医疗急救标准化、同质化建设提供参考。方法从各标准信息公共服务平台检索我国院前医疗急救相关标准,进行描述性统计分析和词云图分析。结果1975年-2022年我国发布院前医疗急救相关标准57项... 目的了解我国院前医疗急救标准现状,为推进院前医疗急救标准化、同质化建设提供参考。方法从各标准信息公共服务平台检索我国院前医疗急救相关标准,进行描述性统计分析和词云图分析。结果1975年-2022年我国发布院前医疗急救相关标准57项,标准牵头起草单位40家,参与起草单位307家。院前医疗急救相关标准的重点逐渐由急救车辆、急救设备等转为对伤病员的服务规范、信息化、急救机构建设等。结论我国院前医疗急救相关标准总量较少,内容覆盖面窄,且未形成标准体系。需抓住院前医疗急救发展新机遇,优化院前医疗急救标准框架体系,及时进行标准制修订工作,并持续做好培训、宣贯等。 展开更多
关键词 中国 院前医疗急救 标准 词云图
下载PDF
基于Word2Vec的云设计服务匹配方法研究
7
作者 黄少伟 《机电工程技术》 2019年第6期83-85,159,共4页
在云设计服务平台上,存储了海量的服务信息,如何在最短时间之内,将与用户设计需求最相关联的服务推送到用户面前,直接关系到用户体验及设计效率。针对于此,提出了基于Word2Vec的云设计服务匹配方法,解决了由于需求信息与服务信息之间的... 在云设计服务平台上,存储了海量的服务信息,如何在最短时间之内,将与用户设计需求最相关联的服务推送到用户面前,直接关系到用户体验及设计效率。针对于此,提出了基于Word2Vec的云设计服务匹配方法,解决了由于需求信息与服务信息之间的异构性及不对称性所造成的匹配不准确问题。最后通过仿真实验证明方法的合理性及可行性。 展开更多
关键词 云设计 词向量 word2Vec 服务匹配
下载PDF
基于三角词袋回环检测的激光惯性SLAM算法
8
作者 徐晓苏 何宇明 《中国惯性技术学报》 EI CSCD 北大核心 2024年第9期898-906,917,共10页
回环检测是减少激光惯性同步定位与建图(SLAM)位姿漂移的有效方法,而回环检测的精度和速度是其能否被应用于SLAM的关键因素。基于此,提出了一种基于三角词袋回环检测的激光惯性SLAM算法。首先,通过激光点云的LinK3D特征生成三角描述符,... 回环检测是减少激光惯性同步定位与建图(SLAM)位姿漂移的有效方法,而回环检测的精度和速度是其能否被应用于SLAM的关键因素。基于此,提出了一种基于三角词袋回环检测的激光惯性SLAM算法。首先,通过激光点云的LinK3D特征生成三角描述符,使用三角描述符构建三角词袋,实现实时位置识别与六自由度回环位姿估计。其次,将LinK3D特征用于帧到帧的点云配准,与惯性测量装置(IMU)预积分相结合,实现精确鲁棒的帧间位姿估计。在KITTI数据集上的实验结果表明,与LIO-SAM算法相比,所提SLAM算法的帧间位姿估计方法更加鲁棒,轨迹的平均均方根误差减少29.79%,每次回环约束的平均耗时减少93.53%。实测实验结果表明,与LIO-SAM算法相比,所提算法每次回环约束的平均耗时减少85.15%,室外长距离实验的绝对轨迹误差的均方根误差减少84.36%。 展开更多
关键词 同步定位与建图 回环检测 词袋模型 点云配准
下载PDF
在线医疗社区分析系统的设计与实现
9
作者 张霞 邵芊芊 顾加成 《无线互联科技》 2024年第3期38-40,44,共4页
作为“互联网+医疗”的重要产物,在线医疗社区迅速发展。在线医疗社区产生了大量的医疗问答信息,这些信息富含医学知识和患者关切等内容。因此,文章构建了在线医疗社区分析系统的架构,再通过网络爬虫、数据清洗和存储、文本分词、数据... 作为“互联网+医疗”的重要产物,在线医疗社区迅速发展。在线医疗社区产生了大量的医疗问答信息,这些信息富含医学知识和患者关切等内容。因此,文章构建了在线医疗社区分析系统的架构,再通过网络爬虫、数据清洗和存储、文本分词、数据可视化等技术,设计并开发了一个医患问答数据的分析系统,通过折线图、饼状图和生成词云等数据分析,得到不同疾病的发病症状、治疗常用药物等有用知识,为患者诊断和治疗提供便利,也能为医生了解患者关切提供依据。 展开更多
关键词 在线医疗社区 文本分词 词云分析
下载PDF
基于三维点云聚类边缘点的回环检测算法
10
作者 王振宇 蒋林 +2 位作者 蔡芸 张文俊 颜俊杰 《武汉科技大学学报》 CAS 北大核心 2024年第5期376-383,共8页
回环检测是机器人同步定位与建图(SLAM)的重要组成部分,可以消除SLAM过程中产生的累积误差。在激光SLAM领域,传统的回环检测方法可能无法有效地实时识别回环,并且无法校正完整的六自由度环路姿态。为此提出一种基于三维点云聚类边缘点... 回环检测是机器人同步定位与建图(SLAM)的重要组成部分,可以消除SLAM过程中产生的累积误差。在激光SLAM领域,传统的回环检测方法可能无法有效地实时识别回环,并且无法校正完整的六自由度环路姿态。为此提出一种基于三维点云聚类边缘点的回环检测算法。首先利用三维点云的边缘点进行聚类生成描述符,随后将描述符以单词的形式存储到词袋,采用哈希表构建单词与位置的一对一直接关联,最后通过逆向索引进行位置识别。该方法不仅能有效地识别重访的环位,而且能实时校正整个六自由度环路姿态。分别在M2DGR数据集、KITTI数据集和真实环境中进行了实验,结果表明本文算法具有旋转不变性和更高的准确率。 展开更多
关键词 回环检测 SLAM 三维点云 描述符 词袋 聚类 边缘点
下载PDF
ChatGPT相关领域研究发展态势的专利数据分析
11
作者 龚惠群 郑婷玉 《科技管理研究》 CSSCI 2024年第5期178-191,共14页
为探索ChatGPT相关领域的研究热点和发展方向,基于智慧芽专利数据库2014—2023年国内外ChatGPT相关领域的专利数据进行研究。分析发现北京市和广东省位于我国ChatGPT相关研究第一梯队;存在以腾讯公司为核心的合作网络,但企业和高校、科... 为探索ChatGPT相关领域的研究热点和发展方向,基于智慧芽专利数据库2014—2023年国内外ChatGPT相关领域的专利数据进行研究。分析发现北京市和广东省位于我国ChatGPT相关研究第一梯队;存在以腾讯公司为核心的合作网络,但企业和高校、科研院所间的产学研合作较少;中国在ChatGPT相关领域的专利技术体系较为丰富,但硬件方面的专利技术偏少,在智能设备、ChatGPT领域理论深度学习等方面有很大欠缺;特殊数据处理应用、数字数据信息检索、商业这3个领域是重点关注领域;虚拟助理、智能机器人、语音交互、穿戴设备等可能是潜在技术机会领域。因此,应注重硬件与软件的协同发展;鼓励在芯片、传感器等硬件方面的创新研究;针对不同行业和应用场景,共同研发集成ChatGPT技术的智能设备,开发定制化的ChatGPT解决方案;加强国际合作,共享技术资源,共同推进技术进步。 展开更多
关键词 ChatGPT 专利分析 智慧芽专利数据库 IPC分类 创新词云
下载PDF
政策工具视角下四川养老产业政策量化研究
12
作者 贺刚 唐李翊茉 汪雨腈 《西部经济管理论坛》 2024年第4期76-85,共10页
随着老年健康服务需求的不断增加,四川省陆续推出多项促进地方养老产业发展的养老产业政策。为识别政策供给和产业发展需求之间的差距,文章构建了包含模式维、链条维和工具维在内的三维政策分析框架,采用内容分析法和词云图分析法对四川... 随着老年健康服务需求的不断增加,四川省陆续推出多项促进地方养老产业发展的养老产业政策。为识别政策供给和产业发展需求之间的差距,文章构建了包含模式维、链条维和工具维在内的三维政策分析框架,采用内容分析法和词云图分析法对四川省2011—2023年制定的养老产业政策文本进行了量化分析。分析结果表明,四川养老产业政策中供给型政策的占比偏大,总体而言均衡性不足;养老产业发展模式的政策导向比较模糊,家庭养老保障政策不完善;针对养老产业链的政策系统性有待加强。基于上述结论,文章提出了相应的对策建议:合理配置各类型政策工具,制定有针对性的养老产业发展政策,合理布局政策体系。 展开更多
关键词 政策工具 养老产业 内容分析法 词云图 政策文本
下载PDF
国潮兴起下消费者在线评论的主题分析研究——以国货护肤品为例
13
作者 马玉洋 刘畅 《中国商论》 2024年第5期73-76,共4页
基于中国综合国力增强、经济快速发展、科技创新水平提升、国货品质提高、民众文化自信提高多重因素的影响,国货消费高速发展,其中国货护肤彩妆行业的表现尤为突出。本文基于淘宝和京东两大电商平台的文本评论数据,通过情感分析和主题... 基于中国综合国力增强、经济快速发展、科技创新水平提升、国货品质提高、民众文化自信提高多重因素的影响,国货消费高速发展,其中国货护肤彩妆行业的表现尤为突出。本文基于淘宝和京东两大电商平台的文本评论数据,通过情感分析和主题分析提取评论主题词,了解消费者对国货护肤品牌的评价。结果显示:消费者对国货护肤品整体表现出积极正向的态度,重视购物体验、个体皮肤差异、店铺服务、皮肤问题和使用体验五个方面;负面评价主要集中在产品效果及购物体验两方面。同时,本文通过挖掘消费者对购买国货护肤品的需求重点,以期对国货品牌的产品及在电商平台的服务质量提供改进建议,以供参考。 展开更多
关键词 国货护肤品 消费者评论 词云图 LDA主题模型 顾客满意度 国货消费 科技创新
下载PDF
大数据客户热词分析系统的架构设计
14
作者 徐晓涛 《武夷学院学报》 2024年第9期26-31,共6页
为提高电商客户黏性与忠诚度,帮助企业更好地满足客户的需求,设计基于大数据的客户热词分析系统的架构。该系统架构主要包括四个模块。在数据采集模块内利用基于大数据分析的Scrapy爬虫框架从互联网中实时爬取电商客户相关数据,并基于... 为提高电商客户黏性与忠诚度,帮助企业更好地满足客户的需求,设计基于大数据的客户热词分析系统的架构。该系统架构主要包括四个模块。在数据采集模块内利用基于大数据分析的Scrapy爬虫框架从互联网中实时爬取电商客户相关数据,并基于爬取到的数据经过数据去重、中文分词以及去停用词处理,得到便于分析的词汇,通过热词提取、热词排序实现客户热词实时分析,在此基础上构建词云图,可视化展示热词分析结果,由此完成基于大数据的客户热词分析系统的架构设计。经实验验证:该系统可清晰显示不同词汇的热度情况,且热词分析准确率相对较高,同时在热词分析过程中具有较快的处理速度,实用性较强。 展开更多
关键词 热词分析 词云图 数据处理 Scrapy爬虫 中文分词 大数据
下载PDF
东北三省旅游资源时空分布特征研究
15
作者 杜平 《测绘与空间地理信息》 2024年第2期123-125,128,共4页
随着人们生活水平的提高,旅游总收入占东北各省市GDP总量的比例逐年升高。为了更好地了解东北旅游资源,发展东北旅游业,本文利用从旅游网站爬取的景点和评论数据,综合运用核密度分析、莫兰指数、热点分析、词云分析和文本情感分析等多... 随着人们生活水平的提高,旅游总收入占东北各省市GDP总量的比例逐年升高。为了更好地了解东北旅游资源,发展东北旅游业,本文利用从旅游网站爬取的景点和评论数据,综合运用核密度分析、莫兰指数、热点分析、词云分析和文本情感分析等多种方法对东北三省的旅游资源分布进行了分析,以便为东北三省之间旅游产业的发展提供科学依据。 展开更多
关键词 莫兰指数 核密度分析 热点分析 词云分析 文本情感分析
下载PDF
基于文本挖掘技术的油田集输管道失效诱因关联分析
16
作者 陈喜鸿 刘颖 +2 位作者 孙玮 王雷 梁昌晶 《石油工程建设》 2024年第2期33-38,共6页
为有效预防油田集输管道失效事故的发生,以某油田2018—2021年管道失效记录为基础,采用数理统计方法分析各类管道的失效特征,利用词云图和Apriori算法分析事故类型、常见诱因及诱因间的关联规则,再通过共现矩阵构建共现网络,明确集输管... 为有效预防油田集输管道失效事故的发生,以某油田2018—2021年管道失效记录为基础,采用数理统计方法分析各类管道的失效特征,利用词云图和Apriori算法分析事故类型、常见诱因及诱因间的关联规则,再通过共现矩阵构建共现网络,明确集输管道失效事故发生的关键诱因项和不同诱因发生的加速项集合,最后采用多项文本挖掘技术确定事故发展的耦合关系。结果表明,位于高后果III级区域的原油低压管段和天然气中压管段是风险管控的重点;管道泄漏、油气聚集、油池火、闪火是常见事故类型,施工破坏、土壤腐蚀、防腐层破损、管道占压、含有腐蚀性物质等是常见的事故诱因;管道泄漏和油气聚集具有强关联性,在管道泄漏条件下,发生油气聚集的概率为85.21%,两者同时出现的概率为18.21%;施工破坏、土壤腐蚀、外加电流保护失效、管道占压的共同出现是导致管道失效的主要因素;诱发土壤腐蚀和内腐蚀加速的主控原因与多项诱因相关,在后续风险管控中应尽量避免多项诱因的同时出现。 展开更多
关键词 集输管道 诱因 文本挖掘 词云图 APRIORI算法 共现网络
下载PDF
面向倾斜摄影的实景模型融合技术与应用展望
17
作者 王雪茹 曹立佳 《电子测量技术》 北大核心 2024年第10期34-47,共14页
倾斜摄影技术对于大规模场景生成具有重要意义,为解决单依赖该技术所生成的实景模型存在的近地数据缺失且不具有内部结构的问题,该文从空地模型融合和宏微观模型融合两个层面展开了研究。首先回顾了倾斜摄影、三维激光扫描和建筑信息模... 倾斜摄影技术对于大规模场景生成具有重要意义,为解决单依赖该技术所生成的实景模型存在的近地数据缺失且不具有内部结构的问题,该文从空地模型融合和宏微观模型融合两个层面展开了研究。首先回顾了倾斜摄影、三维激光扫描和建筑信息模型三种主要技术,接着对不同层面的整体融合流程和各自的底层技术原理(点云配准、数据标准)进行了调查,对比分析了相关研究的优势与不足,并指出了各自的应用场景。该研究提出了解决倾斜摄影下实景模型问题的两类融合技术框架,讨论了两者所面临的问题,并对其未来发展作出了展望,旨在为相关领域学者提供参考。 展开更多
关键词 倾斜摄影 点云配准 数据标准 模型融合 三维实景模型
下载PDF
基于LDA的煤矿安全隐患主题发现研究 被引量:17
18
作者 谭章禄 王泽 陈晓 《中国安全科学学报》 CAS CSCD 北大核心 2016年第6期123-128,共6页
为提高安全管理者对安全隐患数据的理解和认知水平,增强其隐患排查和治理能力,以潞安集团司马煤业有限公司2014年安全隐患记录为数据源,基于潜在狄利克雷分配模型(LDA)挖掘煤矿安全隐患主题。利用R软件进行主题模型参数估计、模型计算,... 为提高安全管理者对安全隐患数据的理解和认知水平,增强其隐患排查和治理能力,以潞安集团司马煤业有限公司2014年安全隐患记录为数据源,基于潜在狄利克雷分配模型(LDA)挖掘煤矿安全隐患主题。利用R软件进行主题模型参数估计、模型计算,最终优选出14个安全隐患主题;采用桑基图揭示隐患主题与责任主体、隐患致因之间的关系。结果表明:LDA主题模型能较好揭示煤矿安全隐患数据中的潜在规律,为煤矿隐患排查、隐患治理以及安全管理决策提供重要信息。 展开更多
关键词 煤矿隐患 潜在狄利克雷分配模型(LDA) Gibbs抽样算法 词云 桑基图
下载PDF
东北老工业基地振兴政策与规划实践的可视化比较 被引量:8
19
作者 薛冰 肖骁 +2 位作者 姜璐 任婉侠 张子龙 《辽宁大学学报(自然科学版)》 CAS 2018年第1期71-80,共10页
2003年以来,党中央、国务院相继出台了中发[2003]11号、国发[2009]33号和中发[2016]7号文一系列东北振兴若干意见.研究采用可视化云图法,挖掘上述三份文件出现的热词及其词频,阐释三份文件主旨内容的变化特征,特别分析《辽宁省国民经济... 2003年以来,党中央、国务院相继出台了中发[2003]11号、国发[2009]33号和中发[2016]7号文一系列东北振兴若干意见.研究采用可视化云图法,挖掘上述三份文件出现的热词及其词频,阐释三份文件主旨内容的变化特征,特别分析《辽宁省国民经济和社会发展第十三个五年规划纲要》(以下简称《规划》)与中发[2016]7号文的热词差异,并从人文与经济地理学视角提出了东北振兴战略的重要议题.得出结论:1)中发[2016]7号文对"发展"、"建设"、"企业"、"创新"、"经济"等关键词的关注度较高.在中发[2003]11号、国发[2009]33号、中发[2016]7号文的共性热词中,"发展"、"地区"、"东北"、"工业"、"基地"排在前五位,"发展"、"地区"、"东北"3个词的热度处于上升状态,"工业"、"基地"的热度逐渐降低."创新"、"加快"、"重点"、"重大"、"全面"、"合作"等新热词的出现反映了东北振兴意见的新指向以及新时期加快东北振兴的紧迫性;2)《规划》与中发[2016]7号文热词的重合度达到一半以上,且热度排名基本一致,《规划》特有的热词包括"工程"、"服务"、"体系"等,体现了辽宁省实现东北振兴的特色路径;3)从人文与经济地理学视角看,新一轮东北振兴涉及的主要议题包含资源型城市可持续发展、产业空间重组与转型升级、"一带一路"与国际合作、现代农业体系建设、绿色发展与生态文明等方面. 展开更多
关键词 人地系统 东北振兴 词云图 可持续发展
下载PDF
Hadoop云平台下Nutch中文分词的研究与实现 被引量:5
20
作者 朱潜 吴辰铌 +1 位作者 朱志良 刘洪娟 《小型微型计算机系统》 CSCD 北大核心 2013年第12期2772-2776,共5页
Nutch是开源搜索引擎,Hadoop是Apache开发的类似于Google GFS和MapReduce的开源云平台.利用Nutch和Hadoop可以设计高效、可靠、可扩展的搜索引擎,然而Nutch的分词模块对中文进行单字切分,不符合在汉语中以词语切分的习惯,为了解决这个问... Nutch是开源搜索引擎,Hadoop是Apache开发的类似于Google GFS和MapReduce的开源云平台.利用Nutch和Hadoop可以设计高效、可靠、可扩展的搜索引擎,然而Nutch的分词模块对中文进行单字切分,不符合在汉语中以词语切分的习惯,为了解决这个问题,采用词典分词的中文分词器IK Analyzer对Nutch的分词模块进行改进,首先描述在Nutch上实现IK Analyzer的方法,然后在Hadoop云环境下对该分词模块进行测试.测试结果表明,IK Analyzer的中文分词效果很符合汉语的习惯,对Nutch的理论和应用研究具有一定的意义. 展开更多
关键词 NUTCH HADOOP 中文分词 云计算
下载PDF
上一页 1 2 9 下一页 到第
使用帮助 返回顶部