期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
基于语义的中文网页检索 被引量:4
1
作者 余一骄 刘芹 《计算机科学》 CSCD 北大核心 2012年第8期79-87,共9页
用户期望搜索引擎能提供基于语义的网页信息检索。基于本体、基于自然语言理解、基于文本统计分析的方法是实现中文网页语义检索的主要途径。分析了它们的实现方法、技术挑战和优、缺点;建议中文网页语义检索系统的开发应选择与普通用... 用户期望搜索引擎能提供基于语义的网页信息检索。基于本体、基于自然语言理解、基于文本统计分析的方法是实现中文网页语义检索的主要途径。分析了它们的实现方法、技术挑战和优、缺点;建议中文网页语义检索系统的开发应选择与普通用户联系紧密的应用领域,并以汉语词汇为索引单元,适量地采用中文信息处理技术。基于语义的中文网页检索应在以下方面加强研究:语义相关性评价方法、本体构建和实体抽取算法、基于语义的索引、大规模语义标注样本集开发等。 展开更多
关键词 语义检索 中文网页 本体 分类 聚类 信息抽取
下载PDF
大规模中文语料库检索技术研究 被引量:4
2
作者 余一骄 刘芹 《计算机科学》 CSCD 北大核心 2015年第2期217-223,共7页
大型中文语料库的检索需求与通用文本检索系统差异很大,需要研究专门的中文语料库检索技术。Cici是一个面向GB规模的中文语料检索系统,它高效地实现了4种针对汉语研究的检索功能,涉及词性的检索、词或短语的重叠式检索、带通配符的汉字... 大型中文语料库的检索需求与通用文本检索系统差异很大,需要研究专门的中文语料库检索技术。Cici是一个面向GB规模的中文语料检索系统,它高效地实现了4种针对汉语研究的检索功能,涉及词性的检索、词或短语的重叠式检索、带通配符的汉字串检索、汉字串频次检索。实现以上检索功能的关键是:先统计语料库的N-gram汉字串频次,并将统计结果分别按频次大小及汉字串Unicode编码进行倒排序索引。对用户输入的检索请求,先检索汉字串频次统计结果,向用户反馈一个备选汉字串集合;然后让用户参与检索优化过程,选择正确性较高的汉字串;最后在语料库中检索用户选定的检索词。 展开更多
关键词 汉字 语料库 检索 词性 N-GRAM
下载PDF
面向超大规模的中文文本N-gram串统计 被引量:3
3
作者 余一骄 刘芹 《计算机科学》 CSCD 北大核心 2014年第4期263-268,共6页
中文文本统计软件Cici高效地实现了对超大规模中文文本语料N-gram串频次的统计与检索。通过统计不同规模中文语料库发现,当N等于6时,语料库中包含的不同N-gram汉字串数量最多。根据"句子"的平均长度和数量,可以准确估算语料... 中文文本统计软件Cici高效地实现了对超大规模中文文本语料N-gram串频次的统计与检索。通过统计不同规模中文语料库发现,当N等于6时,语料库中包含的不同N-gram汉字串数量最多。根据"句子"的平均长度和数量,可以准确估算语料库中包含的N-gram串数量。根据多数汉字串在语料库中出现频次低于10次的特点,提出对汉字串频次信息实现分段存储与排序,即对频次不超过10的汉字串独立存储,对频次高于10的汉字串进行分段排序与存储。对大规模中文文本应先进行分块统计,然后合并分块统计结果,建议分块规模约为20MB。 展开更多
关键词 汉字 N-GRAM 语料库 排序
下载PDF
指导本科生课程论文选题的几点建议 被引量:6
4
作者 余一骄 《教学研究》 2011年第1期24-27,91,共4页
根据长期指导本科生撰写课程论文的教学经历,本文讨论大学教师如何易行、高效地指导本科生改进论文选题。不合适的论文选题大多具有论述范围过大、立意陈旧、非学术性等特点。教师可以通过课堂点评的方式,帮助学生及时改进选题。另外,... 根据长期指导本科生撰写课程论文的教学经历,本文讨论大学教师如何易行、高效地指导本科生改进论文选题。不合适的论文选题大多具有论述范围过大、立意陈旧、非学术性等特点。教师可以通过课堂点评的方式,帮助学生及时改进选题。另外,引导本科生多阅读学术文献,提高学术批评素养,是增强学生课程论文选题能力的有效途径。 展开更多
关键词 课程论文 选题 论文提纲 论题点评 文献查阅
下载PDF
基于素质课程的本科生科研方法训练实证研究 被引量:3
5
作者 余一骄 《教学研究》 2012年第4期26-30,42,共6页
以在华中师范大学10次讲授公共素质课"本科生科研方法训练"的教学实践为例,讨论如何向本科生提供必要的科研方法训练。该课程的教学内容分为学术资源获取、学术论文写作方法、学术道德与规范、本科生在校科研活动、个人学术... 以在华中师范大学10次讲授公共素质课"本科生科研方法训练"的教学实践为例,讨论如何向本科生提供必要的科研方法训练。该课程的教学内容分为学术资源获取、学术论文写作方法、学术道德与规范、本科生在校科研活动、个人学术生涯规划五个模块。实践表明该课程的教学内容合理,教学方式可行,它能对学生未来的学习、科研、工作产生长期正面影响。文中还就广泛开展本科生科研方法训练的教学对象、教学定位、师资来源提出了建议。 展开更多
关键词 本科生 科研方法训练 自主学习 实证
下载PDF
基于大规模语料库的高频汉字串互信息分布规律分析
6
作者 余一骄 尹燕飞 刘芹 《计算机科学》 CSCD 北大核心 2014年第10期276-282,共7页
基于互信息的词典构建和自动分词是典型的基于统计的中文信息处理技术。通过计算大规模中文文本语料库的高频二字串、三字串、四字串的互信息发现:第一,高频词的互信息并不是很高,词和短语之间的互信息分布不存在明显界限;第二,高频无... 基于互信息的词典构建和自动分词是典型的基于统计的中文信息处理技术。通过计算大规模中文文本语料库的高频二字串、三字串、四字串的互信息发现:第一,高频词的互信息并不是很高,词和短语之间的互信息分布不存在明显界限;第二,高频无效汉字串的互信息与词和短语的互信息也没有明确界限,词、短语、无效汉字串互信息的夹杂分布,使得仅凭汉字串的互信息或频率很难高效地自动标注词、短语以及无效串。以上规律说明:单纯依赖对大规模真实文本语料库进行统计来实现高效的中文词典构建、自动分词处理等会面临极大挑战。 展开更多
关键词 汉字 短语 语料库 互信息 频率
下载PDF
“云上中文”教学科研数字化资源平台助力一流学科建设 被引量:1
7
作者 余一骄 《华中师范大学学报(人文社会科学版)》 CSSCI 北大核心 2020年第3期F0002-F0002,共1页
2017年底,华中师范大学中国语言文学学科在一流学科建设中,开始筹建“云上中文”教学科研数字化资源平台。该学科坚守“扎根中国大地办中文教育”的理念,努力探索如何在互联网时代,创造性地传承中华优秀文化,主动担当社会服务责任。如今... 2017年底,华中师范大学中国语言文学学科在一流学科建设中,开始筹建“云上中文”教学科研数字化资源平台。该学科坚守“扎根中国大地办中文教育”的理念,努力探索如何在互联网时代,创造性地传承中华优秀文化,主动担当社会服务责任。如今,“云上中文”平台建设已初具规模,取得了良好的社会反响。 展开更多
关键词 一流学科建设 教学科研 华中师范大学 中国语言文学 中华优秀文化 中文教育 互联网时代 云上
下载PDF
微信文本会话的语言风格统计与分析 被引量:1
8
作者 余一骄 《华中学术》 CSSCI 2017年第2期94-101,共8页
对大规模微信文本会话语料进行计算风格学分析,有利于揭示微信语言的特征。本文采集了252万余字的微信文本会话语料,从会话方式、会话长度、高频字、高频词、网络词语等角度进行了统计。统计数据表明:第一,文本会话方式比例逐渐降低,且... 对大规模微信文本会话语料进行计算风格学分析,有利于揭示微信语言的特征。本文采集了252万余字的微信文本会话语料,从会话方式、会话长度、高频字、高频词、网络词语等角度进行了统计。统计数据表明:第一,文本会话方式比例逐渐降低,且有70.83%的文本会话不超过7个汉字;第二,汉字频次分布极不均衡,少量高频汉字的覆盖率极高;第三,微信高频词与书面语高频词差异大,且不少高频词过于粗俗;第四,微信会话中较多地使用了已有的网络新词新语,但很少产生有影响的新词新语。 展开更多
关键词 微信 语言风格 统计 频次 汉字
原文传递
对频率与互信息在汉语词典编撰中的作用的实例考察
9
作者 余一骄 贾凌 《华中学术》 CSSCI 2015年第1期279-287,共9页
频率与互信息是近年来汉语新词自动发现中最重要的特征,它们还被列入现代汉语词典编撰选词原则中。本文以《现代汉语词典》(第6版)中全体包含'蛋'字的二字词、三字词为考察对象,分别在北京大学CCL语料库、华中师范大学Cici语料... 频率与互信息是近年来汉语新词自动发现中最重要的特征,它们还被列入现代汉语词典编撰选词原则中。本文以《现代汉语词典》(第6版)中全体包含'蛋'字的二字词、三字词为考察对象,分别在北京大学CCL语料库、华中师范大学Cici语料库中统计其频次,计算互信息。对比被收录词和部分未被收录词的频次和互信息却发现:部分被收录词的频次、互信息都比一些未被收录的词低。分析多组频次和互信息数值,可推测在《现代汉语词典》编撰中,词的频次与互信息其实不如词典编撰者的语感关键。 展开更多
关键词 频次 互信息 现代汉语词典 短语
原文传递
关于长期来华留学生微信群会话语码选择的统计分析
10
作者 余一骄 《华中学术》 2020年第3期139-147,共9页
本文针对30名来华留学生一年半内的微信群聊天语料,从文本方式与非文本方式的发言次数、汉语与学生母语的使用次数、汉字表述与拼音表述的频次等角度进行统计。统计结果表明:微信群交际中,多模态发言特征明显,留学生主动顺应了汉语环境... 本文针对30名来华留学生一年半内的微信群聊天语料,从文本方式与非文本方式的发言次数、汉语与学生母语的使用次数、汉字表述与拼音表述的频次等角度进行统计。统计结果表明:微信群交际中,多模态发言特征明显,留学生主动顺应了汉语环境中的网络交际模式;汉语是微信群交际的首选语言,但在涉及关键性事件处理或隐私保护时,可能会使用留学生的母语;绝大多数留学生坚持使用汉字表述,个别学生会少量使用拼音。 展开更多
关键词 语码 来华留学生 汉语 汉字 微信
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部