期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
基于领域类别信息C-value的多词串自动抽取 被引量:7
1
作者 李超 王会珍 +2 位作者 朱慕华 张俐 朱靖波 《中文信息学报》 CSCD 北大核心 2010年第1期94-98,共5页
该本的多词串抽取是自然语言处理领域一项重要的研究内容。该文提出了一种多类别C-value(Multi-Class C-value)方法,利用多词串在不同领域的分布信息改善领域相关的多词串抽取的性能。在汽车、科技和旅行三个领域的数据上进行实验,评价... 该本的多词串抽取是自然语言处理领域一项重要的研究内容。该文提出了一种多类别C-value(Multi-Class C-value)方法,利用多词串在不同领域的分布信息改善领域相关的多词串抽取的性能。在汽车、科技和旅行三个领域的数据上进行实验,评价多词串的准确率,在top-100级别上,较传统的C-value方法在三个领域中分别提高了12、12和13个百分点。实验结果验证了方法的有效性。 展开更多
关键词 计算机应用 中文信息处理 多词串抽取 多类别c-value 领域信息
下载PDF
基于C-value与TF-IDF的文献簇主题识别研究 被引量:11
2
作者 陈仕吉 王小梅 《情报学报》 CSSCI 北大核心 2009年第6期821-826,共6页
引文分析是科技情报分析的一种重要方法和技术,特别是建立在共耦合和共被引基础上的引文聚类分析逐渐发展成为科技情报分析中最活跃的研究领域之一。引文聚类分析形成一系列由科技文献组成的文献簇,并不能直接体现出文献簇的主题,因此... 引文分析是科技情报分析的一种重要方法和技术,特别是建立在共耦合和共被引基础上的引文聚类分析逐渐发展成为科技情报分析中最活跃的研究领域之一。引文聚类分析形成一系列由科技文献组成的文献簇,并不能直接体现出文献簇的主题,因此需要识别这些文献簇的内容特征。本文分析了引文分析中文献簇主题识别的典型方法及局限,提出了结合C-value和TF-IDF算法的文献簇主题识别方法。实验表明,该方法可以充分地利用C-value和TF-IDF算法的优点,对C-value和TF-IDF算法中不合理的地方予以了改进,从而可以更好地应用于引文分析中文献簇的主题识别。 展开更多
关键词 c-value TF-IDF CV-IDF 引文分析 主题识别
下载PDF
融合C-Value和LDA的社会化标签研究热点识别与分析
3
作者 冯翠翠 莫富传 《情报探索》 2019年第3期33-39,共7页
[目的/意义]旨在帮助研究人员更清晰地认识与界定国内社会化标签研究领域的热点和发展演化过程。[方法/过程]综合基于C-value术语抽取的词频分析和融合Gibbs抽样方法的LDA概率模型的优势,对社会化标签领域的研究热点进行识别。[结果/结... [目的/意义]旨在帮助研究人员更清晰地认识与界定国内社会化标签研究领域的热点和发展演化过程。[方法/过程]综合基于C-value术语抽取的词频分析和融合Gibbs抽样方法的LDA概率模型的优势,对社会化标签领域的研究热点进行识别。[结果/结论]个性化推荐、社会化标签系统、知识管理、网络信息资源检索、资源聚合、用户兴趣和情感倾向等是目前国内社会化标签研究的6大热点。社会化标签领域研究热点的识别与分析,有助于研究者更好地把握未来的研究方向。 展开更多
关键词 社会化标签 c-value算法 LDA模型 热点主题 个性化推荐 资源聚合
下载PDF
A Solution to the C-Value Paradox and the Function of Junk DNA: The Genome Balance Hypothesis 被引量:2
4
作者 Michael Freeling Jie Xu +1 位作者 Margaret Woodhouse Damon Lisch 《Molecular Plant》 SCIE CAS CSCD 2015年第6期899-910,共12页
The Genome Balance Hypothesis originated from a recent study that provided a mechanism for the phenom- enon of genome dominance in ancient polyploids: unique 24nt RNA coverage near genes is greater in genes on the re... The Genome Balance Hypothesis originated from a recent study that provided a mechanism for the phenom- enon of genome dominance in ancient polyploids: unique 24nt RNA coverage near genes is greater in genes on the recessive subgenome irrespective of differences in gene expression. 24nt RNAs target transposons. Transposon position effects are now hypothesized to balance the expression of networked genes and pro- vide spring-like tension between pericentromeric heterochromatin and microtubules. The balance (coordi- nation) of gene expression and centromere movement is under selection. Our hypothesis states that this balance can be maintained by many or few transposons about equally well. We explain known balanced dis- tributions of junk DNA within genomes and between subgenomes in allopolyploids (and our hypothesis passes "the onion test" for any so-called solution to the C-value paradox), importantly, when the allotetra- ploid maize chromosomes delete redundant genes, their nearby transposons are also lost; this result is ex- plained if transposons near genes function. The Genome Balance Hypothesis is hypothetical because the position effect mechanisms implicated are not proved to apply to all junk DNA, and the continuous nature of the centromeric and gene position effects have not yet been studied as a single phenomenon. 展开更多
关键词 junk DNA TRANSPOSONS c-value PARADOX gene regulation BALANCE
原文传递
基于语料库的对外汉语教学领域术语提取
5
作者 卢一鑫 《中国科技术语》 2024年第1期11-18,共8页
文章介绍了自动提取对外汉语教学领域术语的方法。以对外汉语教学领域文本为目标文本,遵循主题取向、语料科学性、样本代表性、规模有限性等原则,建立专用语料库,并对其进行分词标注等加工;将统计学和语言学规则相结合,引用C-value方法... 文章介绍了自动提取对外汉语教学领域术语的方法。以对外汉语教学领域文本为目标文本,遵循主题取向、语料科学性、样本代表性、规模有限性等原则,建立专用语料库,并对其进行分词标注等加工;将统计学和语言学规则相结合,引用C-value方法计算术语度值,探索该领域内不同长度术语的发现、辨识及提取的“混合方法”(hybrid solution),最终建立对外汉语教学术语集,其中包含单词型术语238个,两词术语375个,三词术语121个和50个由4~6个单词组成的长术语。 展开更多
关键词 专用语料库 术语提取 对外汉语教学 对外汉语教学术语集 c-value算法
下载PDF
基于统计与规则的术语抽取 被引量:2
6
作者 程斌 张水茂 《科技广场》 2009年第9期26-28,共3页
术语抽取是自然语言处理领域的一项基础性工作。本文提出了一种基于统计与规则相结合的术语抽取方法:首先在对生语料进行分词标注的基础上,通过基于词性规则的重复串查找得到候选术语,然后依据术语具有单元性和术语性的特点,先后采用SC... 术语抽取是自然语言处理领域的一项基础性工作。本文提出了一种基于统计与规则相结合的术语抽取方法:首先在对生语料进行分词标注的基础上,通过基于词性规则的重复串查找得到候选术语,然后依据术语具有单元性和术语性的特点,先后采用SCP以及C-value模型对候选术语进行过滤得到术语。实验表明该方法切实有效,可以识别不同长度和不同领域的术语,能够应用于词典编纂和术语抽取等领域。 展开更多
关键词 术语抽取 SCP模型 c-value模型
下载PDF
基于关键名词短语聚类的中文搜索结果聚类 被引量:1
7
作者 麻雪云 肖诗斌 +1 位作者 王弘蔚 施水才 《计算机工程与应用》 CSCD 北大核心 2009年第31期118-121,共4页
目前,搜索结果聚类方法大多数采用基于文档的方法,不能生成有意义的聚类标签。为了解决这个问题,提出一种基于关键名词短语聚类的中文搜索结果聚类方法,该方法将名词短语、相关搜索词作为候选聚类标签,利用C-Value算法、IDF值筛选标签,... 目前,搜索结果聚类方法大多数采用基于文档的方法,不能生成有意义的聚类标签。为了解决这个问题,提出一种基于关键名词短语聚类的中文搜索结果聚类方法,该方法将名词短语、相关搜索词作为候选聚类标签,利用C-Value算法、IDF值筛选标签,然后使用Chameleon算法将标签聚类,最后将搜索结果划分到最相关的聚类簇。实验证明,该方法把关键名词短语和相关搜索词作为聚类标签,有效地提高了标签的描述性,降低了聚类算法的时间复杂度。 展开更多
关键词 搜索结果聚类 关键名词短语抽取 c-value算法 CHAMELEON算法
下载PDF
基于短语的统计机器翻译中短语表的过滤 被引量:1
8
作者 狄萍 周宥良 +1 位作者 贡正仙 周国栋 《计算机应用与软件》 CSCD 2011年第5期28-30,41,共4页
大多数基于短语的统计机器翻译系统将任意连续的词串看作短语,并没有考虑短语的合理性。使用了C-value以及短语粘结度两种方法,有效地对短语表进行过滤,减小了搜索空间,同时还提高了翻译质量。实验表明,在翻译结果的BLEU评价提高0.02的... 大多数基于短语的统计机器翻译系统将任意连续的词串看作短语,并没有考虑短语的合理性。使用了C-value以及短语粘结度两种方法,有效地对短语表进行过滤,减小了搜索空间,同时还提高了翻译质量。实验表明,在翻译结果的BLEU评价提高0.02的情况下,短语表可以缩减为原来的78%。并且当短语表缩减为原来的47.5%时,BLEU评价仍提高了0.0158。 展开更多
关键词 统计机器翻译 短语表过滤 c-value 短语粘结度
下载PDF
基于音节划分及短语表优化的英汉人名音译研究 被引量:1
9
作者 王丹丹 黄德根 高扬 《中文信息学报》 CSCD 北大核心 2016年第3期96-102,共7页
把英汉人名音译问题转换为以音节为基本单位的翻译问题,将连续的音节组合看作短语,引入一种基于短语的统计机器翻译方法,实现英汉人名的音译。首先,针对现有音节划分方法存在的问题,提出一种改进的音节划分方法;其次,该文提出去除低频... 把英汉人名音译问题转换为以音节为基本单位的翻译问题,将连续的音节组合看作短语,引入一种基于短语的统计机器翻译方法,实现英汉人名的音译。首先,针对现有音节划分方法存在的问题,提出一种改进的音节划分方法;其次,该文提出去除低频词法及基于C-value方法对短语表进行优化,解决了训练语料偏小导致短语表中出现杂质信息的问题;之后,融入了汉语人名中首字(词)及尾字(词)的位置特征,改善了生成的音译候选中汉字选取的不合理性;最后,提出了两阶段音节划分方法,缓解了音节划分粒度过大导致的音译错误。与基准方法相比,其音译准确率ACC由63.78%提高到67.56%。 展开更多
关键词 英汉人名音译 音节划分 短语表优化 c-value
下载PDF
基于排序集成的哈萨克语固定短语抽取
10
作者 桑海岩 古丽拉·阿东别克 +1 位作者 孙瑞娜 陈莉 《计算机工程与应用》 CSCD 2014年第21期205-209,223,共6页
短语抽取是文本自动分类、主题提取及专利检索分析等文本信息理解等工作中都要应用到的一项关键技术。固定短语抽取作为短语研究的一部分,对短语标注、辞典编撰等自然语言处理任务都具有重要的现实意义。哈萨克语是黏着语,词形变化丰富... 短语抽取是文本自动分类、主题提取及专利检索分析等文本信息理解等工作中都要应用到的一项关键技术。固定短语抽取作为短语研究的一部分,对短语标注、辞典编撰等自然语言处理任务都具有重要的现实意义。哈萨克语是黏着语,词形变化丰富,这些特点给哈语固定短语的抽取带来了一定的困难。提出一个总体的固定短语抽取算法,把固定短语抽取看作一个排序问题,使用C-value、互信息和log-likelihood进行抽取排序,并设计了一个新的排序集成方法对抽取的结果进行集成。实验分析结果表明,与单独的抽取算法比较,该算法达到了更高的准确率。 展开更多
关键词 自然语言处理 固定短语 排序集成 互信息 似然比 c-value算法
下载PDF
Seismicity Factor A-Value and Its Application to Mid-Term Earthquake Prediction in North China
11
作者 Wang Wei, Song Xianyue, and Liu Zheng, and Wang ZhengzhengSeismological Bureau of Shanghai Municipality, Shanghai 200062, China Seismological Bureau of Jiangsu Province, Nanjing 210014, China 《Earthquake Research in China》 1999年第4期37-47,共11页
The seismicity factor A-value is defined by synthesizing the seismicity precursors in time, space and magnitude in this paper. The seismicity data of moderate or small earthquakes during 1972 ~ 1996 in North China are... The seismicity factor A-value is defined by synthesizing the seismicity precursors in time, space and magnitude in this paper. The seismicity data of moderate or small earthquakes during 1972 ~ 1996 in North China are used to perform spacial scanning of seismicity factor A-value. The result shows that there are obviously anomaly zones of A-value with better prediction effect in the mid-term of 2~3 years before most moderately strong earthquakes. Some problems regarding the mid-term prediction using A-value have been discussed. 展开更多
关键词 SEISMICITY FACTOR A-value SEISMIC spacial concentrative DEGREE c-value SEISMIC dangerous DEGREE D-VALUE SEISMIC magnitude FACTOR Mf-value.
下载PDF
Disturbance identification of electric field data observed by the CSES-01 satellite before earthquakes
12
作者 Jianping HUANG Fuzhi ZHANG +6 位作者 Zhong LI Xuhui SHEN Baiyi YANG Wenjing LI Zhima ZEREN Hengxin LU Qiao TAN 《Science China Earth Sciences》 SCIE EI CAS CSCD 2023年第8期1814-1824,共11页
Numerous studies have confirmed that electromagnetic disturbances before earthquakes can be observed by satellites.In this study,we use the C-value method that includes the acoustic whistle signature;pre-seismic ionos... Numerous studies have confirmed that electromagnetic disturbances before earthquakes can be observed by satellites.In this study,we use the C-value method that includes the acoustic whistle signature;pre-seismic ionospheric electromagnetic disturbance signals were acquired based on the CSES-01 satellite electric field data,and the maximum value of C in the earthquake preparation zones increased continuously from 2.0 three days before the earthquake and reached a maximum weight of 3.0 on the day of the earthquake,after the earthquake,it gradually decreased and recovered to about 2.0;its the C values fluctuated between-2 and 3,it is different from the C values range-2–12 of the previous seismic case study using the DEMETER satellite,which may be related to the orbital altitude and revisit period of the satellite.Then,the C values were normalized,and the time series analysis of the obtained θ values were done,and the results showed that:In the pregnant zone,the background variation of the disturbance amplitude θ is within 2σ,and the maximum disturbance amplitude of θ starts to increase gradually from the seventh period(one period of 5 days,i.e.,35–39 days before the earthquake),it reached 2σ by the fourth preseismic cycle(20–24 days before the earthquake),and then dropped sharply to about 1.5σ in the third pre-seismic cycle(15–19days before the earthquake),after two cycles of increase,the θ over the epicenter reached a maximum of 2.1σ at the time of the earthquake(combining the time of the earthquake and the satellite flight characteristics,the epicenter period is defined as January25-January 29,2020,and this defines the study time period line),and the θ decreases to within 2 times the standard range after the earthquake;The negative value of the disturbance amplitude θ in the central region of the pregnant seismic zone during the earthquake shows the transient energy release process.Through comparison,the θ values obtained by normalization based on the C-value method takes into account the variation of the background field,and the result can better reflect the energy change of the ionospheric field before the earthquakes. 展开更多
关键词 The CSES-01 satellite WHISTLE Electric field c-value method NORMALIZATION
原文传递
上下文分析与统计特征相结合的英文术语抽取研究 被引量:1
13
作者 许德山 张智雄 +1 位作者 王峰 邢美凤 《现代图书情报技术》 CSSCI 北大核心 2010年第12期28-33,共6页
介绍术语的基本特征,探讨科技术语的自动识别方法,并结合文本特征对TF-IDF和C-value两种主流统计指标进行改进。为了区分词汇位置对文档内容的影响,分别对不同位置的候选词设置不同的权重。最后设计并实现一个统计与规则相结合的科技术... 介绍术语的基本特征,探讨科技术语的自动识别方法,并结合文本特征对TF-IDF和C-value两种主流统计指标进行改进。为了区分词汇位置对文档内容的影响,分别对不同位置的候选词设置不同的权重。最后设计并实现一个统计与规则相结合的科技术语自动抽取系统,通过位置权重、C-value、TF-IDF指标的联合计算来识别术语,提高抽取的准确率。 展开更多
关键词 术语抽取 多词术语识别 加权TF-IDF c-value计算
原文传递
Estimation of Nuclear DNA Content in Tannin-rich Medicinal Plant Cornus officinalis by Flow Cytometry
14
作者 Bo Cao Lin-lin Zhang Cheng-ke Bai 《Chinese Herbal Medicines》 CAS 2014年第2期152-158,共7页
Objective The amount of nuclear DNA(C-value)is a key biodiversity character that provides strong unifying elements in revealing the phylogenetic regularity and relationship between genome size and functional traits ... Objective The amount of nuclear DNA(C-value)is a key biodiversity character that provides strong unifying elements in revealing the phylogenetic regularity and relationship between genome size and functional traits for plant resource.The estimation of C-values could primarily extend our knowledge on the genetic background and genome diversity for medicinal plants,and thereby the variation of pharmacological constituents and phylogenetic mechanism of medicinal plant taxa will be revealed.However,a large number of medicinal plants(e.g.Cornus officinalis)typically contain a series of secondary metabolites,especially tannic acid,which would significantly affect the estimation of DNA content by flow cytometry(FCM).Methodological discussions and improvement need to be made to solve this problem.Methods Two isolation buffers LB01 and Otto 1 were selected to prepare nuclear suspension with additional treatments of pre-soaking and centrifugation combination of gradient centrifugal force and duration.The best isolation and estimation methods were determined by FCM measurement in C.officinalis.Results The dry leaves were pre-soaked in Otto I buffer for 15 min and the Otto I nuclear suspension was centrifugated at 1.0×103 g for 2 min.The results showed that debris and nuclei were better separated and the scatterplots of good quality were obtained with low coefficient of variation(CV).Contrarily,the nuclear DNA content of C.officinalis could not be accurately estimated for nuclei extracted by LB01 buffer.Finally,2C-value and genome size of C.officinalis were first estimated as 5.92 pg and 2893 Mbp,respectively.Conclusion The new methods proposed here are able to accurately estimate DNA content of C.officinalis,which provides valuable references for the estimation of genome size in other tannin-rich medicinal plants. 展开更多
关键词 Cornus officinalis c-value DNA content flow cytometry genome size tannic acid
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部