期刊文献+
共找到322篇文章
< 1 2 17 >
每页显示 20 50 100
Research of Web Documents Clustering Based on Dynamic Concept
1
作者 WANGYun-hua CHENShi-hong 《Wuhan University Journal of Natural Sciences》 EI CAS 2004年第5期547-552,共6页
Conceptual clustering is mainly used for solving the deficiency and incompleteness of domain knowledge. Based on conceptual clustering technology and aiming at the institutional framework and characteristic of Web the... Conceptual clustering is mainly used for solving the deficiency and incompleteness of domain knowledge. Based on conceptual clustering technology and aiming at the institutional framework and characteristic of Web theme information, this paper proposes and implements dynamic conceptual clustering algorithm and merging algorithm for Web documents, and also analyses the super performance of the clustering algorithm in efficiency and clustering accuracy. Key words conceptual clustering - clustering center - dynamic conceptual clustering - theme - web documents clustering CLC number TP 311 Foundation item: Supported by the National “863” Program of China (2002AA111010, 2003AA001032)Biography: WANG Yun-hua(1979-), male, Master candidate, research direction: knowledge engineering and data mining. 展开更多
关键词 conceptual clustering clustering center dynamic conceptual clustering THEME web documents clustering
下载PDF
Hierarchical Subtopic Segmentation of Web Document
2
作者 ZHANG Yun-tao GONG Ling WANG Yong-cheng 《Wuhan University Journal of Natural Sciences》 EI CAS 2006年第1期47-50,共4页
The paper proposes a novel method for subtopics segmentation of Web document. An effective retrieval results may be obtained by using subtopics segmentation. The proposed method can segment hierarchically subtopics an... The paper proposes a novel method for subtopics segmentation of Web document. An effective retrieval results may be obtained by using subtopics segmentation. The proposed method can segment hierarchically subtopics and identify the boundary of each subtopic. Based on the term frequency matrix, the method measures the similarity between adjacent blocks, such as paragraphs, passages. In the real-world sample experiment, the macro-averaged precision and recall reach 73.4 % and 82.5 %, and the micro-averaged precision and recall reach 72.9% and 83. 1%. Moreover, this method is equally efficient to other Asian languages such as Japanese and Korean, as well as other western languages. 展开更多
关键词 subtopic segmentation web document passage retrieval DISCOURSE
下载PDF
基于Web 2.0的软件工程实践教学平台设计
3
作者 张晶 《信息与电脑》 2024年第6期230-232,共3页
软件工程实践教学平台在运行过程中,存在没有全方位整合教学资源的问题。为此,提出基于Web 2.0的软件工程实践教学平台设计研究。将恩智浦iMX8MM开发板DB11作为平台硬件装置,构建Web 2.0技术为支撑的软件工程实践教学平台构架,动态整合... 软件工程实践教学平台在运行过程中,存在没有全方位整合教学资源的问题。为此,提出基于Web 2.0的软件工程实践教学平台设计研究。将恩智浦iMX8MM开发板DB11作为平台硬件装置,构建Web 2.0技术为支撑的软件工程实践教学平台构架,动态整合工程实践教学资源,并引入单参数项目信息函数作为软件工程实践教学资源的属性进行划分。在测试结果中,进程/线程交换率不仅能够结合并行请求规模实现适应性调整,而且调整的幅度较大。 展开更多
关键词 web 2.0 软件工程实践教学平台 iMX8MM开发板 平台构架 动态整合 单参数项目信息函数 web服务描述语言(WSDL)文档
下载PDF
Improving Web Document Clustering through Employing User-Related Tag Expansion Techniques 被引量:5
4
作者 李鹏 王斌 晋薇 《Journal of Computer Science & Technology》 SCIE EI CSCD 2012年第3期554-566,共13页
As high quality descriptors of web page semantics, social annotations or tags have been used for web document clustering and achieved promising results. However, most web pages have few tags (less than 10). This spa... As high quality descriptors of web page semantics, social annotations or tags have been used for web document clustering and achieved promising results. However, most web pages have few tags (less than 10). This sparsity seriously limits the usage of tags for clustering. In this work, we propose a user-related tag expansion method to overcome this problem, which incorporates additional useful tags into the original tag document by utilizing user tagging data as background knowledge. Unfortunately, simply adding tags may cause topic drift, i.e., the dominant topic(s) of the original document may be changed. To tackle this problem, we have designed a novel generative model called Folk-LDA, which jointly models original and expanded tags as independent observations. Experimental results show that 1) our user-related tag expansion method can be effectively applied to over 90% tagged web documents; 2) Folk-LDA can alleviate topic drift in expansion, especially for those topic-specific documents; 3) the proposed tag-based clustering methods significantly outperform the word-based methods., which indicates that tags could be a better resource for the clustering task. 展开更多
关键词 web document clustering social bookmarking topic model tag expansion
原文传递
Supporting B2B Business Documents in XML Web Services 被引量:3
5
作者 KIM Hyoungdo 《Journal of Electronic Science and Technology of China》 2004年第3期53-57,73,共6页
While XML web services become recognized as a solution to business-to-business transactions, there are many problems that should be solved. For example, it is not easy to manipulate business documents of existing stan... While XML web services become recognized as a solution to business-to-business transactions, there are many problems that should be solved. For example, it is not easy to manipulate business documents of existing standards such as RosettaNet and UN/EDIFACT EDI, traditionally regarded as an important resource for managing B2B relationships. As a starting point for the complete implementation of B2B web services, this paper deals with how to support B2B business documents in XML web services. In the first phase, basic requirements for driving XML web services by business documents are introduced. As a solution, this paper presents how to express B2B business documents in WSDL, a core standard for XML web services. This kind of approach facilitates the reuse of existing business documents and enhances interoperability between implemented web services. Furthermore, it suggests how to link with other conceptual modeling frameworks such as ebXML/UMM, built on a rich heritage of electronic business experience. 展开更多
关键词 business document XML web service EBXML
下载PDF
Web of Science核心数据库中信息素养教育研究历史文献分析
6
作者 顾春燕 《未来与发展》 2023年第9期63-72,92,共11页
了解国内外信息素养的研究历史与演进路径,为改善当前信息素养的培养方式方法提供研究经验。利用HistCite历史引文分析软件,以“Information literacy”或(or)“Information literature”或(or)“Information Accomplishment”或(or)“I... 了解国内外信息素养的研究历史与演进路径,为改善当前信息素养的培养方式方法提供研究经验。利用HistCite历史引文分析软件,以“Information literacy”或(or)“Information literature”或(or)“Information Accomplishment”或(or)“Information Attainment”为检索式对Web of Science核心数据库进行标题检索,时间跨度为“所有年份”,检索时间为2022年8月31日。对检索结果文献从核心作者、文献发表时间、文献发表国家、载文期刊、经典文献等方面进行详细的可视化分析,以此来揭示信息素养的研究历史与演进路径。最后为改善当前信息素养的培养方式方法提出三层渐进式教学模型:嵌入式教学、针对式教学、突击式教学。 展开更多
关键词 信息素养 web of Science HISTCITE 文献分析
下载PDF
浅谈基于二维码和BIM+Web协同管理技术的交通建设工程质量文件审核的优化程序
7
作者 余灏 《建筑经济》 北大核心 2023年第S02期336-338,共3页
为优化交通建设工程质量文件审核流程,采用二维码、Web Portal和BIM技术构建了交通建设工程质量文件审核程序框架。相比传统工程质量文件审核程序,该审核框架具有更强的可视化功能,能提高交通建设工程质量文件审核的效率、准确性和可管... 为优化交通建设工程质量文件审核流程,采用二维码、Web Portal和BIM技术构建了交通建设工程质量文件审核程序框架。相比传统工程质量文件审核程序,该审核框架具有更强的可视化功能,能提高交通建设工程质量文件审核的效率、准确性和可管理性,奠定了交通建设领域“智慧工地”基础。 展开更多
关键词 二维码 BIM+web协同管理技术 交通建设工程 质量文件管理
下载PDF
一种篇章结构指导的中文Web文档自动摘要方法 被引量:43
8
作者 王继成 武港山 +1 位作者 周源远 张福炎 《计算机研究与发展》 EI CSCD 北大核心 2003年第3期398-405,共8页
“摘要”、“关键词”是对文档内容提供简要概括的元数据 ,在Web信息检索中起着重要作用 针对Web信息检索的需求和Web文档的特点 ,采用拟人思维 ,提出了一种以篇章结构为指导的自动摘要方法 该方法对段落之间的内容语义关系进行分析 ,... “摘要”、“关键词”是对文档内容提供简要概括的元数据 ,在Web信息检索中起着重要作用 针对Web信息检索的需求和Web文档的特点 ,采用拟人思维 ,提出了一种以篇章结构为指导的自动摘要方法 该方法对段落之间的内容语义关系进行分析 ,进而划分出文档的主题层次 ,得到文档的篇章结构 ;在篇章结构的指导下 ,使用统计方法和启发式规则来提取文档的关键词、关键句 ,生成文档的摘要 在实验评估中 。 展开更多
关键词 自动摘要 篇章结构 web 信息检索
下载PDF
中文Web文档全文检索系统的设计及实现 被引量:15
9
作者 曹元大 贺海军 涂哲明 《北京理工大学学报》 EI CAS CSCD 北大核心 2002年第1期68-71,共4页
为解决在检索某些词时发生漏检或错检 ,以及查全率和查准率不高的问题 ,研究字索引技术在中文 Web文档检索中的应用 .着重讨论字索引组织结构和检索方法 ,并引入了字节对齐的索引压缩方法 ,最后描述了一个中文 Web文档全文检索系统的结... 为解决在检索某些词时发生漏检或错检 ,以及查全率和查准率不高的问题 ,研究字索引技术在中文 Web文档检索中的应用 .着重讨论字索引组织结构和检索方法 ,并引入了字节对齐的索引压缩方法 ,最后描述了一个中文 Web文档全文检索系统的结构和实现 .测试表明 ,该系统在响应时间和查准率方面性能均比较好 。 展开更多
关键词 全文检索 web文档 字索引 压缩算法 索引库 中文检索系统 系统设计
下载PDF
基于支持向量机的Web文本分类方法 被引量:19
10
作者 牛强 王志晓 +1 位作者 陈岱 夏士雄 《微电子学与计算机》 CSCD 北大核心 2006年第9期102-104,共3页
Web文本分类技术是数据挖掘中一个研究热点领域,而支持向量机又是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势。文章通过分析Web文本的特点,研究了向量空间模型(VSM)的分类方法和核函数的选取,在此基础上结... Web文本分类技术是数据挖掘中一个研究热点领域,而支持向量机又是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势。文章通过分析Web文本的特点,研究了向量空间模型(VSM)的分类方法和核函数的选取,在此基础上结合决策树方法提出了一种基于决策树支持向量机的Web文本分类模型,并给出具体的算法。通过实验测试表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率(90.11%)和召回率(89.38%)。 展开更多
关键词 支持向量机 特征提取 web文本 文本分类
下载PDF
基于KNN的Web文本分类方法的研究 被引量:8
11
作者 牛强 王志晓 +1 位作者 陈岱 夏士雄 《计算机应用与软件》 CSCD 北大核心 2007年第10期210-211,共2页
为了更有效地组织Internet上丰富的信息资源,通过分析Web文本的特点,提出了基于KNN的Web文本分类方法,并结合具体实验在对数据进行预处理的基础上实现了KNN分类算法。实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的... 为了更有效地组织Internet上丰富的信息资源,通过分析Web文本的特点,提出了基于KNN的Web文本分类方法,并结合具体实验在对数据进行预处理的基础上实现了KNN分类算法。实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率和召回率。 展开更多
关键词 KNN算法 特征提取 web文本 文本分类
下载PDF
XML与Web数据集成及技术实现 被引量:15
12
作者 周彦晖 邹显春 张为群 《西南师范大学学报(自然科学版)》 CAS CSCD 北大核心 2001年第3期255-259,共5页
由于HTML缺乏规范的数据表达能力 ,基于Web的数据集成往往很困难 .要使存在于Web上的数量巨大的数据易于共享、处理 ,利用XML (eXtensibleMarkupLanguage)技术可以很好地实现 .现有的XML技术包括XML解析器、文档对象模型、XSL等都可以... 由于HTML缺乏规范的数据表达能力 ,基于Web的数据集成往往很困难 .要使存在于Web上的数量巨大的数据易于共享、处理 ,利用XML (eXtensibleMarkupLanguage)技术可以很好地实现 .现有的XML技术包括XML解析器、文档对象模型、XSL等都可以很好地应用到各种平台下的Web应用程序中 。 展开更多
关键词 数据集成 可扩展标注语言 万维网 文档对象模型
下载PDF
基于Web技术的信息发布模型及其应用技术 被引量:13
13
作者 毕强 闫凤英 《情报学报》 CSSCI 北大核心 2001年第1期61-65,共5页
针对Web信息发布的文档类型 ,描述了基于Web技术的信息发布模型 ,阐明了Web与数据库的集成是Web信息发布的必然趋势 。
关键词 web文档 web信息资源发布 数据库发布 文档类型 信息发布模型 web 数据库 集成
下载PDF
Web网页信息变化的时间局部性规律及其验证 被引量:8
14
作者 孟涛 闫宏飞 王继民 《情报学报》 CSSCI 北大核心 2005年第4期398-406,共9页
掌握Web网页信息变化的时间规律可以更有针对性的指导搜索引擎等Web应用系统更有效地进行搜集.本文旨在研究中国范围内Web网页变化的时间规律,针对网页变化的频率和间隔两项指标,随机选取数百万网页作为样本,设计试验在一个月内对上述... 掌握Web网页信息变化的时间规律可以更有针对性的指导搜索引擎等Web应用系统更有效地进行搜集.本文旨在研究中国范围内Web网页变化的时间规律,针对网页变化的频率和间隔两项指标,随机选取数百万网页作为样本,设计试验在一个月内对上述两项指标进行考察.从结论中,我们发现网页变化的若干规律,并发现其中可能存在时间局部性规律.因此,我们引入了堆栈距离模型,在针对Web网页的变化特性和具体实验方法对其修正之后,再次设计实验对网页变化的时间局部性规律进行考察.结果表明,网页的变化存在明显的时间局部性.最后,介绍了这种时间局部性规律在网页搜集中的实际应用. 展开更多
关键词 web网页 时间局部性 堆栈距离模型 变化次数 变化间隔 时间规律 局部性 信息 验证 应用系统
下载PDF
一种基于SOM的中文Web文档层次聚类方法 被引量:14
15
作者 陈福集 杨善林 《情报学报》 CSSCI 北大核心 2002年第2期173-176,共4页
近年来Internet迅猛发展 ,网上的信息急剧膨胀 ,如何高效、高质量地检索到用户所感兴趣的中文信息资源 ,是当前我国Internet资源发现的热点问题之一。本文将神经网络聚类方法之一SOM(Self OrganizingMap ,自组织特征映射 )的思想和方法... 近年来Internet迅猛发展 ,网上的信息急剧膨胀 ,如何高效、高质量地检索到用户所感兴趣的中文信息资源 ,是当前我国Internet资源发现的热点问题之一。本文将神经网络聚类方法之一SOM(Self OrganizingMap ,自组织特征映射 )的思想和方法引入中文Web搜索引擎 ,首先探讨了其网络模型和算法 ,而后提出一种聚类用户所感兴趣的中文Web文档的层次聚类方法 。 展开更多
关键词 自组织特征映射 神经网络 层次聚类方法 中文web文档 因特网 SOM
下载PDF
Web文档清洗技术 被引量:3
16
作者 张波 王继成 +1 位作者 王强 张福炎 《计算机科学》 CSCD 北大核心 2002年第6期52-54,共3页
1引言 随着Internet在全球的迅速发展,WWW(World WideWeb)已经发展成为一个包含多种信息资源、站点遍布全球的巨大信息服务网络,为用户提供了一个极具价值的信息源,并已成为世界范围内信息共享和信息传播的最主要渠道之一.WWW系统一经出... 1引言 随着Internet在全球的迅速发展,WWW(World WideWeb)已经发展成为一个包含多种信息资源、站点遍布全球的巨大信息服务网络,为用户提供了一个极具价值的信息源,并已成为世界范围内信息共享和信息传播的最主要渠道之一.WWW系统一经出现,就得到了迅猛的发展,无论是WWW站点数还是WWW用户数,都是以每年5~10倍的速度呈指数形式增长.目前仅中国的Internet用户就已经达到了2500万. 展开更多
关键词 web Internet WWW 信息资源 信息挖掘 文档清洗 计算机网络 信息检索
下载PDF
基于Rough集潜在语义索引的Web文档分类 被引量:7
17
作者 何明 冯博琴 傅向华 《计算机工程》 CAS CSCD 北大核心 2004年第13期3-5,共3页
Rough集(粗糙集)理论是一种处理不确定或模糊知识的数学工具。提出了一种基于Rough集理论的潜在语义索引的Web文档分类 方法。首先应用向量空间模型表示Web文档信息,然后通过矩阵的奇异值分解来进行信息过滤和潜在语义索引;运用属性约... Rough集(粗糙集)理论是一种处理不确定或模糊知识的数学工具。提出了一种基于Rough集理论的潜在语义索引的Web文档分类 方法。首先应用向量空间模型表示Web文档信息,然后通过矩阵的奇异值分解来进行信息过滤和潜在语义索引;运用属性约简算法生成分类 规则,最后利用多知识库进行文档分类。通过试验比较,该方法具有较好的分类效果。 展开更多
关键词 粗糙集 潜在语义索引 web文档分类 信息过滤 信息检索
下载PDF
基于概念格的Web文本聚类 被引量:3
18
作者 李云 田素方 +1 位作者 李拓 徐涛 《计算机工程与应用》 CSCD 北大核心 2008年第23期169-171,186,共4页
Web文本聚类大多是基于空间向量文本表示模型的,它没有考虑特征词之间的语义关系,并且特征词的维数非常高,造成文本语义信息的损失和时间复杂度的增加。把文本作为对象,文本中的特征词作为对应的属性,形成了基于文本的形式背景,从中提... Web文本聚类大多是基于空间向量文本表示模型的,它没有考虑特征词之间的语义关系,并且特征词的维数非常高,造成文本语义信息的损失和时间复杂度的增加。把文本作为对象,文本中的特征词作为对应的属性,形成了基于文本的形式背景,从中提取概念来表示文本并度量文本之间的相似度,从而降低了特征词的维数,减少了计算的复杂度,取得了良好的聚类结果。 展开更多
关键词 web文档 聚类 概念格 约简
下载PDF
一种新的加权后缀树Web文档聚类方法 被引量:2
19
作者 杨瑞龙 朱庆生 +1 位作者 谢洪涛 屈洪春 《系统仿真学报》 CAS CSCD 北大核心 2011年第3期474-479,共6页
针对Web文档的结构及其特征,提出了一种新的加权后缀树聚类方法WSTC。首先,根据Web文档的HTML标签,把文档划分为具备不同重要性等级的段,段划分成句子,句子分割为词。其次,用句子替代文档构造后缀树,把其重要性等级作为结构权融入后缀... 针对Web文档的结构及其特征,提出了一种新的加权后缀树聚类方法WSTC。首先,根据Web文档的HTML标签,把文档划分为具备不同重要性等级的段,段划分成句子,句子分割为词。其次,用句子替代文档构造后缀树,把其重要性等级作为结构权融入后缀树的节点,形成文档集的加权后缀树模型。最后,在选择和合并基类过程中,综合利用节点包含的文档数、句子数、短语长度和结构权。仿真实验表明,WSTC算法比传统STC算法取得了更好的聚类效果。 展开更多
关键词 后缀树 后缀树聚类 web文档聚类 web文档结构 权重计算
下载PDF
基于概念分组的Web搜索结果聚类算法 被引量:2
20
作者 李红梅 丁振国 +1 位作者 周水生 周利华 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2009年第1期130-134,共5页
为了便于用户浏览搜索引擎返回的搜索结果,快速有效地定位有价值的Web文档,提出了基于概念分组的Web搜索结果聚类算法.首先,建立特征词同现网络,利用概念分组技术挖掘特征词之间的语义关联,形成主题概念类;然后,计算文档与各概念类之间... 为了便于用户浏览搜索引擎返回的搜索结果,快速有效地定位有价值的Web文档,提出了基于概念分组的Web搜索结果聚类算法.首先,建立特征词同现网络,利用概念分组技术挖掘特征词之间的语义关联,形成主题概念类;然后,计算文档与各概念类之间的距离,据此实现Web搜索结果的聚类;最后,综合考虑特征词在类内和文档集中的重要性进行类别标签的选择.实验结果表明本算法具有较好的聚类性能,明显优于k-均值算法,且产生的类别标签容易理解. 展开更多
关键词 信息检索 搜索引擎 web文档 聚类 概念分组
下载PDF
上一页 1 2 17 下一页 到第
使用帮助 返回顶部