摘要
Dmoz和Yahoo的标签采用不同的文法。为了统一它们的文法以利于搜索引擎的检索,对它们的标签结构进行了分析,统计出了相关的数据,并根据这些数据得出分别用于描述这两种标签结构的BNF(Backus-NaurForm)文法,然后将这两个BNF文法整合成一个,并应用JavaCC(Java Compiler Compiler)实现了对该文法的检测。在这个BNF文法的指导下,程序能够有效地判断一个标签模式是否满足Dmoz和Yahoo标签文法,为Web挖掘提供了良好的检测工具。
Dmoz and Yahoo apply different kinds of syntax. To unify their syntax so that searching engine can do well, their structures of labels are analyzed. Related data are gotten from statistic. According to the data, BNF (Backus-Naur form) syntax for describing the 2 kinds of labels are gotten respectively. Then the 2 kinds of BNF syntax are unified to be one, and realized the detection of this syntax. Under the direction of this BNF syntax, the program can effectively determine whether a label mode satisfies the syntax of Dmoz or Yahoo. Fine detection tool is supplied for web mining.
出处
《计算机工程与设计》
CSCD
北大核心
2009年第19期4520-4523,共4页
Computer Engineering and Design
基金
国家自然科学基金项目(60673023
10872077)
国家863高技术研究发展计划基金项目(2007AA04Z114)
广东省教育部产学研合作基金项目(2007B090400031)
欧盟国际合作基金项目(TH/AsiaLink/010(111084))
吉林省科技发展计划基金项目(20080708)