-
题名电力非结构化大文本特征提取研究
- 1
-
-
作者
王家凯
黄佩卓
李勇乐
盛爽
刘洋
郑玲
魏振华
-
机构
国家电网有限公司大数据中心
华北电力大学
-
出处
《浙江电力》
2024年第6期117-124,共8页
-
基金
国家自然科学基金(62373150)
国家电网公司大数据中心科技专项资助项目(SGSJ0000YYJS2310054)。
-
文摘
电力大文本中存在大量专业词汇缩写和别名等不规则表达,现有分词工具无法有效识别电气工程领域专业词汇,这对非结构化文本的分析和利用造成很大影响。首先,根据电气工程领域非结构化文本特点,提出一种电气工程领域词汇索引规则,基于该索引规则构建的索引集进行分词能够有效改善分词效果,为电力文本特征提取提供基础。其次,利用有效的长文本分割算法保留原始文本语义信息,将基于BERT模型提取的文本特征信息与Word2Vec提取的电力词汇特征信息进行联合嵌入,从而提取到准确的电力非结构化大文本特征。最后,通过实验证明了所提出的电力非结构化大文本特征提取方法的有效性。
-
关键词
电力大文本
特征提取
BERT
文本分割
联合嵌入
-
Keywords
large power text
feature extraction
BERT
text segmentation
integrate and embed
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-