期刊文献+
共找到95篇文章
< 1 2 5 >
每页显示 20 50 100
Crowd-Guided Entity Matching with Consolidated Textual Data
1
作者 Zhi-Xu Li Qiang Yang +5 位作者 An Liu Guan-Feng Liu Jia Zhu Jia-Jie Xu Kai Zheng Min Zhang 《Journal of Computer Science & Technology》 SCIE EI CSCD 2017年第5期858-876,共19页
Entity matching (EM) identifies records referring to the same entity within or across databases. Existing methods using structured attribute values (such as digital, date or short string values) may fail when the stru... Entity matching (EM) identifies records referring to the same entity within or across databases. Existing methods using structured attribute values (such as digital, date or short string values) may fail when the structured information is not enough to reflect the matching relationships between records. Nowadays more and more databases may have some unstructured textual attribute containing extra consolidated textual information (CText) of the record, but seldom work has been done on using the CText for EM. Conventional string similarity metrics such as edit distance or bag-of-words are unsuitable for measuring the similarities between CText since there are hundreds or thousands of words with each piece of CText, while existing topic models either cannot work well since there are no obvious gaps between topics in CText. In this paper, we propose a novel cooccurrence-based topic model to identify various sub-topics from each piece of CText, and then measure the similarity between CText on the multiple sub-topic dimensions. To avoid ignoring some hidden important sub-topics, we let the crowd help us decide weights of different sub-topics in doing EM. Our empirical study on two real-world datasets based on Amzon Mechanical Turk Crowdsourcing Platform shows that our method outperforms the state-of-the-art EM methods and Text Understanding models. 展开更多
关键词 entity matching consolidated textual data crowdsourcing
原文传递
企业网络地位对数据资产信息披露的影响研究
2
作者 何地 赵唱 庞铭 《工业技术经济》 北大核心 2025年第1期75-84,共10页
随着数据资产作为重要战略资源的价值日益凸显,数据资产信息披露已经成为学术界和实业界共同关注的重要议题。本文基于2009~2023年A股上市公司数据,实证检验了企业网络地位对数据资产信息披露的影响及作用机制。研究结果发现,企业网络... 随着数据资产作为重要战略资源的价值日益凸显,数据资产信息披露已经成为学术界和实业界共同关注的重要议题。本文基于2009~2023年A股上市公司数据,实证检验了企业网络地位对数据资产信息披露的影响及作用机制。研究结果发现,企业网络地位对其数据资产信息披露水平具有正向影响。机制分析结果表明,客户集中度在企业网络地位对其数据资产信息披露水平的影响中发挥调节作用,即客户集中度越低,企业网络地位对其数据资产信息披露水平的影响越强。异质性分析结果发现,对于非国有企业、多阶(长链)结构和小规模企业而言,企业网络地位对数据资产信息披露的影响效果尤为明显。本文揭示了企业网络地位影响数据资产信息披露的微观机制,为我国完善数据要素市场制度以及促进数字经济高质量发展提供了政策启示。 展开更多
关键词 企业网络地位 数字资产信息披露 客户集中度 文本分析法 信号传递理论 数字经济 数字化转型 企业竞争力
下载PDF
大数据赋能的企业会“环保作秀”吗?——基于漂绿行为视角 被引量:1
3
作者 孙建军 祖楠楠 王浩瑞 《财经论丛》 CSSCI 北大核心 2024年第10期92-102,共11页
在“数字+绿色”双转型时代,大数据赋能如何影响企业漂绿行为成为重要的研究议题。本文通过对A股上市企业年报的文本分析,构建企业层面大数据赋能的度量指标,考察大数据赋能对企业漂绿行为的影响及作用机制。实证结果发现,大数据赋能显... 在“数字+绿色”双转型时代,大数据赋能如何影响企业漂绿行为成为重要的研究议题。本文通过对A股上市企业年报的文本分析,构建企业层面大数据赋能的度量指标,考察大数据赋能对企业漂绿行为的影响及作用机制。实证结果发现,大数据赋能显著抑制企业漂绿行为;机制分析表明,大数据赋能通过提高企业绿色业绩和缓解企业信息不对称抑制企业漂绿行为;异质性分析表明,大数据赋能对企业漂绿行为的抑制效应在国有企业、市场竞争程度较高或北方地区企业中更为显著。研究结论对推动企业应用大数据技术实现漂绿治理的政策设计提供经验证据,也为企业实现数字与绿色双转型提供决策参考。 展开更多
关键词 大数据 漂绿 绿色业绩 信息不对称 文本分析
下载PDF
融合TF-IDF算法和预训练模型的文本数据增强 被引量:1
4
作者 胡荣笙 车文刚 +1 位作者 张龙 戴庞达 《计算机仿真》 2024年第5期495-500,共6页
针对自然语言处理领域的数据增强问题,首次提出了一种基于TF-IDF算法和预训练语言模型BERT融合的文本数据增强方法。首先,改进传统的基于随机策略的词元选择方法,避免对语义起到关键作用的词元进行改写,利用TF-IDF算法提取样本的非核心... 针对自然语言处理领域的数据增强问题,首次提出了一种基于TF-IDF算法和预训练语言模型BERT融合的文本数据增强方法。首先,改进传统的基于随机策略的词元选择方法,避免对语义起到关键作用的词元进行改写,利用TF-IDF算法提取样本的非核心词,得到替换的目标词元;之后针对现有算法在生成新数据时,依赖输入样本而导致的增强样本多样化受限问题,融合BERT模型预测目标替换词元,并使用预测的结果替换目标词元。实验结果表明,基于TF-IDF和BERT预训练模型融合的文本数据增强算法有效提升深度学习模型的性能达5.8%,优于现有的文本数据增强算法。 展开更多
关键词 自然语言处理 深度学习 文本数据增强 预训练语言模型
下载PDF
中青年心肌梗死患者院前症状及就医情况的文本挖掘
5
作者 黄晶晶 黄素芳 +4 位作者 王荃 刘雨晨 张可心 盛晓萱 刘诗雅 《护理学杂志》 CSCD 北大核心 2024年第18期28-31,共4页
目的了解中青年急性心肌梗死患者的院前症状和就医特征,为医护人员开展针对性健康教育以改善患者就医延迟提供参考。方法根据纳入及排除标准,从医院的医疗大数据平台提取200例中青年急性心肌梗死患者的电子病历数据,对其电子病历中的非... 目的了解中青年急性心肌梗死患者的院前症状和就医特征,为医护人员开展针对性健康教育以改善患者就医延迟提供参考。方法根据纳入及排除标准,从医院的医疗大数据平台提取200例中青年急性心肌梗死患者的电子病历数据,对其电子病历中的非结构化文本信息进行文本挖掘,使用词频分析和可视化方法分析患者院前症状和就医情况。结果胸痛和胸闷是中青年急性心肌梗死患者的典型和特异症状,大汗、乏力、心慌等是次常见和次强相关的院前症状。148例患者选择当地就诊后寻求进一步诊治而转诊上级医院。结论中青年急性心肌梗死患者就医前有不同程度的典型症状或非典型症状,患者就医情况与病情有关。医疗大数据平台在操作便利性、数据获取能力方面展现出独特优势,但数据质量需提高。 展开更多
关键词 中青年 急性心肌梗死 院前症状 就医延迟 医疗大数据平台 电子病历 文本数据 文本挖掘
下载PDF
CoSTUR:面向用户评级的空间文本竞争选址
6
作者 李晨伟 默梓鹏 赵梦霏 《计算机系统应用》 2024年第8期176-186,共11页
随着GPS定位技术和移动互联网的发展,各类LBS(location-based service)应用积累了大量带有位置和文本标记的空间文本数据,这些数据广泛应用于市场营销、城市规划等设施选址决策中.空间文本选址的目标是从候选位置集合中挖掘最佳地点新... 随着GPS定位技术和移动互联网的发展,各类LBS(location-based service)应用积累了大量带有位置和文本标记的空间文本数据,这些数据广泛应用于市场营销、城市规划等设施选址决策中.空间文本选址的目标是从候选位置集合中挖掘最佳地点新建设施,以期影响最多空间文本对象,如用户或车辆等,其中空间距离越接近且文本越相似则影响力越大.现有方案未考虑现实普遍存在的同行竞争,也忽略了用户对设施的评价因素.为更合理地在同行竞争环境结合用户评级进行选址决策,本文提出新的空间文本竞争选址问题CoSTUR.通过引入权衡影响的确定性和数量的阈值,解决传统模型中对象只能被单一设施影响的局限,建模了用户可能同时受多个设施影响的真实情况.借鉴经典的竞争均分模型,实现了不同评级设施间竞争量化.为降低大规模数据导致的高昂计算代价,构建了新型空间文本索引结构TaR-tree,并结合阈值设计基于影响范围的两个剪枝策略,实现基于分支定界思想的空间连接和范围查询两种方案.在真实和合成数据集上的实验结果显示,相比基线算法计算效率能够提升近一个量级,说明提出方法的有效性. 展开更多
关键词 空间文本数据 选址问题 空间文本索引 竞争影响 多设施影响 用户评级
下载PDF
DEPA数据跨境传输规则研究——基于与综合性FTAs的文本比较分析
7
作者 李雪娇 《石家庄学院学报》 CAS 2024年第2期55-63,共9页
数字经济浪潮已然掀起,DEPA作为全球第一个专门数字经贸规则在数字治理中占有重要地位。数据跨境传输是数字经济的关键议题,基于与USMCA、CPTPP和RCEP的文本对比可知,DEPA数据跨境传输规则与上述三大国际协定多有关联,亦存在诸多差异。D... 数字经济浪潮已然掀起,DEPA作为全球第一个专门数字经贸规则在数字治理中占有重要地位。数据跨境传输是数字经济的关键议题,基于与USMCA、CPTPP和RCEP的文本对比可知,DEPA数据跨境传输规则与上述三大国际协定多有关联,亦存在诸多差异。DEPA数据跨境传输规则是高自由化、高标准的规则,中国对标DEPA,需要适时转变观念,在对外宣传上强调对数据跨境自由传输的支持,同时完善国内数据跨境治理规则、持续提高数字科技,争取更大的国际数字治理话语权。 展开更多
关键词 DEPA 数据跨境传输规则 USMCA CPTPP RCEP 文本分析
下载PDF
基于桑基图的时间序列文本可视化方法 被引量:41
8
作者 姜婷婷 肖卫东 +1 位作者 张翀 葛斌 《计算机应用研究》 CSCD 北大核心 2016年第9期2683-2687,2692,共6页
针对新的可视化方法以及成熟的技术在不同类型数据方面的应用需要不断提出和创新的问题,提出了一种用桑基图来展现时间序列文本数据的可视化方法,并设计了相关的可视化算法。使用金融文本数据集对提出方法进行了验证,证明了方法的有效... 针对新的可视化方法以及成熟的技术在不同类型数据方面的应用需要不断提出和创新的问题,提出了一种用桑基图来展现时间序列文本数据的可视化方法,并设计了相关的可视化算法。使用金融文本数据集对提出方法进行了验证,证明了方法的有效性。这种可视化方法能够对时间序列文本数据形象展现,对隐含的知识能够有效挖掘,具有很好的实用性。 展开更多
关键词 桑基图 时序数据 可视化 文本
下载PDF
多粒度时间文本数据的周期模式挖掘算法 被引量:1
9
作者 孟志青 楼婷渊 胡强 《计算机科学》 CSCD 北大核心 2013年第11A期251-254,262,共5页
大规模文本数据挖掘是大数据分析的重要分支,也是近年来的一个研究热点。研究了多粒度时间文本数据周期模式挖掘算法,首先提出了时间粒度转换、多粒度时间间隔等概念,然后建立了文本数据的周期模型,给出了一个多粒度时间文本下的周期模... 大规模文本数据挖掘是大数据分析的重要分支,也是近年来的一个研究热点。研究了多粒度时间文本数据周期模式挖掘算法,首先提出了时间粒度转换、多粒度时间间隔等概念,然后建立了文本数据的周期模型,给出了一个多粒度时间文本下的周期模式挖掘算法,最后对大量病毒文本文献数据进行了实验,表明了提出的算法可以挖掘一些有效的周期模式,讨论了周期宽松度对支持度和置信度的影响。该研究为大文本数据分析提供了一种新的方法。 展开更多
关键词 多粒度时间 文本数据 数据挖掘 周期模式
下载PDF
量化文本分析法在国内外工商管理领域的应用对比与评述 被引量:15
10
作者 宋铁波 陈玉娇 朱子君 《管理学报》 CSSCI 北大核心 2021年第4期624-632,共9页
基于1980~2019年的国外281篇和国内73篇相关文献,使用编码方法,对量化文本分析法在工商管理领域的应用总体情况、应用主题分布、具体方法的应用情况分别进行国内外对比,探索量化文本分析法在国内外应用的差异性以及国内应用的局限性。然... 基于1980~2019年的国外281篇和国内73篇相关文献,使用编码方法,对量化文本分析法在工商管理领域的应用总体情况、应用主题分布、具体方法的应用情况分别进行国内外对比,探索量化文本分析法在国内外应用的差异性以及国内应用的局限性。然后,总结量化文本分析法应用于工商管理领域可解决的问题类型、方法的优势、面临的挑战及对策。研究发现,量化文本分析法可有效解决主题量化、主体对比、未知主题提炼三大类问题。并从量化文本分析法的研究主题拓展、研究方法优化两个方面,展望了中国工商管理领域研究中的量化文本分析法的应用前景。 展开更多
关键词 文本数据 量化文本分析法 国内外对比 主题拓展 方法优化
下载PDF
138年金城-陇西6(3/4)级地震的史料考证与发震构造背景探讨 被引量:16
11
作者 袁道阳 雷中生 +3 位作者 刘小凤 刘百篪 才树华 郑文俊 《地震地质》 EI CSCD 北大核心 2004年第1期52-60,共9页
对 138年金城 -陇西 6 3/4 级地震的历史资料考证、黄土滑坡分布及活动构造的综合研究表明 :在 138年地震中遭破坏的东汉金城郡郡治允吾县应在今青海省民和县马场垣乡下川口附近 ;陇西郡治狄道县在今甘肃省临洮县城。由此确定 138年地... 对 138年金城 -陇西 6 3/4 级地震的历史资料考证、黄土滑坡分布及活动构造的综合研究表明 :在 138年地震中遭破坏的东汉金城郡郡治允吾县应在今青海省民和县马场垣乡下川口附近 ;陇西郡治狄道县在今甘肃省临洮县城。由此确定 138年地震的极震区位置大致在今甘肃省永靖县西北的湟水、黄河交汇地带。该区也是黄土滑坡密集分布区 ,其中的大型滑坡应为地震滑坡。在构造上该区位于拉脊山北缘弧形逆冲断裂带的前缘。拉脊山北缘断裂带为一条晚更新世活动断裂 ,部分地段为全新世活动 ,其向NE方向的逆冲推覆致使古近系泥岩和早更新世砾岩等发生了明显的挤压褶皱变形。石油勘探资料也证实拉脊山北缘弧形构造带前缘在深部存在隐伏的挤压逆冲断褶带。由此推断 138年金城 -陇西 6 3/4 级地震的发生很可能与该逆断裂 -褶皱带的新活动有关。 展开更多
关键词 滑坡 历史地震 地震构造 史料考证 地震志
下载PDF
1609年甘肃红崖堡7(1/4)级地震考证 被引量:20
12
作者 刘兴旺 雷中生 +1 位作者 袁道阳 曹娜 《西北地震学报》 CSCD 北大核心 2011年第2期143-148,共6页
通过对1609年红崖堡地震历史资料的考证和对红崖堡、清水堡和肃州等城堡、边墙等的实地调查,认为极震区大致位于今红崖子、金佛寺一带,震中烈度为Ⅹ度,震级可达7级,等震线长轴方向为NWW向。同时修订了前人对本次地震记载三处不实之处。
关键词 1609年红崖堡地震 历史地震 史料考证
下载PDF
MapReduce框架下基于范围的空间文本相似连接 被引量:3
13
作者 陈子军 张娟娜 刘文远 《小型微型计算机系统》 CSCD 北大核心 2015年第10期2245-2251,共7页
基于范围的空间文本相似连接是一种重要的操作,在现实生活中具有广泛的应用,例如社交推荐,但是随着数据量的迅猛增长,单机模式不能有效地对大规模的数据执行该操作.基于此,本文研究在MapReduce框架下实现该操作的方法,该方法由两个阶段... 基于范围的空间文本相似连接是一种重要的操作,在现实生活中具有广泛的应用,例如社交推荐,但是随着数据量的迅猛增长,单机模式不能有效地对大规模的数据执行该操作.基于此,本文研究在MapReduce框架下实现该操作的方法,该方法由两个阶段构成,第一阶段产生文本标签的整体序,第二阶段进行相似连接操作.提出基于M限制矩形的数据划分策略以减少数据的复制规模,既减少了每个节点的计算量,又裁减掉了部分不相似的对象对.提出基于网格的冗余避免策略,避免了相似对象对的重复计算.最后,通过实验验证了本文所提方法的有效性. 展开更多
关键词 MAPREDUCE 空间文本相似连接 数据划分 M限制矩形
下载PDF
运用历史地震资料重在考证 被引量:4
14
作者 皇甫岗 罗荣联 《地震研究》 CSCD 北大核心 2008年第4期304-307,共4页
完备、翔实、可靠的历史地震资料是研究地震活动性的重要基础。云南地区历史地震事件漏载数量巨大,深入挖掘史料并认真考证,对于历史地震编目和地震活动性研究尤为重要。以云南为例,阐述了历史地震资料考证的重要性、原则和例证,进而认... 完备、翔实、可靠的历史地震资料是研究地震活动性的重要基础。云南地区历史地震事件漏载数量巨大,深入挖掘史料并认真考证,对于历史地震编目和地震活动性研究尤为重要。以云南为例,阐述了历史地震资料考证的重要性、原则和例证,进而认为:历史地震资料的采择应当审慎;应使用最新出版的经过考证的资料;采用本文所述考证原则对解决疑难历史地震有效;历史上的某些点滴记载有时可能是大地震事件的线索,值得深入考证;加强历史地震基础性研究,对于地震学科的发展十分重要。 展开更多
关键词 地震活动 历史地震 资料 考证 云南地区
下载PDF
1125年兰州7级地震震中位置初探 被引量:10
15
作者 雷中生 包向农 张颖 《西北地震学报》 CSCD 2000年第2期191-193,共3页
通过史料考证 ,确定了 112 5年兰州 7级大震时被震毁的益机滩堡的位置 .根据史料记载的该次地震的破坏范围及实地考察结果 ,认为该次地震的震中位置可能在现今河口及八盘峡、西固、阿干镇一带 ,在这一范围内 ,黄土滑坡密集分布 .
关键词 甘肃 震中区 史实考证 1125年 兰州7级地震
下载PDF
产品特征的层次关系获取 被引量:5
16
作者 黄永文 何中市 伍星 《计算机工程与应用》 CSCD 北大核心 2009年第22期236-240,共5页
产品评论挖掘用来对用户发表到网络上的众多评论内容进行信息提取,从而获得用户对产品的部件或功能的褒贬评价。现有的产品评论挖掘研究中没有对上下位的特征、同一特征的不同词语表达进行处理。首先对厂家规格说明文档的结构化表示进... 产品评论挖掘用来对用户发表到网络上的众多评论内容进行信息提取,从而获得用户对产品的部件或功能的褒贬评价。现有的产品评论挖掘研究中没有对上下位的特征、同一特征的不同词语表达进行处理。首先对厂家规格说明文档的结构化表示进行挖掘获得厂家规格特征及其关系,再使用Bootstrapping弱监督方法从网站编辑评测文章中抽取出用户的描述特征及与规格特征之间的层次关系。应用该方法在手机领域的产品特征关系进行了抽取,实验结果显示获得的产品特征之间的层次关系很好的效果。 展开更多
关键词 数据挖掘 评论挖掘 BOOTSTRAPPING 文本模式抽取
下载PDF
基于语义的数据清理技术 被引量:2
17
作者 曹忠升 万劲伟 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2005年第2期76-78,共3页
为弥补传统的基于文本相似函数(如编辑距离、语音距离等)的方法在重复记录的识别方面的不足,对记录内部单个字段的语义以及字段之间的语义进行了研究;采用字段名与统计分析相结合的方法来识别字段内部的语义,采用语义规则库来识别字段... 为弥补传统的基于文本相似函数(如编辑距离、语音距离等)的方法在重复记录的识别方面的不足,对记录内部单个字段的语义以及字段之间的语义进行了研究;采用字段名与统计分析相结合的方法来识别字段内部的语义,采用语义规则库来识别字段之间的层次语义和依赖关系;将语义引入到优先队列算法中,提出了改进的优先队列法(IPQM),在计算记录之间的相似度时,显式考虑字段之间的层次语义关系,对不同的字段类型调用不同的相似度计算方法.同时将语义规则库引入到数据清理框架,在预处理阶段利用语义来处理等价类型错误,在处理阶段利用IPQM来计算记录之间的相似度.实验结果表明该框架提高了数据清理的质量,遗漏率低于7%,误判率不超过3%. 展开更多
关键词 数据清理 消重 文本相似函数 语义
下载PDF
基于非可见字符的数据库水印算法
18
作者 张立忠 高巍 《计算机工程与设计》 CSCD 北大核心 2012年第11期4105-4108,4277,共5页
针对非数值型关系数据的水印嵌入及提取问题,提出了一种应用于数据库文本属性的水印方法。利用回车符和换行符在数据库状态及正常数据操作中具有隐蔽性的特点,将它们作为水印信号嵌入到文本数据的秘密位置上。嵌入的水印信号不可见,且... 针对非数值型关系数据的水印嵌入及提取问题,提出了一种应用于数据库文本属性的水印方法。利用回车符和换行符在数据库状态及正常数据操作中具有隐蔽性的特点,将它们作为水印信号嵌入到文本数据的秘密位置上。嵌入的水印信号不可见,且不影响文本数据在数据库中的原始外观及语义。水印检测不需要原始数据库和水印,并通过多数表决制将水印信号还原为版权水印图像。实验结果表明,该方法对子集添加、属性添加及其顺序调整攻击具有免疫性。即使数据库遭受约50%的子集修改或删除那样的破坏性攻击时,仍有96%以上的水印匹配率。 展开更多
关键词 非可见字符 文本数据 数据库水印 回车符 换行符
下载PDF
李鸿章集外文考论 被引量:2
19
作者 徐世中 《安徽史学》 CSSCI 北大核心 2015年第2期125-129,141,共6页
李鸿章系晚清重臣,其个人文集是学者研究晚清历史的重要史料。安徽教育出版社于2008年1月出版的《李鸿章全集》,为学术界全面深入研究李鸿章带来了极大方便。然因载籍甚众,全集难免有遗珠之憾。笔者在查阅相关资料的过程中,发现李鸿章... 李鸿章系晚清重臣,其个人文集是学者研究晚清历史的重要史料。安徽教育出版社于2008年1月出版的《李鸿章全集》,为学术界全面深入研究李鸿章带来了极大方便。然因载籍甚众,全集难免有遗珠之憾。笔者在查阅相关资料的过程中,发现李鸿章的七篇集外文,兹加以迻出,并略作考述,以供再版时参考。 展开更多
关键词 《李鸿章全集》 史料 辑佚 考辨
下载PDF
《红楼梦》中的戥子与计量单位“星” 被引量:2
20
作者 黄一农 《自然科学史研究》 CSSCI CSCD 北大核心 2017年第2期231-243,共13页
本文从《红楼梦》小说中贾宝玉烧香祭拜金钏儿时所用的"两星沉速"出发,尝试透过大数据的环境以e考据之法印证"一星即一钱"之说,并对秤量贵重小物之戥子的形制及其操作做了初步的探讨,以了解戥子杆秤上的刻划与"... 本文从《红楼梦》小说中贾宝玉烧香祭拜金钏儿时所用的"两星沉速"出发,尝试透过大数据的环境以e考据之法印证"一星即一钱"之说,并对秤量贵重小物之戥子的形制及其操作做了初步的探讨,以了解戥子杆秤上的刻划与"星"的关系,并希望能以小见大,勾勒出大数据对科技史或物质文化史所可能产生的新机遇。 展开更多
关键词 戥子 计量单位 红楼梦 大数据 e考据
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部