基于上下文特征分类的评论长句切分方法被引量：2

Comment Long Sentence Segmentation Method Based on Contextual Feature Classification

下载PDF

导出

摘要商品评论文本对消费者和商家的决策都有重要参考价值。用户在评论中使用的语言较为随意,语法结构不规则,给文本分析带来很大难度。正确的句子切分是文本信息抽取和挖掘工作的基础。为解决商品评论中用户省略标点情况下的句子切分问题,基于上下文特征,提出使用机器学习的方法对评论长句进行切分。根据大规模评论语料的统计特征选取候选句子切分点,对每一个候选句子切分点提取其上下文特征,并根据语料的统计特征,使用逻辑回归对候选切分点进行分类。实验结果表明,该方法能够有效解决商品评论中用户省略标点情况下的句子切分问题。 Product reviews can help both businesses and consumers make better decisions. The arbitrary nature and irregular grammer structure of user published review makes it difficult for further textual analysis. Aiming at resolving the problem of long sentence segmentation when users omit punctuations, entence segmentation is the foundation of the following text information extraction and text mining work. Since the traditional punctuation-based methods do not work well in this condition, it proposes a machine learning based method to solve this problem. It first extracts candidate segmentation point based on statistical feature of large-scale product review corpus. Then for each candidate segmentation point, its contextual features are extracted as well as the statistical features of product review corpus and employ logistic regression to classify the candidate point. Experimental results show that this method can improve the performance of sentence segmentation when user omits ounctuatinn~

作者陈鸿金培权岳丽华胡玉娟殷凤梅

机构地区合肥师范学院公共计算机教学部中国科学技术大学计算机科学与技术学院

出处《计算机工程》 CAS CSCD 北大核心 2015年第9期233-237,244,共6页 Computer Engineering

基金合肥师范学院青年基金资助项目(2015QN06)

关键词句子切分标点省略机器学习上下文特征 N元文法逻辑回归 sentence segmentation puntuation omitting machine learning contextual feature N-gram logisticregression

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献12

1Pang Bo,Lee L. Opinion Mining and Sentiment Anal- ysis[ Jl. Foundations and Trends in Information Retrieval, 2008,2 ( 1/2 ) : 1 - 135.
2刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
3周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量：112
4俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：160
5李响,才藏太,姜文斌,吕雅娟,刘群.最大熵和规则相结合的藏文句子边界识别方法[J].中文信息学报,2011,25(4):39-44. 被引量：17
6阿比达.吾买尔,吐尔根.依布拉音.维吾尔语句子边界识别算法的设计与实现[J].新疆大学学报（自然科学版）,2008,25(3):360-363. 被引量：10
7艾山.吾买尔,吐尔根.依步拉音.基于最大熵的维吾尔语句子边界识别模型[J].计算机工程,2010,36(6):24-26. 被引量：7
8艾山.吾买尔,吐尔根.依步拉音.统计与规则相结合的维吾尔语句子边界识别[J].计算机工程与应用,2010,46(14):162-165. 被引量：7
9黄建年,侯汉清.农业古籍断句标点模式研究[J].中文信息学报,2008,22(4):31-38. 被引量：28
10陈天莹,陈蓉,潘璐璐,李红军,于中华.基于前后文n-gram模型的古汉语句子切分[J].计算机工程,2007,33(3):192-193. 被引量：25

二级参考文献113

1刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
2孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
3格桑居冕.藏语复句的句式[J].中国藏学,1996(1):132-141. 被引量：11
4阚景忠.古文不标点断句的文化阐释[J].徐州师范大学学报（哲学社会科学版）,2005,31(2):67-69. 被引量：2
5陈振宇,陈振宁.怎样计算现代汉语句子的时间信息[J].中文信息学报,2005,19(3):94-104. 被引量：6
6周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量：112
7张文国.古汉语的“N+N”结构及其发展[J].长安大学学报（社会科学版）,2006,8(2):80-83. 被引量：1
8祁坤钰.信息处理用藏文自动分词研究[J].西北民族大学学报（哲学社会科学版）,2006(4):92-97. 被引量：34
9常娥,侯汉清,曹玲.古籍自动校勘的研究和实现[J].中文信息学报,2007,21(2):83-88. 被引量：16
10王诗文.汉、藏语句子结构对比研究[J].西南民族大学学报（人文社会科学版）,2007,28(4):50-55. 被引量：4

共引文献507

1彭骁男,周兰江,张建安,周枫.融合多特征的老挝语人名地名命名实体识别[J].中国水运（下半月）,2020,20(3):74-77. 被引量：1
2刘苗苗,李燕,王欣萌,甘琳琳,李虹.分级阅读初探:基于小学教材的汉语可读性公式研究[J].语言文字应用,2021(2):116-126. 被引量：10
3魏伟,郭崇慧,邢小宇.基于语义关联规则的试题知识点标注及试题推荐[J].数据分析与知识发现,2020,4(2):182-191. 被引量：10
4张景素,魏明珠.基于加权多策略选样的古文断句模型研究——以古籍《宋史》为例[J].情报科学,2022,40(10):164-170.
5成于思,施云涛.融合词典特征的Bi-LSTM-WCRF中文人名识别[J].中文信息学报,2020(4):69-76. 被引量：7
6程宁,李斌,葛四嘉,郝星月,冯敏萱.基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究[J].中文信息学报,2020(4):1-9. 被引量：22
7苏祺,胡韧奋,诸雨辰,严承希,王军.古籍数字化关键技术评述[J].数字人文研究,2021,1(3):83-88. 被引量：14
8陈博逊,黄晶晓.一种基于HMM和CRF的双层分词模型[J].硅谷,2009,2(22).
9尹继豪,樊孝忠,刘士宁,于江德.一种基于Bootstrapping构建训练语料的方法[J].计算机研究与发展,2007,44(z2):394-397.
10于江德,谷川,葛文英,樊孝忠.一种基于字和子串联合标注的汉语分词方法[J].山西大学学报（自然科学版）,2011,34(3):357-362. 被引量：2

同被引文献7

1郑丽贤,何小海,吴炜,杨晓敏,陈默.基于学习的超分辨率技术[J].计算机工程,2008,34(5):193-195. 被引量：18
2李军,李艳辉,彭存银.基于自适应遗传算法的路径测试数据生成[J].计算机工程,2009,35(2):203-205. 被引量：17
3谢赛琴,沈福明,邱雪娜.基于支持向量机的人脸识别方法[J].计算机工程,2009,35(16):186-188. 被引量：32
4刘蓉,刘明.基于三轴加速度传感器的手势识别[J].计算机工程,2011,37(24):141-143. 被引量：41
5杨庆海,卢波,颜子夜,黄沈滨,王海洁.基于马尔科夫随机场的粘连字符串切分算法[J].计算机工程,2013,39(4):258-262. 被引量：5
6叶玲,顾微,周玉兰.生物材料聚酰胺胺树状大分子在医学领域研究进展[J].高分子通报,2002(4):1-5. 被引量：17
7胡彬,王春东,胡思琦,周景春.基于机器学习的移动终端高级持续性威胁检测技术研究[J].计算机工程,2017,43(1):241-246. 被引量：14

引证文献2

1董亚东,李正宇,汪阳.基于模型空间的树形数据处理方法[J].计算机工程,2017,34(4):194-199. 被引量：2
2卢正军,方勇,刘亮,张文杰,左政.基于上下文信息的Android恶意行为检测方法[J].计算机工程,2018,44(7):150-155. 被引量：7

二级引证文献9

1胡垂立.基于GIS模型的计算机图形处理技术研究[J].北京印刷学院学报,2018,26(3):75-78. 被引量：2
2邓丽平,杨丽凤.基于Android的智能无线鼠标的设计与实现[J].软件工程,2019,22(1):24-26. 被引量：3
3陈方业.基于图核的Android恶意软件检测方法[J].现代计算机,2019,25(14):73-78.
4廖方圆,甘植旺.Android系统签名的漏洞分析与检测[J].计算机工程,2019,45(8):25-30. 被引量：5
5鲍美英,申晋祥.基于Android的音乐推荐系统的设计与实现[J].山西大同大学学报（自然科学版）,2019,35(4):32-33. 被引量：5
6崔艳鹏,颜波,胡建伟.基于抽象API调用序列的Android恶意软件检测方法[J].计算机应用与软件,2019,36(9):321-326. 被引量：5
7潘维蔚,康凯,张武雄,王海峰.基于WiFi的室内定位准确率改进算法[J].计算机工程,2020,46(2):207-213. 被引量：10
8王亚洲,王斌.基于深度学习的安卓恶意应用检测[J].计算机工程与设计,2020,41(10):2752-2757. 被引量：5
9谢奇爱,李正茂.基于大数据关联规则的网络恶意行为识别检测[J].合肥学院学报（综合版）,2021,38(2):85-91. 被引量：3

1陈天莹,陈蓉,潘璐璐,李红军,于中华.基于前后文n-gram模型的古汉语句子切分[J].计算机工程,2007,33(3):192-193. 被引量：25
2孙海霞,成颖.信息集成中的字符串匹配技术研究[J].现代图书情报技术,2007(7):22-26. 被引量：10
3梁卓明,陈炬桦.基于专有名词优先的快速中文分词[J].计算机技术与发展,2008,18(3):24-27. 被引量：5
4欧建林,林茜,史晓东.潜在语义分析在连续语音识别中的应用[J].计算机工程与应用,2009,45(32):111-113.
5王川,张小红,韩采华.古汉语句子切分与句读标记方法研究[J].河南大学学报（自然科学版）,2009,39(5):525-529. 被引量：2
6许永林,史晓东,蔡骏.利用FP-树构造多词Trigger对语言模型[J].厦门大学学报（自然科学版）,2005,44(B06):243-246. 被引量：2
7刘俊杰,黄圆圆,任智军,崔碧莹.基于浅层句法分析的术语抽取研究[J].微计算机信息,2010(18):180-182.
8郑晓霞,刘超,邹钰.基于逻辑回归模型的中文垃圾短信过滤[J].黑龙江工程学院学报,2010,24(4):36-39. 被引量：2
9田斌,田红心,易克初.一种改进的汉语N元文法统计语言模型[J].西安电子科技大学学报,2000,27(1):62-64. 被引量：3
10马永亮,赵铁军.统计机器翻译中多分词结果的融合[J].中文信息学报,2010,24(1):104-109. 被引量：2

计算机工程

2015年第9期

浏览历史

内容加载中请稍等...

基于上下文特征分类的评论长句切分方法被引量：2

参考文献12

二级参考文献113

共引文献507

同被引文献7

引证文献2

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于上下文特征分类的评论长句切分方法 被引量：2

参考文献12

二级参考文献113

共引文献507

同被引文献7

引证文献2

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于上下文特征分类的评论长句切分方法被引量：2