-
题名大模型生成回答与人类回答文本的语言特征比较研究
- 1
-
-
作者
朱君辉
王梦焰
杨尔弘
聂锦燃
杨麟儿
王誉杰
-
机构
北京语言大学国家语言资源监测与研究平面媒体中心
北京语言大学计算科学学院
北京交通大学计算机与信息技术学院
-
出处
《中文信息学报》
CSCD
北大核心
2024年第4期17-27,共11页
-
基金
教育部人文社科青年基金(23YJCZH264)
国家语委重大科研项目(ZDA145-17)。
-
文摘
近年,人工智能的语言生成技术突飞猛进,基于自然语言生成技术的聊天机器人ChatGPT能够自如地与人对话、回答问题。为了探究机器生成语言与人类语言的差异,该文分别收集了人类和ChatGPT在中文开放域上3293个问题的回答作为语料,对两种语料分别提取并计算描述性特征、字词常用度、字词多样性、句法复杂性、语篇凝聚力五个维度上的161项语言特征,利用分类算法验证用这些特征区别两种语言的有效性,并考察、对比这些特征来阐释人类、机器生成两种语言的异同。研究结果发现,两种文本在描述性特征、字词常用度、字词多样性三个维度的77项语言特征上存在显著差异,相较于机器回答语言,人类回答语言表现出易读性高、论元重叠度低、口语色彩明显、用词丰富多样、互动性强等特点。
-
关键词
ChatGPT
人类语言
语言特征
机器学习
-
Keywords
ChatGPT
human language
linguistic features
machine learning
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-