GPT-3.5是GPT-3微调优化后的版本,比后者更强大。ChatGPT正是由GPT-3.5架构的大型语言模型(LLM)所支持的。
ChatGPT也可以被描述为一个自然语言处理(NLP)领域的人工智能模型。这意味着它是一个能够编码、建模和生成人类语言的程序。
作为一种语言模型,在大规模文本数据上进行自监督预训练后,ChatGPT还需要经过三个阶段的“炼制”。首先是监督微调阶段,在该阶段,人类AI训练师既充当用户,同时也是AI助理,以自我对话形式生成对话样例,ChatGPT在这些对话样例上进行有监督的训练。
接着,ChatGPT进入第二个阶段。该阶段的主要目的是训练一个基于语言模型的奖励模型,对机器生成的回复进行评分,为了训练该奖励模型,需要随机抽取机器生成的文本,并采样出多个不同版本,人类训练师对这些不同版本进行偏好排序,排序的结果用于奖励模型的训练。
基于训练好的奖励模型,第三个阶段采用强化学习技术进一步微调ChatGPT。
这项技术与众不同之处在于,它能够基于以上介绍的人类反馈强化学习技术,使生成的文本能够与人类意图和价值观等进行匹配。
无论懂不懂技术,全球网友都竞相大开“脑洞”,试探ChatGPT到底有多“神”。据美国有线电视新闻网报道称,有人要求它用《坎特伯雷故事集》的风格重写上世纪90年代热门歌曲《Baby Got Back》;有人写了一封信,要求ChatGPT删除信用报告中的不良账户;还有人询问它以童话为灵感的家装设计方案。
自然语言处理技术拨云见日
一炮而红后,ChatGPT概念股也跟着一路“狂飙”。有媒体报道,汉王科技9天收获7个涨停板。自然语言处理研究是该公司主营业务,而ChatGPT背后的技术就是NLP。
熊德意告诉记者,NLP是人工智能的一个分支,最早诞生于机器翻译,其历史实际上比“人工智能”名字的历史还要悠久,至今已研究了70多年。简单来说,该技术的目标就是要让计算机或机器人能够实现像人一样具备听、说、读、写、译等方面的语言能力。
“ChatGPT并非一项技术的一蹴而就,它是多种技术叠加在一起形成质变的产物,是NLP领域的结晶。”熊德意解释,其底层技术,包括Transformer、自监督学习、微调、人类反馈强化学习(RLHF)、AI对齐等,在自然语言处理和人工智能领域都有广泛的研究和应用。
“但ChatGPT将这些技术巧妙地结合在一起。它有效规避了大模型的未对齐行为,利用了大模型规模带来的智能突现能力,增强了大模型的指令学习能力和用户意图捕获能力,解锁了大模型的泛化能力。这些能力叠加在一起形成了ChatGPT的质变效果。”熊德意说。
美国《迈阿密先驱报》报道称,推特上的一位用户在ChatGPT的帮助下参加了一次模拟SAT考试,得到了1020分(满分1600分)。根据College Simply的数据,这只略低于平均水平。
但当我们提问ChatGPT“你能帮我通过考试吗”,它会善意地提醒我们不要利用它来作弊,并表示:“重要的是要记住,测试的目的是评估你对材料的理解和掌握程度。作弊,或者仅仅依靠像我这样的外部来源,会破坏考试的价值,也不会促进学习或成长。”
这是因为ChatGPT被加入了预先设计的“道德”准则,也就是上文提到的人类反馈强化学习。
OpenAI表示:“这使该工具能够回答后续问题、承认错误、挑战不正确的前提并拒绝不适当的请求。”
熊德意认为,这是因为RLHF有效提升了大模型的对齐能力,即如何让AI模型的产出和人类的常识、认知、需求、价值观保持一致。
经过RLHF的“调教”,ChatGPT变得高度拟人化,可以学习并生成听起来十分自然的回复。RLHF还使ChatGPT能够理解指令并做出适当的响应,从而使对话更加真实。
ChatGPT也因此迅速成为当下所有智能聊天机器人中的“天花板”。
虽触手可及但无法取代人类
随着科技的发展,人工智能技术一次又一次地超越了人们认为无法达到的极限,从1997年IBM“深蓝”计算机首次在国际象棋中击败人类,到IBM人工智能机器人“沃森”赢了智力竞赛《危险边缘》(Jeopardy),再从2016年“阿尔法狗”在围棋大战中战胜人类,到2019年号称“AI赌神”的Pluribus在德州扑克中碾压人类玩家……
现在,ChatGPT已经触手可及,拉扯冲撞着人们惯有的参与生产生活的模式和框架,且继续“狂飙”在超越人类的赛道上。“ChatGPT引发十大职业危机”“未来20种职业或被AI取代”等话题频上热搜。