一文读懂：有关ChatGPT的十个问题

2023.02.08

作者：王强，腾讯研究院资深专家、前沿科技研究中心主任

图片来源：由无界版图AI工具生成

随着人工智能大模型、量子计算、类脑智能、云原生、数字引擎、音视频等技术的深入发展，新技术、新模式和新业态持续涌现。针对上述领域，我们策划了一个科普系列栏目《T-chat前沿热点问答》，以十问十答的形式，用通俗的语言，与大家交流最新、最热的前沿科技话题。也欢迎大家指导，并提出感兴趣的问题一起研究，持续迭代认知，共同进步。

ChatGPT作为现象级热点，近期笔者收到了很多来自各方的咨询，大家对于其技术、影响等内容都非常关心，于是有了写作本文的想法，请各位专家和业界同仁不吝指正。

ChatGPT现在有多火？

2022年11月30日，ChatGPT横空出世，在全球范围内形成了热烈的讨论。根据 Similarweb 的数据，今年1 月，平均每天约有 1300 万独立访客使用 ChatGPT，是去年 12 月份的两倍多，累计用户超1亿，创下了互联网最快破亿应用的记录，超过了之前TikTok 9个月破亿的速度。

除了广大用户千奇百怪的问题，引发了社交媒体的大量传播，ChatGPT在各领域的秀肌肉，也进一步强化了其知名度。美国宾夕法尼亚大学发现，ChatGPT能够通过该校工商管理硕士MBA课程的期末考试。《自然》杂志1月24日宣布，将人工智能工具列为作者的论文，不能在杂志上发表。《自然》称，作者身份意味着对作品负有责任，而人工智能工具无法承担这样的责任。据传，ChatGPT还成功通过了谷歌的编程面试，拿到了年薪18.3万美元的L3工程师offer。

ChatGPT背后的核心技术？

ChatGPT是生成式AI的一种形式，Gartner将其作为《2022年度重要战略技术趋势》的第一位。Gartner预测，到2025年，生成式AI将占到所有生成数据的10%，但目前这个比例还不足1%。

ChatGPT背后的支撑是人工智能大模型，这个技术点，我们在去年的腾讯研究院《2022十大数字科技前沿应用趋势》报告中做过详细的阐述：当前的人工智能大多是针对特定的场景应用进行训练，生成的模型难以迁移到其他应用，属于“ 小模型”的范畴。整个过程不仅需要大量的手工调参，还需要给机器喂养海量的标注数据，这拉低了人工智能的研发效率，且成本较高。大模型通常是在无标注的大数据集上，采用自监督学习的方法进行训练。之后，在其他场景的应用中，开发者只需要对模型进行微调，或采用少量数据进行二次训练，就可以满足新应用场景的需要。这意味着，对大模型的改进可以让所有的下游小模型受益，大幅提升人工智能的适用场景和研发效率，因此大模型成为业界重点投入的方向，Open AI、谷歌、脸书、微软，国内的百度、阿里、腾讯、华为和智源研究院等纷纷推出超大模型。特别是OpenAI GPT 3 大模型在翻译、问答、内容生成等领域的不俗表现，让业界看到了达成通用人工智能的希望。当前ChatGPT的版本为GPT 3.5，是在GPT3之上的调优，能力进一步增强。

ChatGPT使用的核心技术之一是Transformer。这从其全称上也能看得出来，Chat Generative Pre-trained Transformer。Transformer技术是近几年人工智能技术最大的亮点之一，他是Google于2017年提出的一种采用注意力机制的深度学习模型，可以按输入数据各部分重要性的不同，而分配不同的权重。Transformer的精度和性能上都要由于之前流行的CNN（卷积神经网络）、RNN（循环神经网络）等模型，大幅提升了模型训练的效果，让人工智能得以在更大模型、更多数据、更强算力的基础上进一步增强能力。此外，他还具有很强的跨模态能力，不仅在NLP（自然语言理解）领域表现优异，在语音、图像方面也显示出了优异的性能。

ChatGPT为什么能成功？

ChatGPT是非常成功的一次从技术研发到工程化、再到点燃大众热情的经典案例。

技术创新

Open AI持续的研究中，不断探索引入新的技术路线。这次引入的强化学习方法，很好地提升了模型的效果。在研究中，Open AI在模型训练中，引入了人类专家。专家一方面帮助ChatGPT撰写更符合人类习惯的回答，另一方面，也对生成的结果进行排名，通过这样的奖励机制，实现模型的微调优化。

组织文化

一文读懂：有关ChatGPT的十个问题

加⼊OKEx全球社群

相关推荐