一文详解 AIGC：推动元宇宙发展的加速器

2022.11.28

作者：李科

由AI作画应用Midjourney生成的绘画作品《太空歌剧院》在今年9月美国科罗纳州博览会上获得艺术比赛一等奖，吸引了不少人的眼球。今年以来连续好几个AIGC领域的项目获得了不错的融资，到底AIGC有什么特别之处？本文中，PANews将对AIGC近来的发展作一个梳理介绍。

美国科罗纳州博览会获奖艺术作品《太空歌剧院》

什么是AIGC？

互联网内容生产方式经历了PGC——UGC——AIGC的过程。PGC（Professionally Generated Content）是专业生产内容，如Web1.0和广电行业中专业人员生产的文字和视频，其特点是专业、内容质量有保证。UGC（User Generated Content）是用户生产内容，伴随Web2.0概念而产生，特点是用户可以自由上传内容，内容丰富。AIGC（AI Generated Content）是由AI生成的内容，其特点是自动化生产、高效。随着自然语言生成技术NLG和AI模型的成熟，AIGC逐渐受到大家的关注，目前已经可以自动生成文字、图片、音频、视频，甚至3D模型和代码。AIGC将极大的推动元宇宙的发展，元宇宙中大量的数字原生内容，需要由AI来帮助完成创作。

内容生产方式演变过程

AIGC底层技术突破

底层技术的突破使AIGC商业落地成为可能，传统AI绘画技术采用生成对抗网络（GAN），但GAN生成的图片结果输出不稳定，分辨率低。直到2021年OpenaAI团队开源了其深度学习模型CLIP，以及今年7月出现的去躁扩散模型Diffusion，两者相互结合，让AI自动生成文字和图片的质量得到了质的提升。

Diffusion是一种去噪扩散模型，工作原理是对图像逐步施加噪点，直至图像被破坏变成完全的噪点，然后再逆向学习从全噪点还原为原始图像的过程，而AI所看到的是全是噪点的画面如何一点点变清晰直到变成一幅画，通过这个逆向过程来学习如何作画。

CLIP是 OpenAI 在 2021 年初发布的用于匹配文本和图像的神经网络模型，是近年来在多模态研究领域的杰出成果，它一方面对文字进行语言分析，另一方面对图形进行视觉分析，不断调整两个模型内部参数，达到文字和图像高度匹配的效果。

在AI生成文字方面，目前AI已经可以作诗、写邮件、写广告、剧本和小说。在今年，采用AIGC技术的虚拟人度晓晓写作高考作文，在不到1分钟的时间，完成了40多篇文章，获得专家打分48分的成绩，击败了75%的考生。目前OpenAI的GPT-3模型是AI生成文字中最成熟的模型，最近有一些项目把GPT-3模型商业化，包括自动写邮件的OthersideAI，自动写广告文案的Copy.ai和Jasper.ai，在用户数量上突飞猛进，并获得了大笔的融资，就在11月16日知识管理和内容协作平台Notion也发布了其文字自动生成产品Notion AI，并开始Alpha版本测试，Notion AI也是基于GPT-3模型开发。

在AI生成图片方面，今年AI作画水平突飞猛进，其背后的算法模型也在不断迭代，年初推出的Disco Diffusion只能生成粗糙的图片，4月OpenAI发布的DALL-E2代已经可以生成完整的人像和图片，到8月StabilityAI发布的Stable Diffusion模型取得质的突破，已经可以生成可以媲美专业画师的作品，生成图片的效率也从年初的数小时到现在的几分钟甚至数十秒。

AI生成图片技术演变

在AI生成音频方面，10月11日，AI播客Podcast.ai生成的一段关于乔布斯和美国知名主持人乔·罗根之间的20分钟访谈播客在科技圈广为流传，在播客中乔布斯谈到自己的大学时代、对计算机、工作状态和信仰的看法，整个播客听起来毫无违和感，基本做到以假乱真。

由AI生成的乔·罗根采访乔布斯播客

在AI生成视频方面，目前AI生成视频的算法模型还未成熟，也还没出现一家独大的局面。9月底Meta公布了AI制作视频工具Make-A-Video，Google也紧接着发布了Imagen Video和Phenaki。Make-A-Video具有文字转视频、图片转视频、视频生成视频三种功能。仅仅通过文本描述，Phenaki就可以生成一段情节连贯的视频。10月9日B站上的UP主“秋之雪华”公布了全球首个AI绘图、AI配音的动画《夏末弥梦》的DEMO，其画面精美程度不输专业画师的作品。

AI动画《夏末弥梦》DEMO

一文详解 AIGC：推动元宇宙发展的加速器

加⼊OKEx全球社群

相关推荐