
游戏厅捕鱼机漏洞打法(游
作者:李科
由AI作画应用Midjourney生成的绘画作品《太空歌剧院》在今年9月美国科罗纳州博览会上获得艺术比赛一等奖,吸引了不少人的眼球。今年以来连续好几个AIGC领域的项目获得了不错的融资, 到底AIGC有什么特别之处?本文中,PANews将对AIGC近来的发展作一个梳理介绍。

美国科罗纳州博览会获奖艺术作品《太空歌剧院》
什么是AIGC?
互联网内容生产方式经历了PGC——UGC——AIGC的过程。PGC(Professionally Generated Content)是专业生产内容,如Web1.0和广电行业中专业人员生产的文字和视频,其特点是专业、内容质量有保证。UGC(User Generated Content)是用户生产内容,伴随Web2.0概念而产生,特点是用户可以自由上传内容,内容丰富。AIGC(AI Generated Content)是由AI生成的内容,其特点是自动化生产、高效。随着自然语言生成技术NLG和AI模型的成熟,AIGC逐渐受到大家的关注,目前已经可以自动生成文字、图片、音频、视频,甚至3D模型和代码。AIGC将极大的推动元宇宙的发展,元宇宙中大量的数字原生内容,需要由AI来帮助完成创作。

内容生产方式演变过程
AIGC底层技术突破
底层技术的突破使AIGC商业落地成为可能,传统AI绘画技术采用生成对抗网络(GAN),但GAN生成的图片结果输出不稳定,分辨率低。直到2021年OpenaAI团队开源了其深度学习模型CLIP,以及今年7月出现的去躁扩散模型Diffusion,两者相互结合,让AI自动生成文字和图片的质量得到了质的提升。

Diffusion是一种去噪扩散模型,工作原理是对图像逐步施加噪点,直至图像被破坏变成完全的噪点,然后再逆向学习从全噪点还原为原始图像的过程,而AI所看到的是全是噪点的画面如何一点点变清晰直到变成一幅画,通过这个逆向过程来学习如何作画。
CLIP是 OpenAI 在 2021 年初发布的用于匹配文本和图像的神经网络模型,是近年来在多模态研究领域的杰出成果,它一方面对文字进行语言分析,另一方面对图形进行视觉分析,不断调整两个模型内部参数,达到文字和图像高度匹配的效果。
在AI生成文字方面,目前AI已经可以作诗、写邮件、写广告、剧本和小说。在今年,采用AIGC技术的虚拟人度晓晓写作高考作文,在不到1分钟的时间,完成了40多篇文章,获得专家打分48分的成绩,击败了75%的考生。目前OpenAI的GPT-3模型是AI生成文字中最成熟的模型,最近有一些项目把GPT-3模型商业化,包括自动写邮件的OthersideAI,自动写广告文案的Copy.ai和Jasper.ai,在用户数量上突飞猛进,并获得了大笔的融资,就在11月16日知识管理和内容协作平台Notion也发布了其文字自动生成产品Notion AI,并开始Alpha版本测试,Notion AI也是基于GPT-3模型开发。
在AI生成图片方面,今年AI作画水平突飞猛进,其背后的算法模型也在不断迭代,年初推出的Disco Diffusion只能生成粗糙的图片,4月OpenAI发布的DALL-E2代已经可以生成完整的人像和图片,到8月StabilityAI发布的Stable Diffusion模型取得质的突破,已经可以生成可以媲美专业画师的作品,生成图片的效率也从年初的数小时到现在的几分钟甚至数十秒。

AI生成图片技术演变
在AI生成音频方面,10月11日,AI播客Podcast.ai生成的一段关于乔布斯和美国知名主持人乔·罗根之间的20分钟访谈播客在科技圈广为流传,在播客中乔布斯谈到自己的大学时代、对计算机、工作状态和信仰的看法,整个播客听起来毫无违和感,基本做到以假乱真。

由AI生成的乔·罗根采访乔布斯播客
在AI生成视频方面,目前AI生成视频的算法模型还未成熟,也还没出现一家独大的局面。9月底Meta公布了AI制作视频工具Make-A-Video,Google也紧接着发布了Imagen Video和Phenaki。Make-A-Video具有文字转视频、图片转视频、视频生成视频三种功能。仅仅通过文本描述,Phenaki就可以生成一段情节连贯的视频。10月9日B站上的UP主“秋之雪华”公布了全球首个AI绘图、AI配音的动画《夏末弥梦》的DEMO,其画面精美程度不输专业画师的作品。

AI动画《夏末弥梦》DEMO
免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

和全球数字资产投资者交流讨论
扫码加入OKEx社群
industry-frontier