ai-workshop-newsletter
  • Posts
  • Tutorials
Tutorials

005_LLM_Content_Generation

005 LLM - Content Generation¶

tags: #genAI #openai #google #microsoft #chatgpt #copilot #gemini #groq #mistral #llama2 #moe #dalle3 #firefly #alpaca #sd #sdxl #comfyui #comflowy #elevenlabs #capcut #suno #clipchamp #stableaudio #mubert #synthesia #runway #heygen #pika #sora

本文主要介绍各种生成式AI能生成的内容,工具以及服务,内容将不会涉及相关理论和技术,以介绍资源和应用为主。 相关技术和产品演变快速,请随时关注最新的行业报导及开源信息。

Generation AI¶

生成式AI能产出的内容多样,从最基本的文字,图像,声音,音乐和影片。大部分生成的内容没有版权(部分服务需要付费使用后版权归使用者,越来越多服务加上AI生成的标记,用以辨识内容是否AI生成),可以使用在商业用途。

AI生成的内容与人类产出的内容相比,最大的优点在于训练数据的量超过比一般人类的学习能力,因此能透过使用者的要求,从训练过的数据,生成或模仿出更广泛和创新的内容,甚至是组合出现实世界不存在的内容。而其缺点也是显而易见,产出的内容可能与使用者要求存在偏差(这部分的原因,除了模型能力,还有部分来自于prompt的描述能力),与事实偏差(例如太阳和月亮很常同时出现,以及早期图像生成技术在人类的手指细节和数量一直有问题),还有对现实世界的认知(例如最近Sora生成的影片,椅子会浮在地面上)。使用上,取其优点,弃其缺点为原则,毕竟模型的进步,比硬件的摩尔定律快了太多。

Content type¶

  • Text generation(文字生成)
    • 写文章,写故事,写代码...等。
  • Image generation(图像生成)
    • 艺术画作,产品图,商标,插图...等。
  • Audio generation(音频生成)
    • text-to-speech文字转语音,音乐,歌曲...等。
  • Video generation(视频生成)
    • 视频,动画,视频剪辑。

以下内容,会介绍一些应用或是较有名的工具及服务。

Text generation¶

文字生成在OpenAI鼎鼎大名的ChatGPT带动下,现在已经无人不知,也是很多人日常工作的“好朋友”。 以下介绍常用的服务:

  • ChatGPT: https://chat.openai.com/

    • ChatGPT的免费版本提供的GPT3.5模型的聊天功能基本能满足日常使用,其付费版本GPT4.0的模型对于prompt的理解和执行,有更好的效果,测试中在几乎所有学术和专业考试中都取得了更高的分数,甚至在律师资格考试中超过了 90% 的律师。
    • ChatGPT的付费版本,还提供了Dall-E3(图像生成),GPTs客制化不同功能的AI代理人...等功能。
    • OpenAI的最大优势在于技术储备,提供现有模型的同时GPT5/6/7也可能同时在开发。
  • Copilot:https://copilot.microsoft.com/

    • 微软的Copilot的免费服务是能免费使用到OpenAI GPT4的一个途径。由于OpenAI需要钱,微软有钱但是搜索业务急需振兴,所以微软能最早的接入GPT并免费提供给使用者。
    • 与OpenAI的Chatgpt对比,Copilot的最大优势在于加入的联网搜索功能,由于AI模型都有训练截至时间,AI一般无法回答即时内容,Copilot会将使用者的问题先做网路搜索,再提供给AI模型来回答。因此,需要搜索即时信息或是做事实查核(fact check),使用Copilot会是一个很不错的选择。
    • Copilot的短板也在于回答的内容广度被限制了,这无关模型能力,主要是微软对于这个服务的定位,有些内容限制产生的程度比OpenAI还高。
  • Gemini:https://gemini.google.com/

    • Gemini是Google新一代的模型,Gemini-1.0-pro目前可以免费使用,性能大约是GPT3.5等级。已经发布尚未推出的模型有Gemini-1.5-pro,Gemini-Ultra等,Google在以长上下文(1M token、10M token)来与其他公司区隔。
    • Gemini-1.5-pro可以在 https://aistudio.google.com/ 申请试用。
    • Gemini-Ultra从测试数据上来看,和OpenAI的GPT4在同一水平,需要付费使用。
  • Claude:https://claude.ai/

    • Claude是由Anthropic开发,由一群在OpenAI走上商业化的路上,离开的员工组成。Claude 1 & Claude 2一直没有引起重视,主要在于模型能力对比GPT3.5并没有明显优势, 但其免费版本自带文件上传功能,能从文件的内容生成其他内容。
    • Claude近期推出Claude3,引起广大关注,免费版的服务,可以使用Claude3-Sonnet的模型,模型的能力应该介于GPT3.5~GPT4之间,而其付费版本的Claude3-Opus模型,从测试数据上超越了GPT4,实际使用上效果也是跟GPT4在同一个级别。
    • Claude3的优势在于除了测试数据的结果能和GPT4媲美之外,在测试时特别强调了对于模型“不回答”的评分也是比GPT4出色。其挑战在于,GPT4是2022年就训练出来,与OpenAI的竞争,可能还在下风。
  • Poe:https://poe.com/

    • Poe是OpenAI的董事出来开的服务,主打模型多,上面可以使用到各家的模型,以及开源模型。但使用各家最高级的模型,还是需要付费使用。
    • Poe在免费的服务同时提供客制化代理AI的服务,和OpenAI的GPTs一样,能透过Prompt的设计,客制化代理AI执行特定的目的。
    • Poe对注册条件的要求较低,在其他服务不好注册上的时候,可以作为替代。
  • Mistral:https://chat.mistral.ai/

    • Mistral是来自法国的公司,所使用的模型是Mistral 7B和Mixtral 8x7B两种开源模型,8x7B是采用MoE(Mix of Expert)的方式,简单说是透过组合8个7B的小模型,每个模型有特殊的功能,这种MoE的方案在开源的模型的性能提升上有显著的效果。
    • 这类模型的训练参数比其他家少,虽然MoE能使小模型组合出不错的效果,但是还是没法和GPT3.5比较,加上Mistal支持的主要语言是英语和其他欧洲主要语言,亚洲区域使用上不方便。
  • Groq:https://groq.com/

    • Groq跟其他几家比起来,特色是“快”,模型的反应“超快速”,每秒可以产生超过500个token,相当于秒出一篇文章,翻页都来不及跟上。这种速度上的优势,让低延迟在生成式AI的应用有更多的机会。
    • 这家公司使用自己研发的LPU(相比于其他公司使用GPU)来做生成式AI的计算。该公司服务的范围还包含芯片,云端服务器,设备等。
    • Groq的模型主要还是开源模型,提供由Meta出的Llama2 70B, Google出的Gemma 7B,还有Mixtral出的8x7B模型。实际体验,速度上击败所有对手好几倍,但是由于模型的能力,对于复杂问题,还是比不上OpenAI, Google和Claude的体验。
  • Open Source

    • Open source的模型相当多,最出名的还是Mixtral的8x7B,Meta的Llama2, Google的Gemma这几款。
    • Hugging face https://huggingface.co/ 是全世界最大AI模型的集散地。
    • 使用Open source的模型,可以用Ollama https://ollama.com/, LMStudio https://lmstudio.ai/ 等平台,这些免费的平台协助使用者下载模型及使用。
    • 开源的模型可以使用GPU来运行,但是在没有GPU的电脑上,Ollama和LMStudio都能以CPU来运行,需要注意的是CPU的性能和内存大小,最好内存在32GB以上,运行起来才不会让体验太差(生成速度太慢)。
    • 开源模型的选择,由于家用硬件的限制,开源模型一般会标注Quantization的数字,以Q表示,Quantization可以理解为压缩或优化模型的技术,对比未优化模型,Q4的模型代表使用4位精度量化,在模型的权重计算以4位($2^4 = 16$)做量化,量化过的模型虽然精度降低,但是模型大小减少,运行速度提醒。家用的话一般选择Q4,Q5的版本,如果家中设备硬件性能较高,也可选择Q6以上。
    • 开源模型体验一般较差,特别是在中文环境,也许可以试试Qwen等国产模型。

Image generation¶

Image generation tools¶

图像生成较为知名的是Midjourney, OpenAI的Dall-E-3,Adobe的Firefly,以及开源的Stable Difussion,Stable Difussion XL, Photoshop插件Alpaca. 使用图像生成,最大的挑战在于如何用文字描述你要什么,如果你了解美术,平面设计等专业术语和艺术家风格,会有很大帮助,如果不了解,从别人的作品所分享出来的prompt,也是一个途径。

免费的图像生成通常都有尺寸限制,一般以512x512的图为主,实际应用上,可以搭配生成式的inpainting(在现有图像内添加元素),outpainting(以现有图片自动添加外扩后的图像)和图像放大工具搭配使用。

  • Midjourney:https://www.midjourney.com/

    • Midjourney是目前公认效果最好的图像生成服务,但已经取消免费试用。使用方式是在Discord上Midjourney群组(https://discord.gg/midjourney)发送“/imagine”开头的prompt给Midjourney bot, 生成后图像可以下载。
    • Midjourney showcase:https://www.midjourney.com/showcase
      • Midjourney的showcase提供了大量由用户生成的图像,点击图像可以看到生成图片的prompt,可以作为学习的参考。

        Midjourney_showcase.jpg

  • Dall-E-3: https://openai.com/dall-e-3

    • 使用Dall-E-3的方法很多, ChatGPT的付费用户,可以直接使用。性价比最高的是使用免费的Microsoft copilot整合的图像生成。
    • Microsoft:https://copilot.microsoft.com
      • 直接使用copilot, 输入"Create an image about ..." prompt,copilot会使用 https://www.bing.com/images/create 提供的Dall-E-3生成图像。

        copilot_image_generation.jpg

      • 在copilot一样可以看到许多showcase,一样可以学习别人如何使用prompt生成图片 https://www.bing.com/images/create

        copilot_image_generation_showcase.jpg

  • Adobe Firefly:https://www.adobe.com/products/firefly.html

    • Adobe的firefly提供的图像生成,inpaint,outpaint的功能,可以在官方网站注册有少量credits额度(25 credits/month)供测试。Firefly有提供线上服务和Photoshop插件,使用firefly插件在photoshop前提是需要有正版photoshop, photoshop也是一款个人使用年费不低的软件,有摄影或平面设计的需求,建议使用正版(AI相关的服务,都需要服务器运算或是本地模型下载计算,通常破解版无法使用生成式AI功能,便宜的Photoshop可以用“土耳其”或“阿根廷”搭配“Photoshop”做关键字搜索)。
    • Firefly提供了一些参数设定,可以让使用者以相对于midjourney较简单的方式产生需要的图片,并可以对图片做编辑修改
      • 生成“A whale jumping out of sea across a small boat under the sunset, rainbow aside the sky.”

        A_Whale_Jumping.jpg

      • 使用inpainting功能对图像局部增加元素“Some seagulls are flying in the sky"

        firefly_fill.jpg

      • 新增后结果

        firefly_fill_2.jpg

  • Alpaca:https://www.alpacaml.com/

    • Alpaca是一款Photoshop插件,提供和firefly类似功能,实际使用起来效果没有firefly好,但每月比较大方的提供了100次的免费额度(firefly即使付费,每月仍然有使用额度限制),在photoshop编辑一些照片仍然是一个不错的选择。

      Alpaca.jpg

  • Stable diffusion:https://github.com/Stability-AI/stablediffusion

    • Stable diffusion (SD) 是模型的名称,开源的图像生成主要的技术,使用上需要有能运行图像生成的电脑或是使用云端计算平台去部署。

    • 使用SD模型需要了解除了正向提示词(你要的内容),负向提示词(不要的内容),还需要了解一些不同的采样器(sampler),提示词相关性(CFG)等参数设置,简单的python知识,除了stable diffusion模型之外,再下载适合的模型(例如知名生成美女的Lora,控制姿态的ControlNet)。有兴趣可以到CIVITAI这个网站研究各种模型及使用方法。https://civitai.com/

    • 由于开源模型使用上比商业模型跟麻烦,因此有些不错的No code UI开发出来,帮助大家更简单的使用上。

      • ComfyUI:https://github.com/comfyanonymous/ComfyUI
      • Comflowy:https://github.com/6174/comflowy

      Comflowy.jpg

      • 这类的工具以可视化的方式,将使用者安装,找模型,编程和使用的难度很大程度降低,如果要使用开源模型生成图片,建议选用。
    • 除了以上介绍的各项服务,国内外还有大量提供类似服务的厂商,一般都提供试用和付费服务。

Image recognition tools¶

图像识别,不在本文生成式图片的范畴,但图像识别的重要性对比图片生成也许更为重要。由于大语言模型的流行,大语言模型能够透过文字和使用者互动,而图像识别提供了辨识图片内容以文字的方式来描述,对于大语言模型的更多应用带来无限的想象,例如通用机器人的应用,自动驾驶的应用。。。等,可以使用视觉输入,图像识别之后,采取动作。 前例鲸鱼跳出水面的照片,由Google Gemini模型识别结果如下:

Image_recognition.jpg

很多大语言模型都有给免费使用者提供图像识别服务,如microsoft copilot, Google gemini, Anthropic Claude。 可以在这些平台上测试各种应用场景,如提供食材照片要求规划晚餐,辨识发票产生支出列表,辨识医嘱单判断治疗方案...等。

Audio generation¶

音频生成,常见的是文字生成语音和文字生成音乐,文字生成音乐,歌曲等,其中文字生成自然语音已经是一个相当成熟的技术,也广泛地用于各种内容,而文字生成音乐和歌曲,则是正在开发中的功能,逐渐会有不错的应用出来。

text-to-speech¶

  • Elevenlabs:https://elevenlabs.io/

    • Elevenlabs是提供text-to-speech最出名的公司,提供多国语言的text-to-speech(文字生成语音)之外,还能做speech-to-speech(克隆你的声音到多国语言),这些功能被广泛的用于内容创作,游戏,有声书,播客...等。

    • 使用上可以透过该公司的网页生成语音后下载MP3或整合功能进自己开发的工具使用API访问。

      ElevenLabs.jpg

  • Microsoft Clipchamp:https://clipchamp.com/

    • Microsoft clipchamp是一款在widnows11内置的影音编辑软件,windows10用户也可以在商店下载免费使用。

    • Clipchamp使用的text-to-speech功能是Microsoft Azure平台上的TTS功能,不透过Clipchamp,也可以在可以在Azure上开启F1的TTS服务,免费使用限制的额度。

    • Clipchamp和Azure的TTS除了可以免费使用一定的额度,性能表现也相当好,作为内容的语音性价比很高。

    • 使用方法在Clipchamp,新增项目,在项目内容选择"Record & Create"/"Text to Speech", 在右侧的Panel可以设置语言,人物,音调,速度和需要生成语音的文字档,完成的音频可以随着影片汇出mp3。

      clipchamp.jpg

text-to-music¶

很多厂商在尝试Text-to-music产品,例如Google musicFX, OpenAI MuseNet, Meta Musicgen, Stability AI Stable Audio, Adobe MusicControlNet, Microsoft Muzic...等,大部分还没有正式向一般用户开放,少部分已经可以申请免费试用,可以搜索相关关键词了解一些demo和尝鲜。

  • Stable Audio:https://www.stableaudio.com/generate

    • Stable Audio提供免费用户每月20首的额度,没有测试过,感兴趣的可以注册试试效果。

      Stable_Audio.jpg

  • Mubert:https://mubert.com/

    • 免费用户每月25首歌,没有测试过,感兴趣的可以注册试试效果。

      Mubert.jpg

  • Suno AI:https://www.suno.ai/

    • Suno是目前比较推荐的text-to-music服务,生成的效果经过挑选还不错,重要的是免费额度一天有50个credits(5首歌曲),更重要的是,用完之后隔天自动补满。付费用户,每月$8可以生成500首歌,该服务有版权声明,付费用户可以发布AI生成的音乐,免费用户不能商用。

    • 使用方法

      • 在Lyric框中填入歌词,Style的部分可能需要对音乐风格有些了解,例如英文流行音乐,可以填入POP,中文流行音乐可以填入CPOP,给一个title,就能生成。
      • 每次生成会产生几个不同输出,可以试听看看哪一个效果比较喜欢(如果是中文歌,可能要多试几次,中文歌的效果比较不好)。
      • 由于每次生成的音乐有40秒的限制,所以无法完整的唱完一首歌,官方的FAQ也给出的方案,在选定好一首产生的歌曲,点右侧的三个小点,可以选择“Continue From This Song”,不需要再提供其他信息,只要一直继续到所有歌词唱完。
      • 如果你不会写歌词也没问题,找ChatGPT或是Copilot,描述你要的意境和场景,请他生成歌词,一首专业的歌词就能马上取得。

      Suno.jpg

Video generation¶

Text-to-Video一样是各家争相开发的一块领域,有让图片动起来的,有生成会说话的头像,有生成影片的。是生成式AI一大热门领域。

  • Capcut(剪映):https://www.capcut.cn/

    • 由字节跳动Bytedance出的剪映导入了不少AI功能,很实用的一款视频编辑器。剪映提供了“图文成片”功能,可以让使用者以文字描述场景,使用者提供画面素材或AI自动匹配,几分钟内容生成视频。软件还提供多种生成文案的功能。对标Microsoft的clipchamp,视频编辑很推荐的一款软件。

      Capcut_1.jpg

      Capcut_2.jpg

  • Synthesia:https://www.synthesia.io/

    • Synthesia可以客制化头像,并以头像来做简报,很多虚拟主播以这个软件来做。最低收费每月$22,有需要专业虚拟人物来报导内容可以选用。

      Synthesia.jpg

  • Heygen:https://app.heygen.com/

    • Heygen也是能让你建议虚拟人物来播报内容的工具,使用上选择人物,声音,填入文字内容,即可生成。平台收费价格较高。

      Heygen.jpg

  • Runway:https://app.runwayml.com/

    • Runway以让你的图片动起来出名,提供少量额度免费测试,可以使用文字描述,笔刷,镜头等调整作品的运动方式。

    • 还有提供生成音频,编辑影片,编辑图片等其他功能。

    • 每段生成的影片时间很短,需要多段延长。

      Runway.jpg

  • Pika:https://pika.art/

    • Pika和Runway是同性质产品,生成图像,让图像动起来,生成的时间比Runway略长。

    • 使用一样很简单,输入文字或文字和图像,产生会动的影片。和runway一样,做起来很简单,做出好的很难,还需要了解如何运镜和如何设置参数。

      Pika.jpg

  • Sora:https://openai.com/sora

    • Sora发布以来震撼世界,主要是OpenAI以一种全新的方式来描述影片,尝试以Transformer架构将大语言模型(LLM)推进成大世界模型(LWM),根据OpenAI的描述“Sora serves as a foundation for models that can understand and simulate the real world, a capability we believe will be an important milestone for achieving AGI.”。

      Sora.jpg

    • 根据OpenAI Sora的报告 https://openai.com/research/video-generation-models-as-world-simulators 目前开发的功能有:

      • 让图片动起来的 Animating images
      • 延长或缩短影片 Extending generated video
      • 使用文字描述修改影片 Video-to-video editing
      • 自动衔接不同影片 Connecting videos
      • 图像生成 Image generation
      • 其他新的模拟功能 Emerging simulation capabilities
        • 3D consistency 人物场景在动态摄影机保持一致的移动。
        • Long-range coherence and object permanenc 人物场景离开镜头后,后续仍然可以出现相同的人物。
        • Interacting with the world 人物的动作能够影响影片的内容,举例了画师绘画叶子,画过的结果能在影片中持续维持一致。
        • Simulating digital worlds 控制人物的行动同时根据行动产生对应的新场景。
    • 如果使用过上述几项text-to-video工具,就能体会到Sora有多大的差异,可惜的是Sora目前只提供给内部测试纠错和少数教育和艺术家合作。

    • 尽管Sora给人感觉相当强大,OpenAI在Sora官网列出了几个弱点,包含产生非正常的动作,人物突然凭空出现,物体异常变形和移动,以及多角色之间互动的问题。

    • 以下网站搜集了Sora产生的影片,可以看看效果

      • Soracool:https://soracool.com/
      • Sora-video:https://sora-video.top/videos

结论:¶

以上介绍生成式内容包含一些主流产品,市场上有非常多类似产品,大部分都有提供免费试用,可以多尝试。

在制作生成式的内容产品上,可以打一套组合拳,利用LLM生成文字内容,用text-to-image生成每个场景的图片,用text-to-speech, text-to-audio生成背景音乐和语音,最后用影片编辑软件整合所有内容做出视频。

生成式内容目前主要挑战在于人物场景一致性问题,通常生成式的工具会提供seed,理论上,同一个seed和同样的文字描述,在同一个模型同一个账号能生成完全一样的内容,实际上生成很长的内容会有很大的难度,这也是Sora能保俶人物场景一致性给大家带来的惊艳。

所有生成式内容,应用都在飞速发展,随时关注最近动态,挑选适合的工具才能跟上时代的潮流。

© ai-workshop-newsletter 2024