005 LLM - Content Generation¶

tags: #genAI #openai #google #microsoft #chatgpt #copilot #gemini #groq #mistral #llama2 #moe #dalle3 #firefly #alpaca #sd #sdxl #comfyui #comflowy #elevenlabs #capcut #suno #clipchamp #stableaudio #mubert #synthesia #runway #heygen #pika #sora

本文主要介绍各种生成式AI能生成的内容，工具以及服务，内容将不会涉及相关理论和技术，以介绍资源和应用为主。相关技术和产品演变快速，请随时关注最新的行业报导及开源信息。

Generation AI¶

生成式AI能产出的内容多样，从最基本的文字，图像，声音，音乐和影片。大部分生成的内容没有版权（部分服务需要付费使用后版权归使用者，越来越多服务加上AI生成的标记，用以辨识内容是否AI生成），可以使用在商业用途。

AI生成的内容与人类产出的内容相比，最大的优点在于训练数据的量超过比一般人类的学习能力，因此能透过使用者的要求，从训练过的数据，生成或模仿出更广泛和创新的内容，甚至是组合出现实世界不存在的内容。而其缺点也是显而易见，产出的内容可能与使用者要求存在偏差（这部分的原因，除了模型能力，还有部分来自于prompt的描述能力），与事实偏差（例如太阳和月亮很常同时出现，以及早期图像生成技术在人类的手指细节和数量一直有问题），还有对现实世界的认知（例如最近Sora生成的影片，椅子会浮在地面上）。使用上，取其优点，弃其缺点为原则，毕竟模型的进步，比硬件的摩尔定律快了太多。

Content type¶

Text generation（文字生成）
- 写文章，写故事，写代码...等。
Image generation（图像生成）
- 艺术画作，产品图，商标，插图...等。
Audio generation（音频生成）
- text-to-speech文字转语音，音乐，歌曲...等。
Video generation（视频生成）
- 视频，动画，视频剪辑。

以下内容，会介绍一些应用或是较有名的工具及服务。

Text generation¶

文字生成在OpenAI鼎鼎大名的ChatGPT带动下，现在已经无人不知，也是很多人日常工作的“好朋友”。以下介绍常用的服务：

ChatGPT: https://chat.openai.com/
- ChatGPT的免费版本提供的GPT3.5模型的聊天功能基本能满足日常使用，其付费版本GPT4.0的模型对于prompt的理解和执行，有更好的效果，测试中在几乎所有学术和专业考试中都取得了更高的分数，甚至在律师资格考试中超过了 90% 的律师。
- ChatGPT的付费版本，还提供了Dall-E3(图像生成)，GPTs客制化不同功能的AI代理人...等功能。
- OpenAI的最大优势在于技术储备，提供现有模型的同时GPT5/6/7也可能同时在开发。
Copilot：https://copilot.microsoft.com/
- 微软的Copilot的免费服务是能免费使用到OpenAI GPT4的一个途径。由于OpenAI需要钱，微软有钱但是搜索业务急需振兴，所以微软能最早的接入GPT并免费提供给使用者。
- 与OpenAI的Chatgpt对比，Copilot的最大优势在于加入的联网搜索功能，由于AI模型都有训练截至时间，AI一般无法回答即时内容，Copilot会将使用者的问题先做网路搜索，再提供给AI模型来回答。因此，需要搜索即时信息或是做事实查核（fact check），使用Copilot会是一个很不错的选择。
- Copilot的短板也在于回答的内容广度被限制了，这无关模型能力，主要是微软对于这个服务的定位，有些内容限制产生的程度比OpenAI还高。
Gemini：https://gemini.google.com/
- Gemini是Google新一代的模型，Gemini-1.0-pro目前可以免费使用，性能大约是GPT3.5等级。已经发布尚未推出的模型有Gemini-1.5-pro，Gemini-Ultra等，Google在以长上下文（1M token、10M token）来与其他公司区隔。
- Gemini-1.5-pro可以在 https://aistudio.google.com/ 申请试用。
- Gemini-Ultra从测试数据上来看，和OpenAI的GPT4在同一水平，需要付费使用。
Claude：https://claude.ai/
- Claude是由Anthropic开发，由一群在OpenAI走上商业化的路上，离开的员工组成。Claude 1 & Claude 2一直没有引起重视，主要在于模型能力对比GPT3.5并没有明显优势, 但其免费版本自带文件上传功能，能从文件的内容生成其他内容。
- Claude近期推出Claude3，引起广大关注，免费版的服务，可以使用Claude3-Sonnet的模型，模型的能力应该介于GPT3.5~GPT4之间，而其付费版本的Claude3-Opus模型，从测试数据上超越了GPT4，实际使用上效果也是跟GPT4在同一个级别。
- Claude3的优势在于除了测试数据的结果能和GPT4媲美之外，在测试时特别强调了对于模型“不回答”的评分也是比GPT4出色。其挑战在于，GPT4是2022年就训练出来，与OpenAI的竞争，可能还在下风。
Poe：https://poe.com/
- Poe是OpenAI的董事出来开的服务，主打模型多，上面可以使用到各家的模型，以及开源模型。但使用各家最高级的模型，还是需要付费使用。
- Poe在免费的服务同时提供客制化代理AI的服务，和OpenAI的GPTs一样，能透过Prompt的设计，客制化代理AI执行特定的目的。
- Poe对注册条件的要求较低，在其他服务不好注册上的时候，可以作为替代。
Mistral：https://chat.mistral.ai/
- Mistral是来自法国的公司，所使用的模型是Mistral 7B和Mixtral 8x7B两种开源模型，8x7B是采用MoE(Mix of Expert)的方式，简单说是透过组合8个7B的小模型，每个模型有特殊的功能，这种MoE的方案在开源的模型的性能提升上有显著的效果。
- 这类模型的训练参数比其他家少，虽然MoE能使小模型组合出不错的效果，但是还是没法和GPT3.5比较，加上Mistal支持的主要语言是英语和其他欧洲主要语言，亚洲区域使用上不方便。
Groq：https://groq.com/
- Groq跟其他几家比起来，特色是“快”，模型的反应“超快速”，每秒可以产生超过500个token，相当于秒出一篇文章，翻页都来不及跟上。这种速度上的优势，让低延迟在生成式AI的应用有更多的机会。
- 这家公司使用自己研发的LPU（相比于其他公司使用GPU）来做生成式AI的计算。该公司服务的范围还包含芯片，云端服务器，设备等。
- Groq的模型主要还是开源模型，提供由Meta出的Llama2 70B, Google出的Gemma 7B,还有Mixtral出的8x7B模型。实际体验，速度上击败所有对手好几倍，但是由于模型的能力，对于复杂问题，还是比不上OpenAI, Google和Claude的体验。
Open Source
- Open source的模型相当多，最出名的还是Mixtral的8x7B，Meta的Llama2， Google的Gemma这几款。
- Hugging face https://huggingface.co/ 是全世界最大AI模型的集散地。
- 使用Open source的模型，可以用Ollama https://ollama.com/, LMStudio https://lmstudio.ai/ 等平台，这些免费的平台协助使用者下载模型及使用。
- 开源的模型可以使用GPU来运行，但是在没有GPU的电脑上，Ollama和LMStudio都能以CPU来运行，需要注意的是CPU的性能和内存大小，最好内存在32GB以上，运行起来才不会让体验太差（生成速度太慢）。
- 开源模型的选择，由于家用硬件的限制，开源模型一般会标注Quantization的数字，以Q表示，Quantization可以理解为压缩或优化模型的技术，对比未优化模型，Q4的模型代表使用4位精度量化，在模型的权重计算以4位（$2^4 = 16$）做量化，量化过的模型虽然精度降低，但是模型大小减少，运行速度提醒。家用的话一般选择Q4，Q5的版本，如果家中设备硬件性能较高，也可选择Q6以上。
- 开源模型体验一般较差，特别是在中文环境，也许可以试试Qwen等国产模型。

Image generation¶

Image generation tools¶

图像生成较为知名的是Midjourney, OpenAI的Dall-E-3，Adobe的Firefly，以及开源的Stable Difussion，Stable Difussion XL， Photoshop插件Alpaca. 使用图像生成，最大的挑战在于如何用文字描述你要什么，如果你了解美术，平面设计等专业术语和艺术家风格，会有很大帮助，如果不了解，从别人的作品所分享出来的prompt，也是一个途径。

免费的图像生成通常都有尺寸限制，一般以512x512的图为主，实际应用上，可以搭配生成式的inpainting（在现有图像内添加元素），outpainting（以现有图片自动添加外扩后的图像）和图像放大工具搭配使用。

Midjourney：https://www.midjourney.com/
- Midjourney是目前公认效果最好的图像生成服务，但已经取消免费试用。使用方式是在Discord上Midjourney群组（https://discord.gg/midjourney）发送“/imagine”开头的prompt给Midjourney bot, 生成后图像可以下载。
- Midjourney showcase：https://www.midjourney.com/showcase
  - Midjourney的showcase提供了大量由用户生成的图像，点击图像可以看到生成图片的prompt，可以作为学习的参考。
Dall-E-3: https://openai.com/dall-e-3
- 使用Dall-E-3的方法很多, ChatGPT的付费用户，可以直接使用。性价比最高的是使用免费的Microsoft copilot整合的图像生成。
- Microsoft：https://copilot.microsoft.com
  - 直接使用copilot, 输入"Create an image about ..." prompt，copilot会使用 https://www.bing.com/images/create 提供的Dall-E-3生成图像。
  - 在copilot一样可以看到许多showcase，一样可以学习别人如何使用prompt生成图片 https://www.bing.com/images/create
    
    $copilot_image_generation_showcase.jpg$
Adobe Firefly：https://www.adobe.com/products/firefly.html
- Adobe的firefly提供的图像生成，inpaint，outpaint的功能，可以在官方网站注册有少量credits额度(25 credits/month)供测试。Firefly有提供线上服务和Photoshop插件，使用firefly插件在photoshop前提是需要有正版photoshop, photoshop也是一款个人使用年费不低的软件，有摄影或平面设计的需求，建议使用正版（AI相关的服务，都需要服务器运算或是本地模型下载计算，通常破解版无法使用生成式AI功能，便宜的Photoshop可以用“土耳其”或“阿根廷”搭配“Photoshop”做关键字搜索）。
- Firefly提供了一些参数设定，可以让使用者以相对于midjourney较简单的方式产生需要的图片，并可以对图片做编辑修改
  - 生成“A whale jumping out of sea across a small boat under the sunset, rainbow aside the sky.”
  - 使用inpainting功能对图像局部增加元素“Some seagulls are flying in the sky"
  - 新增后结果
Alpaca：https://www.alpacaml.com/
- Alpaca是一款Photoshop插件，提供和firefly类似功能，实际使用起来效果没有firefly好，但每月比较大方的提供了100次的免费额度（firefly即使付费，每月仍然有使用额度限制）,在photoshop编辑一些照片仍然是一个不错的选择。
Stable diffusion：https://github.com/Stability-AI/stablediffusion
- Stable diffusion (SD) 是模型的名称，开源的图像生成主要的技术，使用上需要有能运行图像生成的电脑或是使用云端计算平台去部署。
- 使用SD模型需要了解除了正向提示词（你要的内容），负向提示词（不要的内容），还需要了解一些不同的采样器（sampler），提示词相关性（CFG）等参数设置，简单的python知识，除了stable diffusion模型之外，再下载适合的模型（例如知名生成美女的Lora，控制姿态的ControlNet）。有兴趣可以到CIVITAI这个网站研究各种模型及使用方法。https://civitai.com/
- 由于开源模型使用上比商业模型跟麻烦，因此有些不错的No code UI开发出来,帮助大家更简单的使用上。
  - ComfyUI：https://github.com/comfyanonymous/ComfyUI
  - Comflowy：https://github.com/6174/comflowy
  $Comflowy.jpg$
  - 这类的工具以可视化的方式，将使用者安装，找模型，编程和使用的难度很大程度降低，如果要使用开源模型生成图片，建议选用。
- 除了以上介绍的各项服务，国内外还有大量提供类似服务的厂商，一般都提供试用和付费服务。

Image recognition tools¶

图像识别，不在本文生成式图片的范畴，但图像识别的重要性对比图片生成也许更为重要。由于大语言模型的流行，大语言模型能够透过文字和使用者互动，而图像识别提供了辨识图片内容以文字的方式来描述，对于大语言模型的更多应用带来无限的想象，例如通用机器人的应用，自动驾驶的应用。。。等，可以使用视觉输入，图像识别之后，采取动作。前例鲸鱼跳出水面的照片，由Google Gemini模型识别结果如下：

很多大语言模型都有给免费使用者提供图像识别服务，如microsoft copilot, Google gemini, Anthropic Claude。可以在这些平台上测试各种应用场景，如提供食材照片要求规划晚餐，辨识发票产生支出列表，辨识医嘱单判断治疗方案...等。

Audio generation¶

音频生成，常见的是文字生成语音和文字生成音乐，文字生成音乐，歌曲等，其中文字生成自然语音已经是一个相当成熟的技术，也广泛地用于各种内容，而文字生成音乐和歌曲，则是正在开发中的功能，逐渐会有不错的应用出来。

text-to-speech¶

Elevenlabs：https://elevenlabs.io/
- Elevenlabs是提供text-to-speech最出名的公司，提供多国语言的text-to-speech（文字生成语音）之外，还能做speech-to-speech（克隆你的声音到多国语言），这些功能被广泛的用于内容创作，游戏，有声书，播客...等。
- 使用上可以透过该公司的网页生成语音后下载MP3或整合功能进自己开发的工具使用API访问。
Microsoft Clipchamp：https://clipchamp.com/
- Microsoft clipchamp是一款在widnows11内置的影音编辑软件，windows10用户也可以在商店下载免费使用。
- Clipchamp使用的text-to-speech功能是Microsoft Azure平台上的TTS功能，不透过Clipchamp，也可以在可以在Azure上开启F1的TTS服务，免费使用限制的额度。
- Clipchamp和Azure的TTS除了可以免费使用一定的额度，性能表现也相当好，作为内容的语音性价比很高。
- 使用方法在Clipchamp，新增项目，在项目内容选择"Record & Create"/"Text to Speech", 在右侧的Panel可以设置语言，人物，音调，速度和需要生成语音的文字档,完成的音频可以随着影片汇出mp3。
  
  $clipchamp.jpg$

text-to-music¶

很多厂商在尝试Text-to-music产品，例如Google musicFX, OpenAI MuseNet, Meta Musicgen, Stability AI Stable Audio, Adobe MusicControlNet， Microsoft Muzic...等，大部分还没有正式向一般用户开放，少部分已经可以申请免费试用，可以搜索相关关键词了解一些demo和尝鲜。

Stable Audio：https://www.stableaudio.com/generate
- Stable Audio提供免费用户每月20首的额度，没有测试过，感兴趣的可以注册试试效果。
  
  $Stable_Audio.jpg$
Mubert：https://mubert.com/
- 免费用户每月25首歌，没有测试过，感兴趣的可以注册试试效果。
  
  $Mubert.jpg$
Suno AI：https://www.suno.ai/
- Suno是目前比较推荐的text-to-music服务，生成的效果经过挑选还不错，重要的是免费额度一天有50个credits（5首歌曲），更重要的是，用完之后隔天自动补满。付费用户，每月$8可以生成500首歌，该服务有版权声明，付费用户可以发布AI生成的音乐，免费用户不能商用。
- 使用方法
  - 在Lyric框中填入歌词，Style的部分可能需要对音乐风格有些了解，例如英文流行音乐，可以填入POP，中文流行音乐可以填入CPOP，给一个title，就能生成。
  - 每次生成会产生几个不同输出，可以试听看看哪一个效果比较喜欢（如果是中文歌，可能要多试几次，中文歌的效果比较不好）。
  - 由于每次生成的音乐有40秒的限制，所以无法完整的唱完一首歌，官方的FAQ也给出的方案，在选定好一首产生的歌曲，点右侧的三个小点，可以选择“Continue From This Song”，不需要再提供其他信息，只要一直继续到所有歌词唱完。
  - 如果你不会写歌词也没问题，找ChatGPT或是Copilot，描述你要的意境和场景，请他生成歌词，一首专业的歌词就能马上取得。

Video generation¶

Text-to-Video一样是各家争相开发的一块领域，有让图片动起来的，有生成会说话的头像，有生成影片的。是生成式AI一大热门领域。

Capcut（剪映）：https://www.capcut.cn/
- 由字节跳动Bytedance出的剪映导入了不少AI功能，很实用的一款视频编辑器。剪映提供了“图文成片”功能，可以让使用者以文字描述场景，使用者提供画面素材或AI自动匹配，几分钟内容生成视频。软件还提供多种生成文案的功能。对标Microsoft的clipchamp，视频编辑很推荐的一款软件。
Synthesia：https://www.synthesia.io/
- Synthesia可以客制化头像，并以头像来做简报，很多虚拟主播以这个软件来做。最低收费每月$22，有需要专业虚拟人物来报导内容可以选用。
Heygen：https://app.heygen.com/
- Heygen也是能让你建议虚拟人物来播报内容的工具，使用上选择人物，声音，填入文字内容，即可生成。平台收费价格较高。
Runway：https://app.runwayml.com/
- Runway以让你的图片动起来出名，提供少量额度免费测试，可以使用文字描述，笔刷，镜头等调整作品的运动方式。
- 还有提供生成音频，编辑影片，编辑图片等其他功能。
- 每段生成的影片时间很短，需要多段延长。
Pika：https://pika.art/
- Pika和Runway是同性质产品，生成图像，让图像动起来，生成的时间比Runway略长。
- 使用一样很简单，输入文字或文字和图像，产生会动的影片。和runway一样，做起来很简单，做出好的很难，还需要了解如何运镜和如何设置参数。
Sora：https://openai.com/sora
- Sora发布以来震撼世界，主要是OpenAI以一种全新的方式来描述影片，尝试以Transformer架构将大语言模型（LLM）推进成大世界模型（LWM），根据OpenAI的描述“Sora serves as a foundation for models that can understand and simulate the real world, a capability we believe will be an important milestone for achieving AGI.”。
- 根据OpenAI Sora的报告 https://openai.com/research/video-generation-models-as-world-simulators 目前开发的功能有：
  - 让图片动起来的 Animating images
  - 延长或缩短影片 Extending generated video
  - 使用文字描述修改影片 Video-to-video editing
  - 自动衔接不同影片 Connecting videos
  - 图像生成 Image generation
  - 其他新的模拟功能 Emerging simulation capabilities
    - 3D consistency 人物场景在动态摄影机保持一致的移动。
    - Long-range coherence and object permanenc 人物场景离开镜头后，后续仍然可以出现相同的人物。
    - Interacting with the world 人物的动作能够影响影片的内容，举例了画师绘画叶子，画过的结果能在影片中持续维持一致。
    - Simulating digital worlds 控制人物的行动同时根据行动产生对应的新场景。
- 如果使用过上述几项text-to-video工具，就能体会到Sora有多大的差异，可惜的是Sora目前只提供给内部测试纠错和少数教育和艺术家合作。
- 尽管Sora给人感觉相当强大，OpenAI在Sora官网列出了几个弱点，包含产生非正常的动作，人物突然凭空出现，物体异常变形和移动，以及多角色之间互动的问题。
- 以下网站搜集了Sora产生的影片，可以看看效果
  - Soracool：https://soracool.com/
  - Sora-video：https://sora-video.top/videos

结论：¶

以上介绍生成式内容包含一些主流产品，市场上有非常多类似产品，大部分都有提供免费试用，可以多尝试。

在制作生成式的内容产品上，可以打一套组合拳，利用LLM生成文字内容，用text-to-image生成每个场景的图片，用text-to-speech, text-to-audio生成背景音乐和语音，最后用影片编辑软件整合所有内容做出视频。

生成式内容目前主要挑战在于人物场景一致性问题，通常生成式的工具会提供seed，理论上，同一个seed和同样的文字描述，在同一个模型同一个账号能生成完全一样的内容，实际上生成很长的内容会有很大的难度，这也是Sora能保俶人物场景一致性给大家带来的惊艳。

所有生成式内容，应用都在飞速发展，随时关注最近动态，挑选适合的工具才能跟上时代的潮流。