AI使用场景的入门指南

本文旨在言简意赅的给入门小白一个基本框架的概念,
- 介绍一些流行的开源项目或者产品.
- 让大家知道, 什么技术是 成熟的, 什么是容易被忽悠的.
本文只谈技术分类, 商业版权问题尚未解决, 请勿商用, 仅供学习参考

核心分类

文生文 (Txt2Txt)
1. 总结 (Summ)
2. 续写
3. 分类
文生图 (Txt2Img)
1. 图生图 (Img2Img)
2. 图生文 (Img2Txt)
文生音 (Txt2Voice)
拟声 (Voice2Voice)
文生视频 (Txt2Video)
代码生成 (Txt2Code)

分门叙说

目前最流行的成熟的使用场景是文生文以及文生图, 但也要根据个人需求来选择

文生文(`Txt2Txt`)

信息

用文字生成文字

主要使用场景:
1. 总结一段文字
2. 生成内容或者续写, 比如
  1. 写email
  2. 小说
  3. 写报告
3. 问答 - 知识库搜索总结, 知识库截止到2021年9月
最好产品(模型)包括:
综合型网站:
1. Poe
2. 国内可用的字节跳动的Coze | Coze海外版
3. AiTok
  提示
  AiTok在大陆可用且有付费版GPT4
娱乐型流行网站
1. Character.ai

文生图 (`Txt2Img`)

信息

用文字生成图片

好用的prompt平台们
- Prompt Hero
- PromptBase
最佳产品目前全世界只有3个, 都需要科学上网:
- MidJourney
  - paid plan
- OpenAI DALL-E3
  - ChatGPT Plus 付费用户可随便用
  - 随需付费可用API接口
- 开源的Stable Diffusion
  - 版本已到3 - SD 3
  - 知名模型平台
    - C站
    - 吐司模型站
  - 中文教学经典 B站手把手教学视频
  - 为SD创作了UI的开源项目
    - SD WebUI 开源项目比较技术
    - ComfyUI - 开源需科学上网
  - 可以云端玩SD的云服务
    - Run Diffusion 半技术需科学上网
    - RudPod - 需科学上网
    - 吐司 - 大陆可用小白可玩也是模型平台
- Leonardo
  - 一直在追赶MidJourney 从未超越
- 生成漫画的 Comicai
- 字节推出的多风格AI绘画神器 Dreamina
- Canva - 批量做PPT或海报或推文等

文生音 (`Txt2Voice`)

信息

用文字生成声音

技术尚未绝对成熟, 声音还是有点机器人
最流行的付费平台:
- 11 Labs
流行的开源项目:
- Bark
中文类的付费云服务 (中文的质量尚佳):
- 百度
- 科大讯飞

音色模仿

信息

换声如AI孙燕姿之周杰伦发如雪

注意

会有 版权问题 请自行解决

流行的开源技术:
- so-vits-svc
B站手把手视频讲解:

文生视频 (`Txt2Video`)

信息

用文字生成视频

Pika
Runway Gen-2
开源的 SVD 即 Stable Video Diffusion
Fliki - 把想法变成视频
尚未上线的 OpenAI Sora - 2025再来看
可申请内侧的 Morph AI

数字人

注意

截止至今到2024年2月底, 真正意义上的数字人技术尚不成熟, 请大家期待2025的到来

目前为止最好的半成品 HeyGen
口型对准的开源项目
- 开源的 Wav2Lip
- 开源的 GeneFace++
百度新推出的度加剪辑
非纯粹意义的数字人方案有一些比如
- 真人实时换脸 (有一个真人表演者, 同时用 换脸技术 把脸换掉)

云服务

提示

便宜好用可以运行一切开源模型的云服务都在这了

Run Diffusion 半技术需科学上网
RudPod - 需科学上网
Replicate - 需科学上网
提示
便宜且有海量实用模型
Lambda Labs - 需科学上网
提示
Lambda Labs 有超便宜的 A1001和 H100 ($2.49起/hr)

核心分类​

分门叙说​

文生文(Txt2Txt)​

文生图 (Txt2Img)​

文生音 (Txt2Voice)​

音色模仿​

文生视频 (Txt2Video)​

数字人​

云服务​

核心分类

分门叙说

文生文(`Txt2Txt`)

文生图 (`Txt2Img`)

文生音 (`Txt2Voice`)

音色模仿

文生视频 (`Txt2Video`)

数字人

云服务