AI使用场景的入门指南
- 本文旨在言简意赅的给入门小白一个基本框架的概念,
- 介绍一些流行的开源项目或者产品.
- 让大家知道, 什么技术是 成熟的, 什么是容易被忽悠的.
- 本文只谈技术分类, 商业版权问题尚未解决, 请勿商用, 仅供学习参考
核心分类
- 文生文 (
Txt2Txt
)- 总结 (
Summ
) - 续写
- 分类
- 总结 (
- 文生图 (
Txt2Img
)- 图生图 (
Img2Img
) - 图生文 (
Img2Txt
)
- 图生图 (
- 文生音 (
Txt2Voice
) - 拟声 (
Voice2Voice
) - 文生视频 (
Txt2Video
) - 代码生成 (
Txt2Code
)
分门叙说
- 目前最流行的成熟的使用场景是文生文以及文生图, 但也要根据个人需求来选择
文生文(Txt2Txt
)
信息
用文字生成文字
- 主要使用场景:
- 总结一段文字
- 生成内容或者续写, 比如
- 写email
- 小说
- 写报告
- 问答 - 知识库搜索总结, 知识库截止到2021年9月
- 最好产品(模型)包括:
- 综合型网站:
- 娱乐型流行网站
文生图 (Txt2Img
)
信息
用文字生成图片
- 好用的prompt平台们
- 最佳产品目前全世界只有3个, 都需要科学上网:
- MidJourney
- OpenAI DALL-E3
- ChatGPT Plus 付费用户可随便用
- 随需付费可用API接口
- 开源的Stable Diffusion
- Leonardo
- 一直在追赶MidJourney 从未超越
- 生成漫画的 Comicai
- 字节推出的 多风格AI绘画神器 Dreamina
- Canva - 批量做PPT或海报或推文等
文生音 (Txt2Voice
)
信息
用文字生成声音
音色模仿
信息
换声 如AI孙燕姿之周杰伦发如雪
注意
会有 版权问题 请自行解决
-
流行的开源技术:
文生视频 (Txt2Video
)
信息
用文字生成视频
- Pika
- Runway Gen-2
- 开源 的
SVD
即 Stable Video Diffusion - Fliki - 把想法变成视频
- 尚未上线的 OpenAI Sora - 2025再来看
- 可申请内侧的 Morph AI
数字人
注意
截止至今到2024年2月底, 真正意义上的数字人技术尚不成熟, 请大家期待2025的到来
- 目前为止 最好的半成品 HeyGen
- 口型对准的开源项目
- 开源的 Wav2Lip
- 开源的 GeneFace++
- 百度新推出的 度加剪辑
- 非纯粹意义的数字人方案有一些 比如
- 真人实时换脸 (有一个真人表演者, 同时用 换脸技术 把脸换掉)
云服务
提示
便宜好用可以运行一切开源模型的云服务都在这了
- Run Diffusion 半技术 需科学上网
- RudPod - 需科学上网
- Replicate - 需科学上网
提示
便宜且有海量实用模型
- Lambda Labs - 需科学上网
提示
Lambda Labs 有超便宜的 A1001和 H100 (
$2.49起/hr
)