跳到主要内容

AI使用场景的入门指南

  • 本文旨在言简意赅的给入门小白一个基本框架的概念,
    • 介绍一些流行的开源项目或者产品.
    • 让大家知道, 什么技术是 成熟的, 什么是容易被忽悠的.
  • 本文只谈技术分类, 商业版权问题尚未解决, 请勿商用, 仅供学习参考

核心分类

  1. 文生文 (Txt2Txt)
    1. 总结 (Summ)
    2. 续写
    3. 分类
  2. 文生图 (Txt2Img)
    1. 图生图 (Img2Img)
    2. 图生文 (Img2Txt)
  3. 文生音 (Txt2Voice)
  4. 拟声 (Voice2Voice)
  5. 文生视频 (Txt2Video)
  6. 代码生成 (Txt2Code)

分门叙说

  • 目前最流行的成熟的使用场景是文生文以及文生图, 但也要根据个人需求来选择

文生文(Txt2Txt)

信息

用文字生成文字

文生图 (Txt2Img)

信息

用文字生成图片

文生音 (Txt2Voice)

信息

用文字生成声音

  • 技术尚未绝对成熟, 声音还是有点机器人
  • 最流行的付费平台:
  • 流行的开源项目:
  • 中文类的付费云服务 (中文的质量尚佳):

音色模仿

注意

会有 版权问题 请自行解决

文生视频 (Txt2Video)

信息

用文字生成视频

数字人

注意

截止至今到2024年2月底, 真正意义上的数字人技术尚不成熟, 请大家期待2025的到来

  • 目前为止 最好的半成品 HeyGen
  • 口型对准的开源项目
  • 百度新推出的 度加剪辑
  • 非纯粹意义的数字人方案有一些 比如
    • 真人实时换脸 (有一个真人表演者, 同时用 换脸技术 把脸换掉)

云服务

提示

便宜好用可以运行一切开源模型的云服务都在这了

  • Run Diffusion 半技术 需科学上网
  • RudPod - 需科学上网
  • Replicate - 需科学上网
    提示

    便宜且有海量实用模型

  • Lambda Labs - 需科学上网
    提示

    Lambda Labs 有超便宜的 A1001和 H100 ($2.49起/hr)