YouTube Shorts AI项目之X的故事拆解教程

X的故事基本上都是走萌系流量,最早是猫meme起量,后来延伸出更多的赛道,比如小兔子的故事,小老虎的故事,但猫的故事受众群体够大,拓展层次也更强,底层逻辑除了萌,更多的是具有教育意义的一种展现。

但是只有猫的故事延伸品类最多,所以接下来就以猫的故事为例,各位圈友可以思维拓展,也可以先拿这个赛道练手。

比如:小猫受到了霸凌,经过了XXX,最后得到XXX; 或者,小猫家里遭遇了变故,猫妈妈意外身故猫爸爸辛苦带小猫,等等这些,具有画面语言的视频。

所以在这种赛道中,我们在考虑反推爆款视频的同时,另一个最重要的环境因素要明白,那就是这个视频想表达的是什么?

目前X的故事整体赛道,猫的故事比较拥挤,后期开通YPP的风险有点难度,要么考虑拓展其他萌宠的故事,要么考虑图转视频。

我们来看看,这类型的视频,长什么样子:

YouTube Shorts AI项目之X的故事拆解教程

X的故事,不仅仅只是把图片做出来的技巧,更多的是底层想要表达的含义,好的故事才能让它爆炸;

优点: 适合新人,操作难度不大,容易理解,不需要太复杂的工作流,并且花费很少的时间即可做成。此类赛道大量的高爆对标账号,可以快速模仿上路。

缺点: 赛道拥挤,此类赛道的创作者太多,导致开通YPP的难度加大(同个赛道YPP开通过多,后期容易拒绝),需要花费一定的资金(购买Gpt账户,图生视频的钱)。

特点: 对于缺点而言,我们可以想办法克服,图片开通难,我们就图转视频,然后成本就拉大,我们就考虑降低成本,但不可能是0成本。

项目介绍

这类项目我们可以考虑逆练九阴真经,也就是把对标的爆款视频反推图片,完整整个故事线,然后在重新画图,组合(或者图片+转场特效,或者图转视频)

这类绘画的风格其实是有讲究的,包括下面要讲的搞笑段子,都是用到dall-e-3的模型,只有这种模型出来的图片,以及语境能力可以胜任。

各位可以分别对比,其他MJ,SD,Fulx等等,它的完善度,风格,都不如dall-e-3的模型足够优秀,并且,成本更便宜。

dall-e-3 ,就是chatgpt的画图功能,在这类图片我们要展现的时候,我们要先理解这个画风是什么,而不是直接拿图反推瞎画,不然画风不舒服,老外接受度低,视频最后的连贯度就容易出戏。

画风

皮克斯动画风格,欧美国家从小是被迪士尼,皮克斯这类动画公司所洗礼,所以这种风格的展现,更容易让他们沉浸下去。皮克斯动画风格,迪士尼动画风格,超现实主义等等这些,所以在提示词当中我们要带上这类词。

那当我们理解这些核心概念以后,我们就可以尝试去操作这类风格的图片创作。

实操详解

我主要讲解如何通过反推的逻辑去快速出爆款内容一样的视频,为什么不讲原创,一来是麻烦,需要收集很多故事,然后在风格转写,脚本分镜,反复优化,这个很麻烦讲起来没头没尾的。所以主要讲反推,方便快捷,而且这个领域有源源不断的新内容出现,做原创选题实属没必要(AI写出来的故事真的太噶)。

一共分为三大步,分解视频,创作图片,图片筛选/图转视频,剪辑合成(音乐,音效),

第一步:分解视频

首先,我们需要视频拆分出来不同的画面,然后反推出提示词,以及完整的故事线,这样我们就可以在第二步创作图片的时候更加的方便,也有口子入手。

(1)手动截图

每个视频它的底层,都是几张图组成的整体故事,哪怕是图转视频也是这样,所以最简单方便的方式,你就挨个截图,每一张每一张的来,一个视频也就不超过10张图。

(2)通过代码来分割出图片

代码不会用的,也可以手动截图,不影响开展项目

用软件拆解会方便一点,通过OpenCV,使用直方图比较来检测场景变化,然后计算巴氏距离(Bhattacharyya distance)用于衡量两个直方图的相似度,将彩色帧转换为灰度图,计算灰度直方图:

  • threshold: 场景切换的阈值,值越小检测越敏感
  • video_path: 输入视频的路径
  • output_dir: 输出帧的保存目录
import cv2
import numpy as np
from PIL import Image
import os

def detect_scene_change(video_path, output_dir, threshold=0.15):
    """
    简单的视频场景检测演示函数
    参数:
        video_path: 输入视频的路径
        output_dir: 保存关键帧的目录
        threshold: 场景切换的阈值
    """
    # 创建输出目录
    if not os.path.exists(output_dir):
        os.makedirs(output_dir)

    # 打开视频文件
    cap = cv2.VideoCapture(video_path)
    
    # 获取视频的基本信息
    fps = cap.get(cv2.CAP_PROP_FPS)
    frame_count = 0
    scene_count = 1

    # 读取第一帧
    ret, prev_frame = cap.read()
    prev_gray = cv2.cvtColor(prev_frame, cv2.COLOR_BGR2GRAY)
    prev_hist = cv2.calcHist([prev_gray], [0], None, [256], [0, 256])

    while True:
        # 读取当前帧
        ret, frame = cap.read()
        if not ret:
            break

        # 计算当前帧的直方图
        gray = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY)
        hist = cv2.calcHist([gray], [0], None, [256], [0, 256])

        # 计算两帧之间的差异
        diff = cv2.compareHist(prev_hist, hist, cv2.HISTCMP_BHATTACHARYYA)

        # 如果差异大于阈值,认为是场景改变
        if diff > threshold:
            # 保存关键帧
            frame_rgb = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)
            img = Image.fromarray(frame_rgb)
            save_path = os.path.join(output_dir, f'scene_{scene_count}.jpg')
            img.save(save_path)
            
            print(f"检测到场景变化! 保存第 {scene_count} 个场景")
            scene_count += 1

        # 更新前一帧的信息
        prev_hist = hist
        frame_count += 1

    cap.release()
    print(f"处理完成! 共处理 {frame_count} 帧,检测到 {scene_count-1} 个场景")

# 使用示例
if __name__ == "__main__":
    video_path = "input_video.mp4"  # 替换为你的视频路径
    output_dir = "output_frames"     # 替换为你想保存帧的目录
    detect_scene_change(video_path, output_dir)

第二步:创作图片

之前讲过,我们使用dall-e-3的模型,那对于新人更方便的就是使用Chatgpt,我们只需要根据图片反推他的画面,然后合成故事,再次创作即可。

(1)使用提示词,批量提取故事描述: 我们可以批量丢给Chatgpt来描述画面。

提示词:

帮我描述一下这几张图讲的是什么,它是根据视频拆解出来的图片,其实是一个完整的故事 ,你挨个描述一下对应画面,然后根据图片把这个故事连贯在一起。你需要分别根据场景,景别,动作,角色,来描述,要给到中英文对照。

YouTube Shorts AI项目之X的故事拆解教程

每次只能上传10个图片,所以我们继续发送:

这个故事还没结束,还有,我在继续给你,请你继续描述,然后接上之前的剧情,

YouTube Shorts AI项目之X的故事拆解教程

然后我们给到完整线的梳理,拿到这些详细的描述词: 提示词:

现在把整个完整的故事线梳理一下,每个图片对应的是一个场景,详细把每个图片的描述清楚

生成结果:

  1. 场景一 母猫和小猫走在城市街道上,母猫亲切地靠近小猫,小猫穿着可爱的背带裤,两人依偎在一起,充满温馨的亲子氛围。
  2. 场景二 小猫在街头的爆米花摊前站着,手里拿着一张钞票,满怀期待地看着摊位上的爆米花,显然很想尝一尝这美味的零食。
  3. 场景三 爆米花摊的摊主表情严肃地指向一个“禁止猫咪”的标志,不允许小猫购买爆米花,小猫的希望被冷漠地拒绝了。
  4. 场景四 小猫因为被拒绝而伤心,依偎在母猫的怀里,母猫温柔地轻抚小猫的头,安慰着它,传递出满满的母爱。
  5. 场景五 母猫牵着小猫的手一起走回家,背影温暖,象征着无条件的陪伴和关爱。
  6. 场景六 回到家中,母猫微笑着,看起来温柔又坚定,似乎在酝酿一个计划,要为小猫做点特别的事情。
  7. 场景七 母猫换上黑色紧身衣,戴上面罩,摆出战斗姿势,似乎准备要采取行动,眼神中透出一种坚定的决心。
  8. 场景八 小猫看着母猫的装扮,露出惊讶的表情,似乎没想到母猫竟然有这样的一面。
  9. 场景九 母猫穿着黑色紧身衣,穿梭在玉米地里,表情专注,显然是在执行一项特殊任务,目标明确。
  10. 场景十 母猫在玉米地里找到一堆玉米,小心翼翼地将玉米装进麻袋里,显然在为小猫准备食材,完成她的任务。
  11. 场景十一 母猫背着装满玉米的麻袋快速逃跑,身后愤怒的农夫和他们的狗紧追不舍,母猫全力奔跑,表情中带着紧张又专注的神情。
  12. 场景十二 母猫成功带着玉米回到家中,换上围裙,开始在厨房里准备玉米,脸上露出幸福的表情,显然对即将完成的美味充满期待。
  13. 场景十三 母猫站在炉灶前,小心地用木勺搅拌锅里的玉米,表情专注,整个厨房充满温馨的氛围。
  14. 场景十四 爆米花开始从锅里喷涌而出,母猫和小猫都露出惊讶的表情,没想到玉米会变成这么多的爆米花,整个厨房被爆米花填满。
  15. 场景十五 厨房地板上堆满了爆米花,母猫和小猫站在其中,表情略显无措,但又带着无奈的笑意,场面轻松而温馨。
  16. 场景十六 母猫的头顶落满了爆米花,小猫惊讶地看着母猫的模样,两人之间的互动十分搞笑可爱。
  17. 场景十七 面对厨房的爆米花堆,母猫忍不住开怀大笑,小猫也在一旁开心地看着母猫,整个场景充满欢笑和温暖。
  18. 场景十八 最后,母猫和小猫坐在客厅的地板上,一起享受着一桶爆米花,两人都露出满足的笑容,母子俩其乐融融,故事画上了圆满的句号。

故事总结

小猫因为无法买到爆米花而失落,母猫为了让小猫尝到它心心念念的美味,冒险去玉米地“借”来了玉米,经历了紧张的追赶后,母猫成功带着玉米回家,亲手为小猫制作爆米花。虽然过程中意外不断,但最终母子俩一起开心地享受了爆米花,故事温馨圆满。

    那我们能够看到整体故事线,没有出入,想输出的情绪价值,也没有偏差!

    整体故事梗概,以及详细图片的画面我们都拿了出来,如果有描述不对的地方,或者理解错的地方,可以自己手动修改。

    (2)设定身份:

    现在为了故事的统一性,我们需要要角色保持一致性,尽量的一致即可,毕竟目前来说,AI绘图也好,视频也好,还处于抽卡游戏当中,那我们需要如何让它保持一致性,角色,物种,性别,服装,动作,画风,来保持它的大概一致性。只要做到这点,观众一般都是不挑的。

    提示词:

    我想让你重新作图,角色要重新设定,首先我需要告知的是,风格是皮克斯的动画风格,超现实主义,这些动物是属于拟人化的展现形式,所以它不需要之前的生物习惯,比如爬行,而是像人类一样行走,先不要做图我们先来聊一聊,这两个角色的固定,长什么样子,然后在优化提示词的部分。

    然后尝试作画,看一下角色风格有没有走歪:

    好,大致上没问题,猫妈妈画出来的很性感,我的最爱 哈哈哈~~~

    那我们来存一下角色,省的这个窗口崩了,方便在新的窗口直接在画:

    角色一:母猫

    • 外貌:母猫是一个拟人化的白色长毛猫,拥有柔软蓬松的长毛,特别是在头部、耳边和尾巴处更为突出,展现出温柔而优雅的气质。
    • 眼睛:大而灵动的绿色眼睛,能表达出温柔和坚定的双重情感。
    • 表情与姿态:平时表情温柔慈爱,带有轻微的微笑线条。行动中则表现出坚定、沉着的神情。
    • 服装:
      • 日常穿着:穿一件简洁优雅的粉色连衣裙,温暖的色调衬托出她的母性与温柔。
      • 任务装:在执行任务时,母猫穿上黑色紧身特工服,配有腰带和小工具袋。虽然穿着黑色紧身衣,但头部、耳边的白色长毛和蓬松的白色尾巴依然明显,增强她的辨识度。
    • 性格:母性温柔且富有决心,为了小猫不惜冒险。平时温柔体贴,但在执行任务时展现出敏捷与果断。

    角色二:小猫

    • 外貌:小猫是一个拟人化的粉色短毛猫,整体外貌显得非常可爱,皮肤呈粉色,给人一种天真无邪的感觉。
    • 眼睛:大而圆的亮黄色或金色眼睛,充满好奇与渴望,尤其是对新事物的兴奋表现。
    • 表情与姿态:总是带着期待和好奇的表情,看到母猫或心仪的物品时眼睛会亮起,有一种天然的孩子气。
    • 服装:穿着一件牛仔蓝的背带裤,内搭浅色T恤,整体造型童趣满满,表现出他活泼的个性。
    • 性格:天真活泼,充满好奇心,对世界充满探索欲。特别依赖母猫,时常流露出孩子般的依恋。

    场景及色调

    • 整体风格:以皮克斯动画风格为主,色彩丰富而饱满。母猫和小猫的互动场景以暖色调为主,营造出温馨的氛围。
    • 光影细节:场景中的光影变化配合角色的情感,例如母猫执行任务时光线偏暗,凸显紧张感;在家中或与小猫互动时则使用柔和温暖的光线。

    (3)尝试创作新的图片

    提示词:

    为了我们能够画出比之前更优质的图片,我需要你帮我优化提示词,首先两个猫的角色描述要固定在提示词里面,画风也要固定在提示词里面,然后要理解,这些动物都有拟人化的特点,以及要遵守一下规则:

    色调与光影:皮克斯风格通常采用丰富的色彩和精细的光影处理,因此在画面上可以用柔和的暖色调,突出家庭和温馨的氛围,而在母猫任务场景中,色调可以略显冷色,突出紧张感。

    夸张的肢体语言:可以加入一些夸张的动画效果,例如小猫看到禁止标志时的失落夸张化表现,母猫在任务中紧张奔跑时的敏捷姿势。

    细节层次:每个场景可以加一些细节物品来丰富画面,比如厨房中可以增加蔬果、爆米花袋等,增强生活气息和真实感。

    为了保持角色统一性:角色的主要特征要描述准确并且固定。要让角色更加贴近人的姿态,除了一些身体特征,更加像人。这就是拟人化姿态。所以在你描述角色的时候,可以使用,它是一个类似人类的XXX,很像人类XXX来描述。

    现在描述词优化一下看看,给到中文,我们先来基于之前给你的图片描述场景或者我给你描述词:

    有时候它会不太理解什么是拟人化,会画成一个猫站立,类似这样,

    YouTube Shorts AI项目之X的故事拆解教程

    我们可以在对话的时候告诉她是怎么样的,然后在调整回来,可以告诉她,她不像动物一样站立,而是像人类一样站立,任何动作都是像人类一样,那在接下来的对话当中,GPT的对你要求提高理解。

    之后我们以此类推: 把描述词都挨个跑一遍,反复抽卡找合适的图片:

    但一定要注意她描述的词语,和绘画是否对得上,你看这幅,明显猫妈妈变成卖爆米花的了,那我们可以告诉GPT两人都站旁边,或者就没有妈妈,只有小猫在羡慕的看着。 我在交流的时候,会用非常粗糙的方式去和GPT交流,为的是不使用一些复杂语料也能让新人明白,只要你描述清楚,哪怕你描述不清楚,现在的GPT能力也能够理解!

    那你可能会问,怎么会这样呢? 还要在调试,其实这种概率事件不大,它的主要问题就是你的描述不够精准, 你吧妈妈画的感觉他在卖爆米花一样, 你改一下 或者不要妈妈。 这句话 可以改成: 你吧妈妈画的感觉他在卖爆米花一样, 你改一下 或者不要妈妈,如果不要妈妈的时候,也别忘记之前固定的角色形象。

    我们按照之前的描述词挨个优化并且作画,我们就会得到一组,符合我们完整叙事的图片,这个时候,我们的图片创作,基本上已经完毕,接下来就是剪辑合成,亦或者图转视频的问题。

    创作图片步骤中一些心得:

    逆练九阴真经讲的是,用原始的方法来出图,只需要按照步骤 反复抽卡都会得到自己想要的图片,然而,他牺牲了速度,但增加了精准度,以及降低了很大的门槛。

    1. 目前来说只有chatgpt(dall-e-3模型)最适合这种类型的图片创作,MJ以及其他平台都不行。
    2. 如果想在增加点速度,可以描述词保存好,然后直接开始画不让GPT再次写优化描述,或者写完优化描述直接作画,这样减少一次对话的浪费。
    3. 不要追求一步到位,不管使用什么样的提示词,不管如何优化,你想创作出心里满意的作品,是永远无法一步到位,抽卡时代忍忍。我写文案可以写满分,耗时一天,而AI可以完成70分,但是耗时1分钟,那我反复出70分的作品,反复迭代,这种迭代的速度,可以在一天内创作出更多超过满分的效能,所以不要纠结精确度。

    第三步:图转视频(可选)(合成以及剪辑不讲没必要)

    为什么选择图转视频,这也是迫于无奈,这个赛道很拥挤,那图转视频就带来了新的生命,这里就简单的说一下,图转视频没有什么难度,丢进去图片+提示词,等待抽卡合适的即可。

    推荐平台: 可灵、Luma、海螺、其他差很多。

    这里就要考虑成本问题,想做图转视频,想批量,成本和价格就要计算到位,目前海螺可以撸,可以首选用海螺,如果质感差,就使用可灵,但我觉得最好的还是runway,性价比也极高,看各自选择。

    目前开放api的,可灵,luma,但是很贵,但可灵的web端的价格还好,可以尝试把web端的接口对接一下然后跑,也可以用rpa自动扔图,出视频保存。

    如何使用就不讲了,傻瓜式操作。收费的东西要是还很难,收费也没必要了。

    成本优化:

    工作流的不同,找到的源头渠道不同,成本的压制也不同,所以,个人建议,算好自身条件以及成本,即可批量操作。根据这个赛道的价值,一条视频超过5块的成本,就是在白做工了。

    比如:

    可灵首付的价格,不使用高性能,一次图生视频在2毛左右,一个视频大概在10-20张左右,一轮下来就最高要花4块,更别提中间还有抽卡。

    当然,能撸的时候除外,比如海螺,只不过我们做的事情,不是今天做了明天就得到钱的事情,它是需要你短期半个月,长期三个月的一个周期发展,你在做的是频道,你怎么能保证能够一直撸?

    所以我还是很提倡使用商用产品,就跟我和自己团队小伙伴们讲的一样,有些产品我们无法做出来,所以我们就欢迎它能够真正商用,越是付费的产品,越能拿到相应的服务以及效率。只要算好投入产出比,能够持续下去滚雪球就好。

    第四步:音效以及背景音乐 (加餐方向) 那这些miaomiao的背景音乐从哪里找? 这个博主的音频 https://www.youtube.com/watch?v=DeUnnquIX1M

    https://www.youtube.com/@BongoCat

    这类关键词叫 miaomiaou or miaomiao song or miaomiao music

    那音效哪里来,其实这类音效搜索起来很麻烦,我一般都是直接使用AI生成音频,推荐几个网站: https://www.optimizerai.xyz/

    https://stableaudio.com

    免费的额度足够生成这些你想要的音效, 你可以在线翻译,生气的小猫叫声,可怜的小猫叫声,等等,因为这些音频在你后面剪辑的时候,是可以反复利用的。

    这些使用方法就不讲解了,眼看眼会。

    如果电脑性能不错,也会调用代码,可以使用这个来生成音效。

    https://github.com/Stability-AI/stable-audio-tools

    stable-audio-tools的模型确实不错,还商用了2.0的新模型,上面分享的第二个就是他们家商用的,免费额度足够使用。

    总结

    X的故事展现多种多样,而底层逻辑从来都没有变过,猫的故事也可以是兔子的故事,也可以是其他萌宠的故事。 关键在于这个故事,而不是随便推图,不同的X的故事,画风也不同,猫的故事,重点就是按照皮克斯的画风来跑,这是观众能够接受的画风,你就可以理解为,云熙的这个配音,(这个男人叫小帅)大部分都听到过,更加容易入戏。

    发布者:炼金术士,转载请注明出处:https://ailjs.com/4235.html

    (0)
    炼金术士的头像炼金术士
    上一篇 2024年11月11日 下午9:07
    下一篇 2024年11月14日 下午3:13

    相关推荐

    发表回复

    您的邮箱地址不会被公开。 必填项已用 * 标注