用网页做视频:一个 AI Agent Skill 如何重新定义内容生产流程

最近接触了一个很有意思的 Claude Skill,叫 Web Video Presentation。它的理念很简单:把一篇文章或口播稿,一步步做成可录屏的”伪装成视频的网页”,还能自动合成口播音频。
听起来像是一个”网页模板”?不是。它是一个完整的内容生产方法论——从文稿到成片的完整工作流,而且产出物是一个可以部署、可以交互、可以无限修改的网页项目。
这篇文章带你理解这个 Skill 的设计思路,以及它为什么值得创作者关注。
传统做视频,痛点在哪?
先想想我们平时”把文章做成视频”的路径:
| 路径 | 工具 | 痛点 |
|---|---|---|
| PPT → 录屏 | Keynote / PowerPoint | 动画僵硬,模板感重,改一帧重录 |
| 剪辑工具 | Premiere / 剪映 | 逐帧对齐音频和画面,修改成本极高 |
| AI 视频生成 | 各种”图文转视频”工具 | 画面不可控,风格千篇一律,有”AI 味” |
| 真人出镜 | 相机 + 剪辑 | 成本高、周期长、对出镜者要求高 |
核心矛盾是:视频一旦”定稿”,修改成本极高。 改一句文案,可能要重新配音、重新对画面、重新导出。这让很多人在做视频时陷入”要么不做,做了就不能改”的两难。
Web Video Presentation 的解法很独特:不做视频,做一个”看起来像视频的网页”。
核心思路:网页即视频源文件
这个 Skill 的产出物是一个 Vite + React + TypeScript 项目,运行在浏览器里,16:9 横屏,每次点击推进一”步”,每步独占一整屏。
为什么要用网页?
- 动画自由:不是 PPT 的预设动画,而是 CSS / SVG / Canvas 级别的自由——数字可以逐位跳动,图表可以实时绘制,卡片可以 3D 翻转
- 音频天然同步:每步对应一段独立 MP3,
?auto=1模式下浏览器自动按顺序播放音频并推进画面,录屏时不需要后期对音轨 - 修改即刷新:改文案 → 重跑 TTS → 刷新浏览器,增量合成,不需要从头录
- 可部署:这个网页本身可以发布到 Vercel / Netlify,既是视频源也是可交互演示页
简单说:你做的不是”一个视频文件”,而是”一个能播放视频的网页”。视频只是这个网页的一种消费方式(录屏),网页本身还可以独立存在。
四阶段工作流
这个 Skill 定义了一套非常清晰的工作流程:

有两个硬节点(Checkpoint)必须停下来等用户确认。这个设计很务实——做视频最大的成本不是技术,而是”方向跑偏”。第 1 章做出来让用户看,不对就改,代价最小。
关键设计:narrations.ts 是唯一真相源
一个视频项目里,”步数”出现在至少 5 个地方:口播稿、开发计划、React 组件代码、章节注册、音频文件。最容易出的 bug 就是”多加了一步但忘改音频”。
这个 Skill 的解法是:**narrations.ts 是唯一的真相源。**
1 | // src/chapters/01-intro/narrations.ts |
- Step 数 =
narrations.length - Extract 脚本从它生成
audio-segments.json - TTS 按它合成
public/audio/<id>/<N>.mp3 - React 组件里的
if (step === N)最大 N + 1 必须等于数组长度
5 处信息从 1 个源头派生,彻底消除”不同步”的问题。
22 套策展主题,不是”随机配色”
内置了 22 套主题,每一套都不是”随便挑了几个颜色”,而是有完整的设计策展:
| 主题 | 气质 | 签名元素 | 适合内容 |
|---|---|---|---|
包豪斯 bauhaus-bold |
净白底 + 主色蓝,几何黑体 | 大色块 + 粗边框 | 产品发布、观点宣言 |
蓝图 blueprint |
深藏青 + 青色 + IBM Plex Mono | 工程图纸网格 | 技术架构、系统拆解 |
沙丘 dune |
沙色底 + 炭褐字,几乎无 accent | 极度克制的留白 | 建筑、画廊、高端品牌 |
瑞士克莱因蓝 swiss-ikb |
净暖白 + 极细 200w 字体 + IKB 蓝 | 1px 发丝网格 | AI 发布、数据汇报、严肃学术 |
霓虹赛博 neon-cyber |
深海军底 + 电光青 + 玫红霓虹 | 发光网格 + 双色描边 | AI 评测、web3、科幻 |
牛皮纸 kraft-paper |
牛皮米底 + 深棕字 | 手作年代感 | 书评、历史、独立杂志 |
每套主题都有 mood(情绪标签)、bestFor(适用场景)、preview(四色色板),选主题时一眼就能判断气质是否匹配。
反 AI 味:一套有自觉的设计
AI 生成的前端页面有极强的视觉指纹:紫粉渐变、圆角彩色边框卡片、假插画、emoji 堆砌、无意义微动效。这个 Skill 专门有一份 CHAPTER-CRAFT.md 讲”反 AI 味反模式”,每次实现单章都要走完工自检。
几条让我印象深刻的规则:
- 内容驱动动画:先找内容的”内在动作”(数字增长、对比反差),找不到才用
fadeIn兜底 - 1 项 = 1 step:清单必须逐个揭示,禁 stagger 同时上 N 项
- 双源原则:口播稿定顺序,原文章定画面密度——口播没念但原文有的细节,要落到视觉上
- 章节自由发挥:主题 token 兜底颜色/字体统一,但动画/节奏/视觉演示各章自由——这是”人手写视频的呼吸感”,不是 bug
谁适合用?
| 场景 | 为什么适合 |
|---|---|
| 技术博主做教程 | 代码高亮、终端录屏、图表动画,网页天然擅长 |
| 产品发布 / Keynote | 22 套主题覆盖从 B2B 企业到赛博朋克 |
| 知识科普 | 口播驱动,每步一个聚焦点,信息密度可控 |
| 数据汇报 | 数字动画、图表绘制,比 PPT 生动 |
| 品牌故事 | 暗色主题 + 柔光晕染,像杂志封面 |
不适合的场景也有:需要真人出镜的 vlog、依赖实拍画面的内容、对实时交互要求高的直播。
写在最后
这个 Skill 最打动我的不是技术细节,而是它的设计自觉。
它没有说”我给你一个模板,你填内容就行”——它知道模板会杀死创造力。相反,它提供了一套语法(口播驱动、点击推进、逐屏独占)和一套流程(四阶段 + 硬节点 + 自检协议),然后让每次实现都针对具体内容重新设计。
22 套主题是策展的,不是生成的。动画是内容驱动的,不是预设的。风格是自由的,不是统一的。
用网页做视频,本质上是用前端技术重新定义了”视频”的生产方式。 视频不再是”一锤子买卖”的导出文件,而是一个可以持续迭代、可以交互、可以部署的活的网页项目。
如果你也厌倦了 PPT 的僵硬和剪辑工具的繁琐,这个思路值得一试。
参考
- GitHub: ConardLi/garden-skills — Skill 源码仓库,作者 ConardLi
- 在线主题画廊 — 23 套内置主题的 16:9 实时预览
- Claude Code 内置调用:
/presentation-skills:web-video-presentation - 本文基于 Skill 的 SKILL.md、references/CHAPTER-CRAFT.md 等文档整理