跳到主要内容

录屏教学

录屏教学是 Agivar 最有特色的能力:你把一套操作演示一遍,AI 就能把它学会、记下来、以后照着做。

一图胜千言,一段演示胜千张图。与其费劲用文字描述"先点哪、再点哪",不如录一段屏——鼠标怎么动、键盘敲了什么、屏幕怎么变,全都被精确捕获,AI 不用猜。

它解决了什么问题

教 GUI 操作流程,用文字描述常常会卡在两个地方:

  1. 写不准——"点那个提交按钮",哪个?什么颜色?在哪个区域?文字很容易留歧义。
  2. 写不全——演示者觉得"理所当然"的小步骤(先点一下输入框激活它、滚动到页面底部……)经常被漏掉。

录屏把这两个问题一并解决:

  • 精确的动作序列——录制时同步捕获鼠标点击/拖拽/滚动、键盘输入、热键,连带时间轴,一个都不漏。
  • 配套的画面——录制结束后系统自动抽取关键帧:每个会让画面发生变化的操作(点击、双击、拖拽、按 Enter 提交……)前的那一帧都会被留下,再加上安静时段的定时取样。AI 既能"看见"操作前的界面长什么样,也能对照"操作后变成了什么"。
  • 你的口头讲解——录制过程中按 Alt+I 随时插一句文字说明(见下文),这些讲解会按时间轴并入录屏。
  • 沉淀成可复用知识——录屏会被处理成一份结构化的"操作描述"(概述 / 初始状态 / 分步操作 / 阶段性成果),直接进记忆库;条目里还会写明"相关示教视频"的 ID 和关键片段,任务模式日后可以就录屏里的细节追问。

完整流程

第 1 步:开始录屏

  1. 新建一个对话并开启教学模式(在 + 旁的菜单里勾选「教学」)。
  2. 点输入栏的 +录屏
  3. 屏幕上会出现一个浮动录制控制条——半透明、可拖动、始终置顶,上面有计时、「停止」和「✕ 取消」。
控制条不会被录进去

这个控制条用了 Windows 的"从屏幕捕获中排除"特性——录制到的画面里是它背后的内容,所以它不会出现在最终的录屏里,你不用担心挡住东西或被一起录下来。

📷 截图位置

此处放一张「浮动录制控制条」的截图(static/img/recorder-bar.png)。

第 2 步:演示操作(录制中按 Alt+I 讲解)

正常去做你要演示的操作就行。建议:

  • 动作放慢一点,每步之间留个小停顿,让关键帧能稳稳抓到操作前的画面。
  • 一次只演示一个完整的流程——从一个明确的起点(比如"浏览器已打开")到一个明确的终点("已成功投币"),不要把好几件不相干的事录在一起。

想给某一步加文字说明时,按 Alt+I,屏幕底部中间会弹出一个小小的讲解输入框

  • 输入你的说明,比如"这里要等页面完全加载出来再点,否则按钮没反应"。
  • Enter 发送,Shift+Enter 换行,Esc 取消。
  • 这条讲解会按它发生的时间点并入录屏的操作时间轴。
  • 弹讲解框期间你在框里的输入不会被当成操作录进去(连触发用的 Alt+I 按键、以及之后松开 Alt 这种动作都会被过滤掉)。

什么时候值得按 Alt+I?——凡是"光看画面看不出来"的信息:为什么要等一下、为什么选这个而不是那个、这一步的目的是什么、有什么坑。

📷 截图位置

此处放一张「Alt+I 讲解输入框」的截图(static/img/explain-dialog.png)。

第 3 步:停止录制

点控制条上的「停止」。(点「✕ 取消」则丢弃这次录制,什么都不保留。)

停止后,系统会把刚录的内容整理好,并开始后台处理——这一步要联网,耗时取决于录屏长度,通常几十秒到几分钟。处理期间:

  • 你可以继续在输入栏打字、再加别的附件
  • 发送按钮会暂时禁用,等处理完成才能把这条消息(带录屏)发出去;
  • 录屏附件上会显示已用时间 / 预计剩余时间。
📷 截图位置

此处放一张「录屏处理中的附件卡片」的截图(static/img/recording-processing.png)。

第 4 步:预览回放(可选)

处理完后(或处理前)可以打开录屏预览对话框,把刚录的内容播放一遍,确认演示完整:

  • ▶ 播放 / ⏸ 暂停 / ⟲ 重播
  • 觉得录得不好,删掉附件重录就行。
📷 截图位置

此处放一张「录屏预览对话框」的截图(static/img/recording-preview.png)。

第 5 步:发送,交给教学 Agent

处理完成、发送按钮恢复后,把这条消息发出去(可以同时打几句文字补充注意事项)。教学 Agent 收到后:

  • 会先看到这段录屏的简介结构化操作描述——不用再额外查询就知道整个流程;
  • 如果还需要录屏里的更多细节,它可以就录屏内容做针对性提问(内部用一个专门的"视频问答"能力,比如"第几帧那个弹窗上写的是什么");
  • 信息不全或有歧义时,它会反问你确认。

第 6 步:沉淀成记忆条目

教学 Agent 会把这套流程整理进记忆库(按 平台/主题 归档),条目大致长这样:

# 概述
这个操作演示了用户打开 B 站"非十科技"的视频,并给该视频投两个币的过程。

# 初始状态
浏览器已打开。

# 操作步骤

## 第一步:新建标签页并导航至 B 站
1. 点击浏览器标签栏右侧的"+"按钮,打开新标签页。
2. 点击浏览器顶部地址栏,激活输入状态。
3. 在地址栏中输入 bilibili.com。
4. 按 Enter 键跳转。
阶段性成果:成功进入 bilibili.com 首页,页面显示推荐视频列表和顶部搜索栏。

## 第二步:……
……
阶段性成果:……

# 相关示教视频
视频 ID:00046;视频简介:……;关键片段:……

注意几个细节:

  • 步骤被拆成多个抽象步骤,每个抽象步骤下面是具体操作,结尾都有一句"阶段性成果"——任务模式照着做时可以靠它判断当前阶段算不算完成。
  • 界面定位写得消歧义——"点击弹窗右下角的蓝色『确认』按钮""点击搜索框右侧的放大镜图标",而不是只说"点确认"。
  • 条目末尾记着示教视频的 ID,任务模式以后执行相关任务时,可以直接调出这段录屏问细节。

录屏处理时到底发生了什么

供你了解,"后台处理"大致分四步(你不需要做任何操作):

  1. 上传关键帧——从录屏里挑出的关键帧上传到云端。
  2. 逐帧标注——AI 看着这些关键帧,结合鼠标/键盘动作时间轴,生成一份带画面引用的详细描述。
  3. 生成简介——把详细描述浓缩成一段简短的视频简介。
  4. 生成操作描述——按"概述 / 初始状态 / 分步操作 / 阶段性成果"的结构,产出那份能直接放进记忆条目的"操作描述"。

录屏的原始帧和鼠标键盘事件留在本地 ~/.agivar/ 下;处理结果(关键帧、简介、操作描述)保存在云端,和你的账号绑定。

同步录入麦克风(可选)

在「设置 → 高级 → 录屏时同步录入麦克风」打开后,录屏会一并录下你的语音讲解。录制中悬浮条上会多出一个小麦克风电平条——格子点亮表示当前正在录到声音,最右两格变红提示音量偏大可能爆音。停止录制后,后端会把这段音频转写成文字,按时间轴穿插进录制描述里——AI 在生成"操作描述"时会优先复用你说出来的术语和分段方式("先点这个按钮"、"接下来..."),所以你只要照常讲解,无需再额外按 Alt+I

第一次启用时,macOS 会弹一次系统麦克风权限弹窗,点允许即可;以后录制会自动直接开始。如果某次系统没拿到麦克风权限或者麦克风设备不可用,录制照常进行,只是这次没有解说音频。取消录制(点 ✕)会把这次的音频和画面一起丢弃。

录屏教学的最佳实践

  • 一次一个流程,起点终点明确。
  • 动作放慢,每步之间留停顿。
  • 关键处按 Alt+I 解释"为什么"——这是录屏给不出、只有你能给的信息。如果开了麦克风录入,直接说出来也行。
  • 演示前把环境准备好(该登录的先登录、该打开的先打开),并在"初始状态"里说清楚。
  • ✅ 录完预览一遍再发送。
  • ⚠️ 别把验证码、密码这类敏感画面录进去——确实需要这一步时,录到那里停一下,用 Alt+I 说明"此处由用户登录",跳过实际输入。
  • ⚠️ 多显示器时录的是主显示器;把演示放在主屏上做。

下一步