录屏教学

录屏教学是 Agivar 最有特色的能力：你把一套操作演示一遍，AI 就能把它学会、记下来、以后照着做。

一图胜千言，一段演示胜千张图。与其费劲用文字描述"先点哪、再点哪"，不如录一段屏——鼠标怎么动、键盘敲了什么、屏幕怎么变，全都被精确捕获，AI 不用猜。

它解决了什么问题

教 GUI 操作流程，用文字描述常常会卡在两个地方：

写不准——"点那个提交按钮"，哪个？什么颜色？在哪个区域？文字很容易留歧义。
写不全——演示者觉得"理所当然"的小步骤（先点一下输入框激活它、滚动到页面底部……）经常被漏掉。

录屏把这两个问题一并解决：

精确的动作序列——录制时同步捕获鼠标点击/拖拽/滚动、键盘输入、热键，连带时间轴，一个都不漏。
配套的画面——录制结束后系统自动抽取关键帧：每个会让画面发生变化的操作（点击、双击、拖拽、按 Enter 提交……）前的那一帧都会被留下，再加上安静时段的定时取样。AI 既能"看见"操作前的界面长什么样，也能对照"操作后变成了什么"。
你的补充讲解——录制过程中可以添加文字注释（Windows：Alt+I；macOS：Cmd+Shift+I），也可以点绿色声波按钮录入语音注释；这些讲解会按时间轴并入录屏。
沉淀成可复用知识——录屏会被处理成一份结构化的"操作描述"（概述 / 初始状态 / 分步操作 / 阶段性成果），直接进记忆库；条目里还会写明"相关示教视频"的 ID 和关键片段，任务模式日后可以就录屏里的细节追问。

完整流程

第 1 步：开始录屏

新建一个对话并开启教学模式。
点输入栏「录屏」→「开始录屏」（或在「选择历史录屏」里点「开始录制」）。
屏幕上会出现一个浮动录制控制条——半透明、可拖动、始终置顶，上面有计时、语音注释、文字注释、历史、暂停 / 继续和「结束」。

控制条不会被录进去

默认情况下，控制条和注释框会从录屏画面里排除，录到的是它背后的内容，所以你不用担心它们挡住东西或被一起录下来。只有打开「主播模式」时，浮窗才会被录进去。

第 2 步：演示操作（用文字或语音讲解）

正常去做你要演示的操作就行。建议：

动作放慢一点，每步之间留个小停顿，让关键帧能稳稳抓到操作前的画面。
一次只演示一个完整的流程——从一个明确的起点（比如"浏览器已打开"）到一个明确的终点（"已成功投币"），不要把好几件不相干的事录在一起。

想给某一步加文字说明时，点控制条上的「注释」，或使用快捷键（Windows：Alt+I；macOS：Cmd+Shift+I），浮窗旁会展开一个注释输入区：

输入你的说明，比如"这里要等页面完全加载出来再点，否则按钮没反应"。
Enter 发送，Shift+Enter 换行，Esc 取消。
这条注释会按它发生的时间点并入录屏的操作时间轴。
输入注释期间你在框里的输入不会被当成操作录进去（连触发用的注释快捷键，以及之后松开修饰键的动作都会被过滤掉）。

如果想边演示边说话，点控制条上的绿色声波按钮，或使用快捷键（Windows：Alt+D；macOS：Cmd+Shift+D）开始语音注释；再点一次或再次使用同一个快捷键停止。Agivar 会把你的语音转成带时间点的文字注释，识别到内容后自动显示在注释历史里。

什么时候值得加注释？——凡是"光看画面看不出来"的信息：为什么要等一下、为什么选这个而不是那个、这一步的目的是什么、有什么坑。

第 3 步：结束录制

点控制条上的「结束」。如果中途要停一下，先点「暂停」，准备好后再点「继续」；暂停期间不会继续抓画面和操作，也不计入录屏时长。

停止后，系统会把刚录的内容整理好，并开始后台处理——这一步要联网，耗时取决于录屏长度，通常几十秒到几分钟。处理期间：

你可以继续在输入栏打字、再加别的附件；
但发送按钮会暂时禁用，等处理完成才能把这条消息（带录屏）发出去；
录屏附件上会显示已用时间 / 预计剩余时间。
如果这段不想随当前消息发送，可以点附件卡片上的 X 移除；录屏仍可在「选择历史录屏」里找到，确定不要时再从历史中删除。

第 4 步：预览回放（可选）

处理完后（或处理前）可以打开录屏预览对话框，把刚录的内容播放一遍，确认演示完整：

▶ 播放 / ⏸ 暂停 / ⟲ 重播。
觉得录得不好，删掉附件重录就行。

第 5 步：发送，交给教学 Agent

处理完成、发送按钮恢复后，把这条消息发出去（可以同时打几句文字补充注意事项）。教学 Agent 收到后：

会先看到这段录屏的简介和结构化操作描述——不用再额外查询就知道整个流程；
如果还需要录屏里的更多细节，它可以就录屏内容做针对性提问（内部用一个专门的"视频问答"能力，比如"第几帧那个弹窗上写的是什么"）；
信息不全或有歧义时，它会反问你确认。

第 6 步：沉淀成记忆条目

教学 Agent 会把这套流程整理进记忆库（按 平台/主题 归档），条目大致长这样：

# 概述
这个操作演示了用户打开 B 站"非十科技"的视频，并给该视频投两个币的过程。

# 初始状态
浏览器已打开。

# 操作步骤

## 第一步：新建标签页并导航至 B 站
1. 点击浏览器标签栏右侧的"+"按钮，打开新标签页。
2. 点击浏览器顶部地址栏，激活输入状态。
3. 在地址栏中输入 bilibili.com。
4. 按 Enter 键跳转。
阶段性成果：成功进入 bilibili.com 首页，页面显示推荐视频列表和顶部搜索栏。

## 第二步：……
……
阶段性成果：……

# 相关示教视频
视频 ID：00046；视频简介：……；关键片段：……

注意几个细节：

步骤被拆成多个抽象步骤，每个抽象步骤下面是具体操作，结尾都有一句"阶段性成果"——任务模式照着做时可以靠它判断当前阶段算不算完成。
界面定位写得消歧义——"点击弹窗右下角的蓝色『确认』按钮""点击搜索框右侧的放大镜图标"，而不是只说"点确认"。
条目末尾记着示教视频的 ID，任务模式以后执行相关任务时，可以直接调出这段录屏问细节。

录屏处理时到底发生了什么

供你了解，"后台处理"大致分四步（你不需要做任何操作）：

上传关键帧——从录屏里挑出的关键帧上传到云端。
逐帧标注——AI 看着这些关键帧，结合鼠标/键盘动作时间轴，生成一份带画面引用的详细描述。
生成简介——把详细描述浓缩成一段简短的视频简介。
生成操作描述——按"概述 / 初始状态 / 分步操作 / 阶段性成果"的结构，产出那份能直接放进记忆条目的"操作描述"。

录屏的原始帧和鼠标键盘事件留在本地 ~/.agivar/ 下；处理结果（关键帧、简介、操作描述）保存在云端，和你的账号绑定。

语音注释（可选）

控制条里的绿色声波按钮用于语音注释。开启后你可以照常讲解，Agivar 会实时转写，并把识别出的内容按时间点放进注释历史。AI 在生成"操作描述"时会优先复用你说出来的术语和分段方式（"先点这个按钮"、"接下来..."），所以长流程里不用每一步都打字。

第一次使用时系统可能会弹麦克风权限，允许后即可使用。如果某次没有麦克风权限或设备不可用，录屏照常进行，只是这次没有语音注释。

录屏教学的最佳实践

✅ 一次一个流程，起点终点明确。
✅ 动作放慢，每步之间留停顿。
✅ 关键处用文字或语音注释解释"为什么"——这是录屏给不出、只有你能给的信息。
✅ 演示前把环境准备好（该登录的先登录、该打开的先打开），并在"初始状态"里说清楚。
✅ 录完预览一遍再发送。
⚠️ 别把验证码、密码这类敏感画面录进去——确实需要这一步时，录到那里停一下，用文字注释说明"此处由用户登录"，跳过实际输入。
⚠️ 多显示器时录的是主显示器；把演示放在主屏上做。

下一步

记忆库管理 —— 看看录屏学到的东西最终存成了什么
录屏与录音教程 —— 浮窗和录音功能逐项说明
任务模式 —— 这些经验如何在执行任务时被复用
常见问题

它解决了什么问题​

完整流程​

第 1 步：开始录屏​

第 2 步：演示操作（用文字或语音讲解）​

第 3 步：结束录制​

第 4 步：预览回放（可选）​

第 5 步：发送，交给教学 Agent​

第 6 步：沉淀成记忆条目​

录屏处理时到底发生了什么​

语音注释（可选）​

录屏教学的最佳实践​

下一步​