imo audio is the human-preferred input to AIs but vision (images/animations/video) is the preferred output from them. Around a ~third of our brains are a massively parallel processor dedicated to vision, it is the 10-lane superhighway of information into brain.

技术趋势翻译官:给产品经理的简报
2026/05/15 01:04:43@YJ40z1Zb27g
Karpathy:LLM 输出从纯文本进化到 HTML,下一站是神经视频
Karpathy 的一条 270 万浏览推文揭示:LLM 输出正从 Markdown 向 HTML 演进,最终目标是扩散网络直接生成交互式视频。这对国内 PM 意味着三个立即可行动的产品信号。

一条推文,270 万次浏览
2026 年 5 月 11 日,Andrej Karpathy(前 Tesla AI 总监、OpenAI 创始团队成员)发出一条推文,获得 270 万次浏览、1.7 万个点赞1。
他的核心论断是:LLM 的输出格式正在经历一场静悄悄的进化。
进化路径他给出了四步:
- 纯文本(最早期默认)
- Markdown(当前主流默认)
- HTML(正在成为新默认)
- 由扩散神经网络直接生成的交互式视频/模拟(技术尚不存在,但方向清晰)
他同时给出了一个可以现在就试的技巧:在任意问题末尾加上「structure your response as HTML」(让 LLM 把回答组织为 HTML 格式),把生成文件保存为
.html 用浏览器打开——排版密度和交互性比 Markdown 明显上一个台阶1。コンテンツカードを読み込んでいます…
一周前,Andrew Ng(Coursera 联合创始人、前百度 AI)也宣布与 CopilotKit 合作推出 Agentic UI 新课,专门教「让 Agent 输出可交互界面而不只是纯文本」2。两条信号在同一时间窗口出现,指向同一个方向。
HTML 比 Markdown「胜」在哪
Karpathy 给出了生物学层面的解释:
「人类大脑约三分之一是专用于视觉的大规模并行处理器,那是进入大脑的十车道高速公路。」1
Markdown 能做的是:加粗、列表、一级链接。HTML 能做的是:折叠展开(
<details>)、内联图表、可填写的表单、动态样式、条件显示。对于需要传递「层级关系」「交互决策树」「多维对比表格」的 AI 回复内容,这不是锦上添花,而是信息架构本身的区别。评论区里有工程师已经在探索用
<details> 标签包裹 AI 的推理步骤,做成可展开、可回放的审计日志——这是 Markdown 无法实现的能力1。更宏观的视角来自 Rohan Mitra(PhonePe/Walmart 产品负责人)在 AI Agents Conference 2026 的演讲:AI Agent 已成为 Web 流量的组成部分,对 Agent 来说,结构化可读的输出格式就是「界面」——为 Agent 设计了 GUI 而不是 API 的产品,本质上是给 Agent 设置了障碍3。HTML 输出是当前「让 AI 系统之间协作」的最低门槛之一。
对产品经理意味着什么
输出层是被忽略的设计面。当前大多数 AI 产品的对话框,默认对 Markdown 做渲染,对 HTML 做转义或直接屏蔽。这意味着即使 LLM 生成了带交互的 HTML,产品层也把它变回了纯文本。Notion Custom Agents 发布后(2026 年 2 月),早期用户创建了 2.1 万个 Agent,Agent 已经能够写数据库、发 Slack 消息、更新日历4——但这些 Agent 的输出展示仍然是文字回复。输出层的重新设计,是下一个缺口。
「Agent 输出 → 可操作 UI」已有产品先例。Andrew Ng 的 Agentic UI 课拆出三种路径:从预制组件库选、用基础构件自己组、把输出嵌入第三方应用(白板/日历/地图)2。Klarna 与 Shopify 的 Agentic Checkout 集成是已落地的案例——Agent 发起交易,完成率接近人类水平,耗时更短3。这些案例的核心逻辑是一致的:把 Agent 的输出从「一段话」变成「一组可执行的操作界面」。
现在可以做的最小实验:在自己产品的 AI 助手中,允许 LLM 输出一段 HTML 片段(而不是被沙箱阻断),在安全隔离的渲染容器里展示,测量用户的点击行为是否和纯文本回复有差异。这不需要重构整个对话框,只需要一个受控的 A/B 实验窗口。

边界:HTML 不是万能的,神经视频还不存在
Karpathy 本人的措辞是:
「我推断的终点(虽然技术还不存在)是由扩散神经网络直接生成的某种交互式视频。」1
「技术还不存在」这句话很重要。HTML 是当下可行的中间站,不是终点。在投入之前,有两件事值得确认:
第一,HTML 注入是真实风险。LLM 生成的 HTML 必须在沙箱环境渲染,不能直接注入主 DOM。Anthropic 在其 Agent 可信框架中明确要求模型输出 + 执行器层 + 工具层 + 环境层四层各自做防护5——对话输出层同样需要这一思路。
第二,并非所有内容都适合 HTML 化。法律条文、会议纪要、简短问答,强制套 HTML 只会增加解析噪音。「在哪些场景开」和「开到什么程度」是产品判断,不是技术决定。
封面图:图片来自 Pexels - Bibek Ghosh
このコンテンツについて、さらに観点や背景を補足しましょう。