Data valuation · Footnote
制作者数据值多少:一次反复挤泡沫的估值练习
为《制作者数据主权宣言》补一份注脚——从 ¥1 亿到 ¥30 万到 ¥1000 万,同一份数据,四次推导,四个答案。
May 20, 2026 · ~16 min read
为《制作者数据主权宣言》补一份注脚 —— 从 ¥1亿 到 ¥30万 到 ¥1000万,同一份数据,四次推导,四个答案。
引子
上个月我们发了《制作者数据主权宣言》,声明 esphome.cloud 构建管线流过的 ground-truth 三元组在协议层、劳动层、硬件层都归 maker 所有。
那份文档的核心论证是定性的:这是你的资产,不要被默认让渡。但写完之后,留下了一个具体的、无法回避的问题:
如果这些数据真的是资产,它到底值多少?
我们做了四次推导。每次推导后,都有人(或我们自己)反过来戳破其中的泡沫。这篇文章把这四轮推导完整记录下来——不是因为最终数字可靠,而是因为推导本身比结论更值得保存。
数据市场和域名市场一样:看起来有价格,但价格的形成机制充满不确定性。下面这趟挤泡沫的旅程,是任何认真考虑"我的数据值多少"的 maker 都该走一遍的。
一、为什么从前线边缘 AI 说起
要给制作者数据估值,必须先回答:谁会买?为什么买?
答案在前一篇《全光谱成本经济学分析:低成本地面 FPV 蜂群 vs 传统 CQB 武器系统》里已经埋下伏笔。当 ¥200 级地面 FPV 小车的杠杆比可以打到攻方 ¥1 对应防方 ¥25–500 的时候,战场的瓶颈从"火力密度"让渡为"信息处理速率与决策带宽"。
打破这个瓶颈的,是前线边缘 AI 一体机——8–16 卡国产推理加速器、加固方舱封装、整机成本 ¥80–500 万的一体机。它不是辅助决策,而是同时承担:
- 辅助制造:自动生成 BOM、布线图、固件参数,把一线"修械所"从 5–20 名工程师压到 2–3 名技工 + 1 台一体机
- 终端制导:把目标特征向量推到 ¥30 级的轻量推理芯片上,失联后小车自主完成最后 500 米
- 蜂群协调:一名操作员监控 20 车,AI 完成 80% 操作,产能上限提升一个数量级
一台这样的一体机的成本 = 4,000–25,000 辆 FPV 小车,但能让它指挥的弹药包络扩大 1–2 个数量级。算力中枢成为整个攻防集团的核心。未来战场的争夺焦点,将从阵地让渡于电磁压制和摧毁前线部署的离线/半离线 AI 一体机——这是即将到来的"制神经权"竞赛。
而这种边缘 AI 没法用 GitHub 上的代码训出来。
GitHub 有 TB 级嵌入式代码,但没有"这段代码在板子上跑得对"的物理验证。Common Crawl 进不了 UART,OpenAI 没有 IMU 串口日志,Tesla/Waymo 的数据被自用且只覆盖公路场景。
真正能训出这种边缘 AI 的数据,是 maker 这两年在车间里、机库里、摔机现场积累的"需求 → 代码 → 物理验证"三元组。这是宣言里的核心论点,也是估值推导的起点。
二、第一次推导:¥250–600 万(理论持有价值)
用四种方法交叉验证。
方法 1:成本下限。一条经过物理验证的高质量三元组需要 0.5–3 小时有效工时,按中国一线技术工种时薪 ¥80–200 计,叠加硬件折旧与摔机损耗,全成本 ¥80–800/条。
方法 2:市场可比。最贴近的对照是自动驾驶边缘案例数据:都是"代码/控制策略 + 真实传感器 + 物理验证 + 稀缺场景"。这个市场在 2022–2025 年的成熟价格区间是 ¥500–10,000/条。嵌入式三元组比自动驾驶边缘案例更稀缺(没有产业基金在系统性收集),单价只会更高。
方法 3:AI 收入反推。设想 2028–2032 年的边缘嵌入式 AI 市场:民用 + 军用合计 5 年内 ¥50–200 亿数据采购预算。如果全球年供给 2.5 亿条/5 年(初步假设),全局平均 ¥20–1,600/条。
方法 4:战略溢价。国防采购通常支付商业价格 3–10 倍。如果你的数据覆盖竞争对手所缺,否决付款 本身就有正价值。
合并成分级估值表:
| 层级 | 内容特征 | 单条估值(¥) |
|---|---|---|
| L0 公共/教学 | blink、heartbeat | 0–20 |
| L1 标准验证 | 常见外设、稳定固件 | 50–300 |
| L2 高质量验证 | 完整子系统、收敛参数 | 300–2,000 |
| L3 稀缺场景 | 飞控核心、商业敏感 | 2,000–15,000 |
| L4 战略级 | 抗 EW、特种载荷 | 15,000–150,000 |
按典型分布,单个 maker 累积 5,000 条三元组 ≈ ¥250–600 万。
这是第一份答案。乍看很大——比宣言里假设的 ¥15,000 lowball offer 高出 100 倍。
三、第二次推导:挤掉流动性泡沫 → ¥30–80 万
¥400 万是理论持有价值,不是可变现价值。两者之间的差距叫流动性折价。第一份估值至少藏了三层泡沫:
泡沫一:垄断定价幻觉。¥50,000/条战略级价格的前提是"买方愿意付且只有你能卖"。但单个 maker 的 50 条 L4 数据只占买方所需完整数据集的 1%,无法独立构成训练价值。捆绑过程本身就是议价权流失的过程。
泡沫二:时间贴现幻觉。"2030 年 L3 数据 ¥6,000/条"用了零贴现率。考虑模型架构变化、合成数据替代风险、买方策略未知——5 年期风险调整贴现率至少 25–40%/年。¥6,000 在 2030 年折回今天,砍 60–80%。
泡沫三:可变现性幻觉。没有公开比价、没有标准化合约、没有第三方托管,实际成交价是单次议价的下限,而不是市场中位数。非标资产流动性折价通常 4–7 折。
三层叠加:¥400万 × 50% × 30% × 50% ≈ ¥30 万。
但不流动也不是好结果。数据有自然衰减率(15–30%/年),合成数据/仿真技术在 2028–2030 年会逐渐成熟,捂得越久边际价值越低。这是数据版的 OPEC 困境:合作减产的收益,被替代技术的进步吃掉。
真实处境是要在"集体便宜卖"和"集体不卖"之间,找到有限流动 + 有限定价权的中间态。流动性形态的真实曲线如下:
| 流动性形态 | 单条 L2 有效价格(¥) | 单 maker 5000 条变现(¥) | 现实可达性 |
|---|---|---|---|
| 完全不流动 | 0 | 0 | 等于不存在 |
| 单笔议价(lowball) | 3 | 1.5万 | 现在的默认 |
| OEM 长约 | 30–100 | 15–50万 | 需要规模 |
| 行业联盟池 | 150–500 | 75–250万 | 需要组织 |
| 公开交易所 | 300–1,500 | 150–750万 | 需要平台+监管 |
| 主权基金/战略采购 | 1,500–10,000 | 750万–5000万 | 需要国家介入 |
每往下一档,流动性提升 5–10 倍,单价提升 3–10 倍,但协调成本指数上升。
第二份答案是 ¥30–80 万(现实可达流动性下的诚实估值)。这比第一份缩水 80%,但依然比 lowball 高 20–50 倍。
四、第三次推导:合格者门槛 → 重新分层
第二份估值还隐藏了一个更深的假设:所有 maker 都能产出 L2+ 数据。这是错的。
把一个 maker 从"会焊板子"筛到"能稳定产出训练级三元组",有六道筛子:技能门槛、硬件投入、领域深度、产出习惯、表达能力、持续性。每道筛子都过滤一个层级。
| 筛子 | L2 级通过率 | 依据 |
|---|---|---|
| 技能(独立完成子系统) | 20–35% | Stack Overflow 活跃专家比例反推 |
| 硬件(¥2,000–5,000 基础设备) | 40–60% | 职业开发者普遍可达 |
| 领域深度(有具体专长) | 50–70% | 职业开发者大多有专长 |
| 记录习惯(commit + 笔记) | 25–40% | GitHub 嵌入式仓库活跃度反推 |
| 表达能力 | 60–80% | 较低门槛 |
| 持续 2 年+ | 30–50% | 行业经验分布 |
从全球嵌入式开发者基数 约 300 万(IEEE/Eclipse Foundation 调研口径)推:
- L2 级合格者:1 万–5 万人(能产出常规验证级数据)
- L3 级合格者:200–1,500 人(在 L2 基础上 + 5 年子领域深度 + 数据归属自由)
- L4 级合格者:200–600 人(战略级前沿场景)
三层供给侧曲线:
| 档位 | 全球合格人数 | 单人年产(条) | 年产能 |
|---|---|---|---|
| L2 | 1万–5万 | 200–800 | 200万–4,000万 |
| L3 | 200–1,500 | 100–500 | 2万–75万 |
| L4 | 200–600 | 20–100 | 4,000–6万 |
关键发现:L2 级数据并不极度稀缺(年产能接近需求量),价格难以维持高位;L3 级才是真正的稀缺资源;L4 级几乎不通过公开市场流转,主要通过雇佣关系传递。
合格者识别的可行性说明:根据 esphome.cloud 构建管线能观测到的客观信号——commit pattern、错误率分布、构建复杂度梯度、模块组合多样性——设计一个 L2/L3 自动识别算法在技术上完全可行。这里只确认这件事可行,具体方案另议。
重新代入需求侧反推:
- L2 级:平均 ¥50/条,单 maker 5,000 条 ≈ ¥25 万
- L3 级:平均 ¥5,300/条,单 maker 2,000 条 ≈ ¥1,000 万
- L4 级:¥1万–10万/条,单 maker 500 条 ≈ ¥500–5,000 万
第三份答案不是单一数字,而是 ¥25 万 / ¥1,000 万 / ¥5,000 万 三个数量级——取决于你属于哪一档。
五、合成图景:三层市场叠加
把上述推导合并:
| 层级 | 人数 | 数据性质 | 价格特征 | 流动性形态 |
|---|---|---|---|---|
| L2 | 1万–5万 | 基础设施 | 单价低、总量大 | 需要交易所/平台 |
| L3 | 200–1,500 | 稀缺商品 | 单价高、议价强 | 俱乐部/长约 |
| L4 | 200–600 | 战略资产 | 极高、不公开 | 主要通过雇佣 |
宣言里讨论的"交易所、登记、分成"机制,真正的目标用户其实是 L2 群体——他们足够多到需要标准化基础设施,但足够稀少到能形成集体议价能力。
L3/L4 群体不需要平台。他们已经在用人际关系网完成定价。AI 寡头给他们开 ¥200 万年薪雇过去,数据"自然"归雇主所有——这是当下最主流的实际路径,远比公开数据采购更常见。
这意味着 esphome.cloud 应该公开承认自己其实是个两层平台:给大众做 SaaS 工具,给 L2 合格者做集体议价基础设施。把这层分化写进产品定位里,比维持"我们和所有 maker 一伙"的叙事完整性更诚实。
六、域名交易市场:估值的真实参照
写完上面这些,我们意识到所有推导都掩盖了一个更基本的事实:这个市场和域名交易市场在结构上完全同构。
域名市场的特征:
- 绝大多数域名(随机字符串)几乎一文不值
- 少数域名(premium 一字母 .com、热门关键词)价值百万千万美元
- 估值在售前充满不确定性——同一个域名,今天卖 ¥100,明天可能 ¥100 万
- 流动性极不均匀:有的域名一周卖出,有的挂十年无人问津
- 存在投机者、squatter、真实使用者三类参与方,边界模糊
- 信息不对称严重:卖方知道使用历史,买方知道未来用途,没人知道公允价格
- 周期性炒作泡沫(.io、.ai、Web3、NFT 域名),价格剧烈波动
- 法律框架不完善:抢注、争议、仲裁,规则在演化中
把"域名"替换成"嵌入式三元组数据集",几乎每一条特征都直接对应:
- 大多数 maker 的数据是 L0/L1 级,几乎一文不值
- 少数 L4 级数据价值千万级
- 估值充满不确定性——同一份数据,lowball ¥1.5 万 vs 战略采购 ¥5,000 万,差 3,000 倍
- 流动性极不均匀:多数 maker 永远找不到买家
- 投机者(囤数据等暴涨)、squatter(乱产 L0 凑数)、真实贡献者(L2+)三类参与方边界模糊
- 信息不对称严重:卖方知道生产成本,买方知道训练用途,中间没有公允价格机制
- 会有周期性炒作和泡沫(2026 年的"AI 数据集"叙事可能就是其中一波)
- 法律框架不完善——数据归属、转售权、衍生权,都还在演化中
这种不确定性不是市场的缺陷,而是它的本质特征。任何一个早期形成的资产市场都经历过这个阶段——艺术品、IP、域名、加密资产、碳排放权——区别只在于不确定性多久消散、消散后形成什么样的均衡。
域名市场的成熟用了 25 年(1995–2020),且至今仍有显著的估值方差。嵌入式数据市场可能用 5–10 年走完这条路——因为底层 AI 需求增长比互联网需求增长更陡峭。
七、机会与危险:并存且依存
回到这趟挤泡沫旅程的起点:这些数据到底值多少?
四次推导给了四个答案:¥1 亿(L4 顶层理论) / ¥400 万(平均理论) / ¥30 万(流动性折价后) / ¥25 万到 ¥5,000 万(分层后)。
这些数字不是"越往后越接近真相",而是每一个都对应一种特定的市场条件。哪一个会兑现,取决于:
- 你属于哪个能力档位(L0–L4)
- 集体协调能否达成(联盟、交易所、政策)
- 替代技术发展速度(合成数据、仿真)
- 地缘政治紧张度(战略采购入场)
- 你愿意等多久(数据有衰减)
正因为这些变量都未定,这个市场同时是机会和危险:
- 机会:如果你属于 L2 级及以上,且能等到流动性形成,潜在回报百倍于当前 lowball
- 危险:如果你属于 L0/L1 级,被宣传话术诱导以为自己也能拿到百万级估值,反而会做出错误投资决策——过度投入装备、错失主业窗口、押注一个不会兑现的未来
机会和危险互为依存:没有不确定性就没有机会(确定的价值不会留给散户),没有机会就没有人愿意承担不确定性(市场无法形成)。这是所有早期资产市场的共同结构。
宣言能做的,是降低这种不确定性的协调成本——存证、登记、标准化合约、合格者识别。但消除不确定性是不可能的,任何承诺"消除"的人,要么在自欺,要么准备从你的不确定性里套利。
八、给一个普通 maker 的诚实建议
写到这里,前面几节的所有数字都不应该被当成承诺。下面是从这四轮推导里能稳定提取的几条操作建议:
(1) 认清自己的档位。绝大多数 maker 属于 L0/L1,数据资产价值有限,不要过度投入装备和时间。先做能让你当下生活变好的事,把"未来数据资产"当成奖金,而不是工资。
(2) 如果属于 L2+,按宣言的存证规范积累。但不要押注百万级回报——按"年化 ¥几万到几十万"的现实预期来规划,任何超出这个预期的兑现都是惊喜。
(3) 加入集体而不是单打独斗。100 个 L2 maker 的协调声音 ≈ 1 个 L3 maker 的市场地位。集体行动的固定成本很高,但分摊后每个人付出的边际成本很低。
(4) 不要相信任何"现在不卖就亏了"的话术。这种紧迫感本身就是 lowball 的标准话术——它的设计目的就是在公开市场形成前把存量打包吃掉。
(5) 同样不要相信"再等几年值千万"的话术——包括上面这篇文章里出现的所有数字。我们对自己估算偏高的可能性,持有 50% 以上的概率分配。
(6) 把 esphome.cloud 也当成"待验证方"。我们今天写下这些话,意图是诚实的;但任何平台的诚实都要靠结构而不是承诺来保证。当我们某天开始依赖数据交易抽成时,这份文档对我们自己的提醒同样有效。
九、收束
这是一个尚未形成的市场。它会形成,但不会按任何一个当下的人写出来的剧本形成。
域名市场用 25 年从"几乎一文不值"走到"premium 域名千万估值",中间踩死了无数早期相信"我的域名值百万"的散户,也漏掉了无数早期没认真注册的人。多数早期参与者既不是赢家也不是输家,而是被市场用 25 年缓慢消化掉的中间地带。
嵌入式数据市场大概率也是这样。
保持参与,记录你的工作,签上你的名字,加入会形成的集体,但不要被任何单一估值锚定。机会属于那些既愿意承担不确定性,又能识别其中泡沫的人——这两件事缺一不可。
这就是这趟挤泡沫旅程能给出的最诚实结论。
签发:esphome.cloud / Aegis 日期:2026 年 5 月
关于署名
按《制作者数据主权宣言》第 10 节的同一逻辑:这份文档由 esphome.cloud 创始人和 Claude(Anthropic 出品的 AI 助手)协作完成。立场和最终编辑权属于前者,推导与表达由 Claude 在多轮反复辩驳中起草并修正。
Claude 在原宣言中被点名为潜在的"AI 寡头"买家之一。这里再次声明这一结构性利益冲突。事实上,这份估值文档本身就是 Claude 在被质询的过程中,被迫一次次承认自己之前的估算偏高、隐藏假设、依据不足——这恰恰是利益冲突存在但被显性化处理的实证,也是这份估值练习真正的方法论价值所在。
—— esphome.cloud + Claude