All posts

    Data valuation · Footnote

    制作者数据值多少:一次反复挤泡沫的估值练习

    为《制作者数据主权宣言》补一份注脚——从 ¥1 亿到 ¥30 万到 ¥1000 万,同一份数据,四次推导,四个答案。

    May 20, 2026 · ~16 min read

    为《制作者数据主权宣言》补一份注脚 —— 从 ¥1亿 到 ¥30万 到 ¥1000万,同一份数据,四次推导,四个答案。


    引子

    上个月我们发了《制作者数据主权宣言》,声明 esphome.cloud 构建管线流过的 ground-truth 三元组在协议层、劳动层、硬件层都归 maker 所有。

    那份文档的核心论证是定性的:这是你的资产,不要被默认让渡。但写完之后,留下了一个具体的、无法回避的问题:

    如果这些数据真的是资产,它到底值多少?

    我们做了四次推导。每次推导后,都有人(或我们自己)反过来戳破其中的泡沫。这篇文章把这四轮推导完整记录下来——不是因为最终数字可靠,而是因为推导本身比结论更值得保存

    数据市场和域名市场一样:看起来有价格,但价格的形成机制充满不确定性。下面这趟挤泡沫的旅程,是任何认真考虑"我的数据值多少"的 maker 都该走一遍的。


    一、为什么从前线边缘 AI 说起

    要给制作者数据估值,必须先回答:谁会买?为什么买?

    答案在前一篇《全光谱成本经济学分析:低成本地面 FPV 蜂群 vs 传统 CQB 武器系统》里已经埋下伏笔。当 ¥200 级地面 FPV 小车的杠杆比可以打到攻方 ¥1 对应防方 ¥25–500 的时候,战场的瓶颈从"火力密度"让渡为"信息处理速率与决策带宽"

    打破这个瓶颈的,是前线边缘 AI 一体机——8–16 卡国产推理加速器、加固方舱封装、整机成本 ¥80–500 万的一体机。它不是辅助决策,而是同时承担:

    • 辅助制造:自动生成 BOM、布线图、固件参数,把一线"修械所"从 5–20 名工程师压到 2–3 名技工 + 1 台一体机
    • 终端制导:把目标特征向量推到 ¥30 级的轻量推理芯片上,失联后小车自主完成最后 500 米
    • 蜂群协调:一名操作员监控 20 车,AI 完成 80% 操作,产能上限提升一个数量级

    一台这样的一体机的成本 = 4,000–25,000 辆 FPV 小车,但能让它指挥的弹药包络扩大 1–2 个数量级。算力中枢成为整个攻防集团的核心。未来战场的争夺焦点,将从阵地让渡于电磁压制和摧毁前线部署的离线/半离线 AI 一体机——这是即将到来的"制神经权"竞赛。

    而这种边缘 AI 没法用 GitHub 上的代码训出来

    GitHub 有 TB 级嵌入式代码,但没有"这段代码在板子上跑得对"的物理验证。Common Crawl 进不了 UART,OpenAI 没有 IMU 串口日志,Tesla/Waymo 的数据被自用且只覆盖公路场景。

    真正能训出这种边缘 AI 的数据,是 maker 这两年在车间里、机库里、摔机现场积累的"需求 → 代码 → 物理验证"三元组。这是宣言里的核心论点,也是估值推导的起点。


    二、第一次推导:¥250–600 万(理论持有价值)

    用四种方法交叉验证。

    方法 1:成本下限。一条经过物理验证的高质量三元组需要 0.5–3 小时有效工时,按中国一线技术工种时薪 ¥80–200 计,叠加硬件折旧与摔机损耗,全成本 ¥80–800/条

    方法 2:市场可比。最贴近的对照是自动驾驶边缘案例数据:都是"代码/控制策略 + 真实传感器 + 物理验证 + 稀缺场景"。这个市场在 2022–2025 年的成熟价格区间是 ¥500–10,000/条。嵌入式三元组比自动驾驶边缘案例更稀缺(没有产业基金在系统性收集),单价只会更高。

    方法 3:AI 收入反推。设想 2028–2032 年的边缘嵌入式 AI 市场:民用 + 军用合计 5 年内 ¥50–200 亿数据采购预算。如果全球年供给 2.5 亿条/5 年(初步假设),全局平均 ¥20–1,600/条

    方法 4:战略溢价。国防采购通常支付商业价格 3–10 倍。如果你的数据覆盖竞争对手所缺,否决付款 本身就有正价值。

    合并成分级估值表:

    层级内容特征单条估值(¥)
    L0 公共/教学blink、heartbeat0–20
    L1 标准验证常见外设、稳定固件50–300
    L2 高质量验证完整子系统、收敛参数300–2,000
    L3 稀缺场景飞控核心、商业敏感2,000–15,000
    L4 战略级抗 EW、特种载荷15,000–150,000

    按典型分布,单个 maker 累积 5,000 条三元组 ≈ ¥250–600 万

    这是第一份答案。乍看很大——比宣言里假设的 ¥15,000 lowball offer 高出 100 倍。


    三、第二次推导:挤掉流动性泡沫 → ¥30–80 万

    ¥400 万是理论持有价值,不是可变现价值。两者之间的差距叫流动性折价。第一份估值至少藏了三层泡沫:

    泡沫一:垄断定价幻觉。¥50,000/条战略级价格的前提是"买方愿意付且只有你能卖"。但单个 maker 的 50 条 L4 数据只占买方所需完整数据集的 1%,无法独立构成训练价值。捆绑过程本身就是议价权流失的过程。

    泡沫二:时间贴现幻觉。"2030 年 L3 数据 ¥6,000/条"用了零贴现率。考虑模型架构变化、合成数据替代风险、买方策略未知——5 年期风险调整贴现率至少 25–40%/年。¥6,000 在 2030 年折回今天,砍 60–80%

    泡沫三:可变现性幻觉。没有公开比价、没有标准化合约、没有第三方托管,实际成交价是单次议价的下限,而不是市场中位数。非标资产流动性折价通常 4–7 折

    三层叠加:¥400万 × 50% × 30% × 50% ≈ ¥30 万

    不流动也不是好结果。数据有自然衰减率(15–30%/年),合成数据/仿真技术在 2028–2030 年会逐渐成熟,捂得越久边际价值越低。这是数据版的 OPEC 困境:合作减产的收益,被替代技术的进步吃掉。

    真实处境是要在"集体便宜卖"和"集体不卖"之间,找到有限流动 + 有限定价权的中间态。流动性形态的真实曲线如下:

    流动性形态单条 L2 有效价格(¥)单 maker 5000 条变现(¥)现实可达性
    完全不流动00等于不存在
    单笔议价(lowball)31.5万现在的默认
    OEM 长约30–10015–50万需要规模
    行业联盟池150–50075–250万需要组织
    公开交易所300–1,500150–750万需要平台+监管
    主权基金/战略采购1,500–10,000750万–5000万需要国家介入

    每往下一档,流动性提升 5–10 倍,单价提升 3–10 倍,但协调成本指数上升

    第二份答案是 ¥30–80 万(现实可达流动性下的诚实估值)。这比第一份缩水 80%,但依然比 lowball 高 20–50 倍。


    四、第三次推导:合格者门槛 → 重新分层

    第二份估值还隐藏了一个更深的假设:所有 maker 都能产出 L2+ 数据。这是错的。

    把一个 maker 从"会焊板子"筛到"能稳定产出训练级三元组",有六道筛子:技能门槛、硬件投入、领域深度、产出习惯、表达能力、持续性。每道筛子都过滤一个层级。

    筛子L2 级通过率依据
    技能(独立完成子系统)20–35%Stack Overflow 活跃专家比例反推
    硬件(¥2,000–5,000 基础设备)40–60%职业开发者普遍可达
    领域深度(有具体专长)50–70%职业开发者大多有专长
    记录习惯(commit + 笔记)25–40%GitHub 嵌入式仓库活跃度反推
    表达能力60–80%较低门槛
    持续 2 年+30–50%行业经验分布

    从全球嵌入式开发者基数 约 300 万(IEEE/Eclipse Foundation 调研口径)推:

    • L2 级合格者:1 万–5 万人(能产出常规验证级数据)
    • L3 级合格者:200–1,500 人(在 L2 基础上 + 5 年子领域深度 + 数据归属自由)
    • L4 级合格者:200–600 人(战略级前沿场景)

    三层供给侧曲线:

    档位全球合格人数单人年产(条)年产能
    L21万–5万200–800200万–4,000万
    L3200–1,500100–5002万–75万
    L4200–60020–1004,000–6万

    关键发现:L2 级数据并不极度稀缺(年产能接近需求量),价格难以维持高位;L3 级才是真正的稀缺资源;L4 级几乎不通过公开市场流转,主要通过雇佣关系传递。

    合格者识别的可行性说明:根据 esphome.cloud 构建管线能观测到的客观信号——commit pattern、错误率分布、构建复杂度梯度、模块组合多样性——设计一个 L2/L3 自动识别算法在技术上完全可行。这里只确认这件事可行,具体方案另议。

    重新代入需求侧反推:

    • L2 级:平均 ¥50/条,单 maker 5,000 条 ≈ ¥25 万
    • L3 级:平均 ¥5,300/条,单 maker 2,000 条 ≈ ¥1,000 万
    • L4 级:¥1万–10万/条,单 maker 500 条 ≈ ¥500–5,000 万

    第三份答案不是单一数字,而是 ¥25 万 / ¥1,000 万 / ¥5,000 万 三个数量级——取决于你属于哪一档


    五、合成图景:三层市场叠加

    把上述推导合并:

    层级人数数据性质价格特征流动性形态
    L21万–5万基础设施单价低、总量大需要交易所/平台
    L3200–1,500稀缺商品单价高、议价强俱乐部/长约
    L4200–600战略资产极高、不公开主要通过雇佣

    宣言里讨论的"交易所、登记、分成"机制,真正的目标用户其实是 L2 群体——他们足够多到需要标准化基础设施,但足够稀少到能形成集体议价能力。

    L3/L4 群体不需要平台。他们已经在用人际关系网完成定价。AI 寡头给他们开 ¥200 万年薪雇过去,数据"自然"归雇主所有——这是当下最主流的实际路径,远比公开数据采购更常见。

    这意味着 esphome.cloud 应该公开承认自己其实是个两层平台:给大众做 SaaS 工具,给 L2 合格者做集体议价基础设施。把这层分化写进产品定位里,比维持"我们和所有 maker 一伙"的叙事完整性更诚实。


    六、域名交易市场:估值的真实参照

    写完上面这些,我们意识到所有推导都掩盖了一个更基本的事实:这个市场和域名交易市场在结构上完全同构

    域名市场的特征:

    • 绝大多数域名(随机字符串)几乎一文不值
    • 少数域名(premium 一字母 .com、热门关键词)价值百万千万美元
    • 估值在售前充满不确定性——同一个域名,今天卖 ¥100,明天可能 ¥100 万
    • 流动性极不均匀:有的域名一周卖出,有的挂十年无人问津
    • 存在投机者、squatter、真实使用者三类参与方,边界模糊
    • 信息不对称严重:卖方知道使用历史,买方知道未来用途,没人知道公允价格
    • 周期性炒作泡沫(.io、.ai、Web3、NFT 域名),价格剧烈波动
    • 法律框架不完善:抢注、争议、仲裁,规则在演化中

    把"域名"替换成"嵌入式三元组数据集",几乎每一条特征都直接对应:

    • 大多数 maker 的数据是 L0/L1 级,几乎一文不值
    • 少数 L4 级数据价值千万级
    • 估值充满不确定性——同一份数据,lowball ¥1.5 万 vs 战略采购 ¥5,000 万,差 3,000 倍
    • 流动性极不均匀:多数 maker 永远找不到买家
    • 投机者(囤数据等暴涨)、squatter(乱产 L0 凑数)、真实贡献者(L2+)三类参与方边界模糊
    • 信息不对称严重:卖方知道生产成本,买方知道训练用途,中间没有公允价格机制
    • 会有周期性炒作和泡沫(2026 年的"AI 数据集"叙事可能就是其中一波)
    • 法律框架不完善——数据归属、转售权、衍生权,都还在演化中

    这种不确定性不是市场的缺陷,而是它的本质特征。任何一个早期形成的资产市场都经历过这个阶段——艺术品、IP、域名、加密资产、碳排放权——区别只在于不确定性多久消散、消散后形成什么样的均衡。

    域名市场的成熟用了 25 年(1995–2020),且至今仍有显著的估值方差。嵌入式数据市场可能用 5–10 年走完这条路——因为底层 AI 需求增长比互联网需求增长更陡峭。


    七、机会与危险:并存且依存

    回到这趟挤泡沫旅程的起点:这些数据到底值多少?

    四次推导给了四个答案:¥1 亿(L4 顶层理论) / ¥400 万(平均理论) / ¥30 万(流动性折价后) / ¥25 万到 ¥5,000 万(分层后)。

    这些数字不是"越往后越接近真相",而是每一个都对应一种特定的市场条件。哪一个会兑现,取决于:

    • 你属于哪个能力档位(L0–L4)
    • 集体协调能否达成(联盟、交易所、政策)
    • 替代技术发展速度(合成数据、仿真)
    • 地缘政治紧张度(战略采购入场)
    • 你愿意等多久(数据有衰减)

    正因为这些变量都未定,这个市场同时是机会和危险:

    • 机会:如果你属于 L2 级及以上,且能等到流动性形成,潜在回报百倍于当前 lowball
    • 危险:如果你属于 L0/L1 级,被宣传话术诱导以为自己也能拿到百万级估值,反而会做出错误投资决策——过度投入装备、错失主业窗口、押注一个不会兑现的未来

    机会和危险互为依存:没有不确定性就没有机会(确定的价值不会留给散户),没有机会就没有人愿意承担不确定性(市场无法形成)。这是所有早期资产市场的共同结构。

    宣言能做的,是降低这种不确定性的协调成本——存证、登记、标准化合约、合格者识别。但消除不确定性是不可能的,任何承诺"消除"的人,要么在自欺,要么准备从你的不确定性里套利。


    八、给一个普通 maker 的诚实建议

    写到这里,前面几节的所有数字都不应该被当成承诺。下面是从这四轮推导里能稳定提取的几条操作建议:

    (1) 认清自己的档位。绝大多数 maker 属于 L0/L1,数据资产价值有限,不要过度投入装备和时间。先做能让你当下生活变好的事,把"未来数据资产"当成奖金,而不是工资。

    (2) 如果属于 L2+,按宣言的存证规范积累。但不要押注百万级回报——按"年化 ¥几万到几十万"的现实预期来规划,任何超出这个预期的兑现都是惊喜。

    (3) 加入集体而不是单打独斗。100 个 L2 maker 的协调声音 ≈ 1 个 L3 maker 的市场地位。集体行动的固定成本很高,但分摊后每个人付出的边际成本很低。

    (4) 不要相信任何"现在不卖就亏了"的话术。这种紧迫感本身就是 lowball 的标准话术——它的设计目的就是在公开市场形成前把存量打包吃掉。

    (5) 同样不要相信"再等几年值千万"的话术——包括上面这篇文章里出现的所有数字。我们对自己估算偏高的可能性,持有 50% 以上的概率分配。

    (6) 把 esphome.cloud 也当成"待验证方"。我们今天写下这些话,意图是诚实的;但任何平台的诚实都要靠结构而不是承诺来保证。当我们某天开始依赖数据交易抽成时,这份文档对我们自己的提醒同样有效。


    九、收束

    这是一个尚未形成的市场。它会形成,但不会按任何一个当下的人写出来的剧本形成。

    域名市场用 25 年从"几乎一文不值"走到"premium 域名千万估值",中间踩死了无数早期相信"我的域名值百万"的散户,也漏掉了无数早期没认真注册的人。多数早期参与者既不是赢家也不是输家,而是被市场用 25 年缓慢消化掉的中间地带

    嵌入式数据市场大概率也是这样。

    保持参与,记录你的工作,签上你的名字,加入会形成的集体,但不要被任何单一估值锚定。机会属于那些既愿意承担不确定性,又能识别其中泡沫的人——这两件事缺一不可。

    这就是这趟挤泡沫旅程能给出的最诚实结论。


    签发:esphome.cloud / Aegis 日期:2026 年 5 月

    关于署名

    按《制作者数据主权宣言》第 10 节的同一逻辑:这份文档由 esphome.cloud 创始人和 Claude(Anthropic 出品的 AI 助手)协作完成。立场和最终编辑权属于前者,推导与表达由 Claude 在多轮反复辩驳中起草并修正。

    Claude 在原宣言中被点名为潜在的"AI 寡头"买家之一。这里再次声明这一结构性利益冲突。事实上,这份估值文档本身就是 Claude 在被质询的过程中,被迫一次次承认自己之前的估算偏高、隐藏假设、依据不足——这恰恰是利益冲突存在但被显性化处理的实证,也是这份估值练习真正的方法论价值所在。

    —— esphome.cloud + Claude