认知颠覆 · COGNITIVE OVERTURN

语音合成的"恐怖谷"效应

合成语音的音质从"机械"提升到"接近真人但不完全"时,听众的反感度反而**上升**而非下降——这与机器人领域的"恐怖谷效应"完全一致。MOS 评分在自然度 3.5—4.5 分区间会出现评估者间方差剧增。这意味着合成语音的优化不是单调的"越高越好",在"恐怖谷"区间需要格外谨慎的产品策略。
来源

《语音识别与合成》语音合成评估章节

可迁移到

AI 生成内容的所有领域(AI 绘画、AI 写作、AI 视频)——当 AI 生成物"像人但不像人"时,用户接受度可能低于纯机械版本。产品策略要么做到完全不像人(明确的 AI 风格),要么做到足够像人,避免尴尬的中间地带。

来自这本书的解读报告

《语音识别与合成》

(领域通称,多版本并存) · 信号处理与人工智能

这本书回答了机器如何听懂人话和说人话的问题,核心答案是从流水线拆解走向端到端建模

语音技术·序列建模·端到端学习·信号处理·深度学习
阅读完整解读报告 →
PRESS YOUR OWN BOOK

找一本想读的书,解读出你自己的洞察

90 秒得到核心模型 · 行动接口 · 失效边界 · 三套 SOP

解读一本书 →