认知颠覆 · COGNITIVE OVERTURN
语音合成的"恐怖谷"效应
合成语音的音质从"机械"提升到"接近真人但不完全"时,听众的反感度反而**上升**而非下降——这与机器人领域的"恐怖谷效应"完全一致。MOS 评分在自然度 3.5—4.5 分区间会出现评估者间方差剧增。这意味着合成语音的优化不是单调的"越高越好",在"恐怖谷"区间需要格外谨慎的产品策略。
来自这本书的解读报告
《语音识别与合成》
这本书回答了机器如何听懂人话和说人话的问题,核心答案是从流水线拆解走向端到端建模
阅读完整解读报告 →