职位描述:
1定义分析清洗ASRTTS训练测试数据; 2开发高精度低延迟的端到端语音识别(ASR)系统,支持多语种多方言与个性化语音识别; 3研发自然富有表现力的神经语音合成(TTS)与歌声合成技术; 4分析评估ASRTTS产品性能改善产品性能; 5探索大模型与语音识别/合成的结合,提升模型在上下文理解与情感表达上的能力。 1硕及以上学历英语四级以上; 2深入理解语音识别/合成全链路,熟悉Kaldi, Espresso, Transformer等框架,对音素韵律学有研究; 3扎实的linuxpython功底; 4熟悉k2有TTS经验者优先。
1定义分析清洗ASRTTS训练测试数据; 2开发高精度低延迟的端到端语音识别(ASR)系统,支持多语种多方言与个性化语音识别; 3研发自然富有表现力的神经语音合成(TTS)与歌声合成技术; 4分析评估ASRTTS产品性能改善产品性能; 5探索大模型与语音识别/合成的结合,提升模型在上下文理解与情感表达上的能力。 1硕及以上学历英语四级以上; 2深入理解语音识别/合成全链路,熟悉Kaldi, Espresso, Transformer等框架,对音素韵律学有研究; 3扎实的linuxpython功底; 4熟悉k2有TTS经验者优先。
