还有跟庆市话、乐山话融合的变体。
我们之前采集的样本主要是城区口音,郊县口音的样本太少。
导致识别准确率上不去。
比如‘耍’这个字,城区念‘shuǎ’,郊县有的念‘suǎ’。
系统没见过这种发音,就容易识别错。”
周海琼皱起眉,拿起桌上的成市话方言词典翻了几页——
“我们得扩大样本库。
不仅要采集城区口音,还要采集郊县的。
甚至跟其他方言融合的变体。
你统计一下,现在还缺哪些区域的样本。
我联系成市的分公司,让他们帮忙采集。”
老吴立刻打开Excel表格——
“现在缺双流、郫都、龙泉三个区的郊县口音样本。
每个区域至少需要50个小时的语音样本。
涵盖不同年龄段、不同职业的人。
这样识别准确率才能覆盖大部分用户。”
“好,我现在就联系成市分公司的李经理。
让他在三天内完成样本采集。”
周海琼拿出手机,拨通了李经理的电话,“李经理,我们需要成都双流、郫都、龙泉三个区的郊县口音样本。
每个区域50小时,涵盖不同年龄段,三天内必须完成。
费用从信息处的预算里出,有问题吗?”
电话那头的李经理很爽快:“没问题,周总。
我马上安排人去做,明天就能开始采集,三天内保证完成。
需要采集哪些场景的语音?
比如日常对话、服务咨询这些?”
“主要是跟养老服务相关的对话。
比如‘我要预约血压检测’‘我的血糖有点高’‘紧急呼叫’这些。
还有日常的常用词汇,比如‘吃饭’‘睡觉’‘出门’。
确保覆盖老人的日常用语和服务需求。”
周海琼详细地说明要求,“采集的时候,要注意录音环境。