周海琼详细地说明要求,“采集的时候,要注意录音环境。
避免噪音,确保语音清晰。
另外要记录采集对象的年龄、性别、区域。
方便我们后续分析。”
挂了电话,周海琼又看向老张:“样本采集的问题解决了。
小主,这个章节后面还有哦,请点击下一页继续阅读,后面更精彩!
接下来我们要优化算法,针对已经采集到的样本,做二次训练。
比如把容易识别错的词汇单独拎出来,增加训练次数。
提高系统对这些词汇的敏感度。”
老张点点头,打开算法优化界面:“我们已经把错误率超过5%的词汇整理成了列表,总共128个。
现在正在做针对性训练。
预计样本采集完成后。
再经过两天的训练,成市话的识别准确率能达到96%以上。
再优化两天,应该能达到98%的目标。”
“很好。”
周海琼松了口气,目光扫过办公室里忙碌的技术人员——
“武市话的方言包进度怎么样?
有没有遇到类似的问题?”
“武市话的样本采集已经完成了80%。
主要是汉口、汉阳、武昌三个区的口音,识别准确率目前是95%。
主要问题是‘您家’‘么事’这些常用敬语和疑问词的识别。
有时候会跟普通话混淆。”
老张调出武市话的数据分析报告。
“比如‘您家要测血糖吗’,系统有时候会识别成‘你要测血糖吗’。
虽然不影响理解,但不够精准。
我们正在优化敬语的识别模型。”
周海琼接过报告,翻了几页:“敬语很重要。
武市的老人很讲究礼貌,用‘您家’称呼他们。
能让他们感觉更亲切,。
所以识别必须精准。