Logo da.androidermagazine.com
Logo da.androidermagazine.com

Google opdaterer teknologi bag stemmesøgning for at gøre det hurtigere og mere nøjagtigt

Anonim

Google har opbygget en ny teknologi til at drive sin stemmesøgning, som virksomheden siger vil gøre den endnu hurtigere og mere præcis. Den nye teknologi bruger Connectionist Temporal Classification (CTC) og sekvensdiskriminerende træningsteknikker. I 2012 skiftede Google fra Gaussian Mixture Model (GMM) til Deep Neural Networks (DNN'er), som gjorde det muligt for virksomheden bedre at vurdere, hvilken lyd en bruger producerede på det tidspunkt og leverede en øget nøjagtighed for talegenkendelse.

Vores forbedrede akustiske modeller er afhængige af gentagne neurale netværk (RNN). RNN'er har feedback-løkker i deres topologi, hvilket giver dem mulighed for at modellere tidsmæssige afhængigheder: når brugeren taler / u / i det foregående eksempel, kommer deres artikulatoriske apparat fra a / j / lyd og fra en / m / lyd før. Prøv at sige det højt - "museum" - det flyder meget naturligt i et åndedrag, og RNN'er kan fange det. Den type RNN, der bruges her, er en lang kortvarig hukommelse (LSTM) RNN, der gennem hukommelsesceller og en sofistikeret portmekanisme husker information bedre end andre RNN'er. Vedtagelse af sådanne modeller forbedrede allerede vores genkenders kvalitet betydeligt.

Ændringen i teknologi er foretaget af Google, og bruges nu til at tænke stemmesøgninger i Google-appen på både iOS og Android samt diktering på Android-enheder.

Kilde: Google Research Blog