גוגל בנתה טכנולוגיה חדשה שתניע את החיפוש הקולי שלה, שלדברי החברה תעשה אותה אפילו מהירה יותר ומדויקת יותר. הטכנולוגיה החדשה עושה שימוש בטכניקות סיווג זמני Connectionist (CTC) ובטכניקות אימונים מפלה לרצף. בשנת 2012 גוגל עברה מדגם תערובת גאוסית (GMM) ל- Deep Neural Networks (DNNs), מה שאיפשר לחברה להעריך טוב יותר את הסאונד שמשתמש מפיק באותה תקופה, והעביר דיוק זיהוי דיבור מוגבר.
המודלים האקוסטיים המשופרים שלנו מסתמכים על רשתות עצביות חוזרות (RNN). ל- RNN לולאות משוב בטופולוגיה שלהם, מה שמאפשר להם לדגמן תלות זמניות: כאשר המשתמש מדבר / u / בדוגמה הקודמת, המנגנון המפרק שלו מגיע מ- / j / צליל ומצליל / m / לפני. נסה לומר זאת בקול רם - "מוזיאון" - זה זורם באופן טבעי מאוד בנשימה אחת, ו RNNs יכולים לתפוס את זה. סוג ה- RNN המשמש כאן הוא זיכרון ארוך טווח (LSTM) RNN אשר באמצעות תאי זיכרון ומנגנון שערים משוכלל, משנן מידע טוב יותר מאשר RNNs אחרים. אימוץ דגמים כאלה כבר שיפר את איכות המזהה שלנו בצורה משמעותית.
השינוי בטכנולוגיה נעשה על ידי גוגל, וכעת הוא משמש להפעלת חיפושים קוליים באפליקציית גוגל הן ב- iOS והן באנדרואיד, כמו גם לתכתיב במכשירי אנדרואיד.
מקור: בלוג המחקר של גוגל