Obszar roboczy 3 kopia 7Obszar roboczy 3 kopia 7

    Cruxbox - czyli co by się stało gdybyśmy mogli podsumować każde służbowe spotkanie?

    Wyzwanie

    Zbudować urządzenie które nagrywa i rozumie spotkania firmowe i dostarcza łatwą w odbiorze wizualizację dotycząca tematów spotkań.


    Proces

    Nim rozpoczęliśmy pracę nad urządzeniem, zbadaliśmy istniejące na rynku rozwiązania w poszukiwaniu fundamentów na których moglibyśmy zbudować nasz projekt. Najbliższy naszym potrzebą okazał się projekt Google AIY.

    Po złożeniu, rozebraniu i ponownym złożeniu zarówno oprogramowania jak i sprzętu nabyliśmy rozeznanie jak zbudować nasz prototyp szybko, korzystając z gotowych rozwiązań i podejścia rapid prototyping.

    Akustyka stanowiła dla nas duże wyzwanie. Jakość transkrypcji i wyświetlanych słów kluczowych jest zależna od dwóch czynników - nad którymi nie mamy pełnej kontroli - jakości algorytmów używanych przez Google (i innych dostawców) przy rozpoznawaniu mowy, oraz warunków panujących podczas spotkania. W trosce o dobrą jakość, przetestowaliśmy różnego rodzaju mikofony aby zbadać, czy mają znaczący wpływ na jakość transkryptów. Co zaskakujące, okazało się, że największym ograniczeniem jest sama technologia rozpoznawania głosu - dotychczasowe rozwiązania są przeznaczone do rozpoznawania głosu jednej osoby. Firmy napędzające rozwój tej technologii skupiły się na eliminacji jakichkolwiek zakłóceń i możliwości wyłapania głosu jednej osoby, właściciela wydającego komendy (Google Assistant, Amazon Echo, etc)

    Poniżej przykłady użytych przez nas mikrofonów - od filmowych, przez zwyczajne do telekonferencji, aż po miniaturowe mikrofony elektretowe.
    Wynik

    Zaprojektowaliśmy obudowę, elektronikę i oprogramowanie które razem stanowi Cruxbox. Cruxbox po podłączeniu do sieci WiFi (przy pomocy jakiegokolwiek smartfonu), transkrybuje nagrane spotkanie przy pomocy usługi Google Voice i wyświetla wynik po przetworzeniu danych w chmurze. Wyniki transkrypcji zapisywane są w bazie danych i poddawane są analizie słów kluczowych - na podstawie której budowana jest wizualizacja - chmura tagów - która pozwala zapoznać się z kluczowymi tematami poruszonymi podczas spotkania. Urządzenie rozumie 80 języków i nie wymaga żadnej "rejestracji" ze strony użytkownika - autoryzacja następuje automatycznie.