DSP| Daj Się Poznać 2016 - Kick off projektu

Pierwszą edycję Daj Się Poznać śledziłem bardzo dokładnie. Byłem jeszcze wtedy programistycznym młokosem i starałem się jak najwięcej podpatrzeć od bardziej doświadczonych kolegów. Ciekawych tematów do śledzenia wtedy nie brakowało, a część początkujących w tamtym czasie blogerów już na stałe dołączyła do naszej blogosfery. Szczęśliwym trafem w tym roku mamy drugą edycję, a od pewnego czasu krążył mi po głowie kolejny pomysł na projekt. Tym razem nie mogło mnie zabraknąć w gronie uczestników, także nie pozostało mi nic innego jak przejść do oficjalnego kick offu projektu...

Skąd się wziął WONS?

Danych cały czas przybywa, a komputery stają się coraz bardziej inteligentne. Za te obszary odpowiadają big data oraz machine learning, które stają się coraz bardziej popularne się na konferencjach i spotkaniach. Przetwarzanie i analiza danych również stało się bardziej dostępne za sprawą otwarcia platformy HDInsight. Jeśli przeszkodą dla kogoś było Javowe pochodzenie Hadoopa to już może pisać komponenty w C# i umieszczać w Microsoft Azure.

Żeby zrealizować jakiś projekt z przetwarzaniem dużej ilości danych potrzebne są przede wszystkim dane, a najlepiej dużo : ) W poszukiwaniu pomysłu przeglądałem strony agregujące publicznie dostępne API, takie jak https://market.mashape.com/explore lub http://www.programmableweb.com/apis. Zatrzymałem się na chwilę przy formularzach do analizy wydźwięku. Wpisujemy tam swój komentarz, a aplikacja sprawdzi czy jest pozytywny, neutralny czy negatywny (przykład tutaj https://www.twinword.com/api/sentiment-analysis.php). Łatwe i ciekawe do testowania, na pewno każdy będzie próbował tam wpisać parę własnych zdań. Jak grzyby po deszczu wyrastają startupy korzystające z takich algorytmów w celu sprawdzenia opinii klientów o produkcie lub analizy komentarzy związanych z rynkiem finansowym. Próbowałem szukać publicznie dostępnego API dla języka polskiego, ale nie udało mi się nic takiego znaleźć. Jest parę firm oraz kilka grup uniwersyteckich zajmujących się tym tematem, ale dostęp do wyników prac jest płatny lub utrudniony.

Tak narodził się pomysł na WONS, czyli Word Operating Neural System. WONS będzie okazją do przetestowania wiedzy z zakresu machine learning i stworzenia publicznego, otwartego API. Z uwagi na poziom skomplikowania języka polskiego jest to raczej trudny temat, ale warto spróbować. Jestem na etapie zbierania wiedzy, więc jeśli ktoś posiada informacje lub drobne sugestie, które mogą się przydać to przyjmuję każdy link i artykuł do przeczytania : ) Zapraszam do śledzenia projektu, wszystkie posty będą się pojawiać na moim blogu pod tagiem #dajsiepoznac http://straightouttacode.net/tag/dajsiepoznac/

Projekt na GitHubie: https://github.com/dhermyt/WONS

Share this post

comments powered by Disqus