Mocap.pl

Face Tracking

Śledzenie ruchów twarzy

 

Przechwyt Ruchów Twarzy (ang. Facial Motion Capture), to proces podczas którego przy pomocy kamer, oraz skanerów laserowych ruchy twarzy zapisuje się w postaci cyfrowej bazy danych. Zapisane dane mogą następnie zostać użyte do stworzenia grafiki komputerowej, komputerowych animacji do filmów i gier, czy wirtualnych awatarów. Dzięki temu, że ruch wirtualnych postaci oparty jest na przechwycie mimiki prawdziwej ludzkiej twarzy, animacja komputerowa jest bardziej realistyczna i wyróżnia się od tych, które stworzone są w tradycyjny - ręczny sposób. Zapisany Face Tracking opisuje współrzędne lub zmienne pozycje punktów odniesienia na twarzy aktora. Przechwyt może być wykonany w dwóch wymiarach, wtedy proces czasami nazywany jest „zapisem mimiki twarzy” (ang. „expression tracking”), lub w trzech wymiarach. Dwuwymiarowy przechwyt może zostać wykonany przy użyciu jednej kamery i oprogramowania o niskiej cenie, takiego jak np. Zign Track firmy Zign Creations. Jego wynik będzie jednak zdecydowanie mniej dokładny i nie będzie w stanie oddać w pełni trójwymiarowych ruchów, np. głową. Trójwymiarowy przechwyt osiągany jest przy użyciu zestawu wielu kamer lub systemu laserowych znaczników. Zestawy tego typu są przeważnie dużo droższe, bardziej skomplikowane i trudniejsze w obsłudze. W przechwytywaniu ruchów twarzy dominują dwie technologie: systemy wykorzystujące znaczniki oraz te, które nimi się nie posługują.

 

Face Tracking jest podobny do Motion Capture całego ciała. Jest to proces podczas którego przy użyciu wizualnych lub mechanicznych środków edytuje się komputerowo wygenerowaną postać nakładając na nią zapis z ludzkiej twarzy, tak aby
przenieść emocje wyrażone na twarzy użytkownika na ekran komputera.

Historia

Jedna z pierwszych prac na temat animacji opartych na ludzkich ruchach została opublikowana przez Lanca Williama w 1990 roku. Opisuje on w niej „w jaki sposób otrzymać mimikę prawdziwej twarzy i jak ją przenieść na tę, która jest wygenerowana komputerowo”.

Technologie

Technologia wykorzystująca znaczniki (markery)

Tradycyjny system znaczników, składa się z do 350 pojedynczych znaczników umieszczonych na twarzy aktora oraz kamer o wysokiej rozdzielczości, które śledzą i zapisują ich ruch. Technologia ta została użyta w filmach takich jak „Ekspres polarny”
oraz „Beowulf”, by umożliwić aktorom (m.in. Tom Hanks) przygotowanie mimiki dla wielu różnych postaci. Niestety, jest to dość żmudne i sprawia, że przefiltrowany i wygładzony obraz mimiki aktorów staje się przesadzony. Systemy kolejnych generacji, takie jak CaptiveMotion, opierają się na technologii wykorzystywanej w tradycyjnych systemach znaczników, jednak posiadają większą czułość na detale. Technologia aktywnych znaczników LED jest obecnie używana do tworzenia animacji twarzy w czasie rzeczywistym, używanych do komunikacji z użytkownikami.

 

Technologia niewykorzystująca znaczników (bezmarkerowe)

Technologie niewykorzystujące znaczników używają rysów twarzy takich jak nozdrza, kąciki ust i oczu, oraz zmarszczki, śledząc ich ruch i położenie. Technologie te są analizowane w laboratoriach firmy IBM oraz na uniwersytetach takich jak Carnegie Mellon University czy The University of Manchester (skąd w dużym stopniu wywodzą się ich początki związane z osobami takimi jak Tim Cootes, Gareth Edwards oraz Chris Taylor), jak również w innych miejscach. Używa się do tego aktywnych modeli wyglądu (ang. AAM – active appearance models), analizy głównych składowych (ang. Principal Component Analysis, PCA), śledzenia obiektów przy pomocy bibliotek eigen (ang. eigen trackng), modeli o zmiennej powierzchni oraz innych technik do śledzenia wybranych rys twarzy od klatki do klatki. Technologia ta jest dużo mniej żmudna i pozwala aktorowi na wierniejsze oddanie mimiki.

 

Te bazujące na obrazie twarzy metody są w stanie śledzić również ruchy źrenic, powiek oraz warg i języka w kontakcie z zębami, które stanowią oczywisty problem w większości komputerowych animacji twarzy. Ograniczenia wspomnianych metod wiążą się z rozdzielczością oraz ilością klatek, ale i one stają się co raz mniejsze dzięki coraz szerszemu dostępowi do filmujących z wysoką prędkością i dużą rozdzielczością kamer CMOS. Technologia służąca do śledzenia ruchów twarzy bez użycia znaczników jest podobna do tej używanej w systemie rozpoznawania twarzy (ang. facial recognition system), ponieważ jest on w stanie analizować każdą klatkę nagrania, czego rezultatem jest mapowanie twarzy. Dla przykładu, system Neven Vision (autorstwa firmy Eyematics, która obecnie została przejęta przez Gogle) pozwalał na dwuwymiarowe (2D) mapowanie twarzy w czasie rzeczywistym, nie wymagając do tego indywidualnej konfiguracji. System ten znalazł się również pośród najskuteczniejszych tego typu produktów w przeprowadzonym przez rząd USA w 2002 roku teście, Face Recognition Vendor Test (FRVT). Należy jednak nadmienić, że niektóre z systemów rozpoznawania niedokładnie mapują wyraz twarzy, a czasem nawet, w kontakcie z nie do końca neutralną mimiką, zawodzą, dlatego też nie nadają się do śledzenia ruchów twarzy. Z drugiej jednak strony, systemy analizujące zmienne powierzchnie, wykorzystują tymczasowe dane by uniknąć nieścisłości i otrzymać bardziej jednolite wyniki, których nie można byłoby otrzymać z pojedynczej fotografii. Technologia niewykorzystująca znaczników rozwinęła do komercyjnych systemów takich jak image-metrics czy Dynamixyz i znalazła swoje zastosowanie w filmach takich jak trylogia „Matrix” czy „Ciekawy przypadek Benjamina Buttona”. Przy pracy nad tym drugim

korzystano z systemu Mova Contour, by przechwycić model twarzy, który następnie został animowany przy użyciu po części ręcznej, a po części bazującej na obrazie twarzy metody. „Avatar” to przykład kolejnego wybitnego filmu, przy produkcji którego wykorzystywano przechwyt ludzkich ruchów, tu jednak użyto markerów świecących w podczerwieni.

 

Systemy bezmarkerowe mogą zostać sklasyfikowane według następujących kryteriów:

  • mapowanie w 2D i mapowanie w 3D
  • czy wymaga indywidualnej konfiguracji lub jakiegokolwiek innego nadzoru w ludzkiej postaci
  • zapis ruchu w czasie rzeczywistym (co jest możliwe tylko i wyłącznie, gdy nie jest wymagana konfiguracja lub nadzór)
  • czy do użycia wymagane jest dodatkowe źródło informacji takie jak gotowe wzory lub niewidzialna farba użyta w systemie Mova

Do chwili obecnej żaden system nie jest idealny jeżeli chodzi o wszystkie kryteria. Dla przykładu system New Vision był w pełni automatyczny i nie wymagał dodatkowych
wzorów, ani konfiguracji pod konkretną osobę, ale był w 2D. Z kolei system Face/Off jest w 3D, automatyczny, działa w czasie rzeczywistym, jednak wymaga wpisanych wzorów.

 

Przechwyt Mimiki Twarzy

Technologia

Metody bazujące na cyfrowych nagraniach stają się co raz bardziej popularne, gdyż mechaniczne systemy bywają kłopotliwe i trudne w użyciu.
Używając cyfrowych kamer, zapis wyrazu twarzy użytkownika przesyłany jest do oprogramowania by to wpierw ustaliło pozycję głowy, a później dopasowało oczy, nos
i usta. Twarz początkowo zostaje wyskalowana przy użyciu neutralnego wyrazu twarzy. Następnie, zależnie od budowy twarzy, brwi, powieki oraz policzki mogą być edytowane
by zmodyfikować mimikę. Osiąga się to oznaczając, np. brzegi warg, jako specjalny obiekt. Na twarzy osób wykorzystywanych do nagrania często umieszcza się zwiększający kontrast make-up lub znaczniki lub korzysta z jeszcze innych metod, by przyśpieszyć późniejszą komputerową edycję. Podobnie jak w przypadku rozpoznawania głosu, nawet najlepsze techniki są co najwyżej sprawne w 90%, przez co wymagają zaakceptowania dodatkowej ręcznej obróbki lub pewnego marginesu błędów. Ponieważ wygenerowane przez komputer postacie nie posiadają mięśni, używa się różnych technik by osiągnąć podobne rezultaty. Niektórzy twórcy animacji dodają kości lub inne obiekty, które są kontrolowane przez oprogramowanie służące do przechwytywanie i poruszają nimi w odpowiedni sposób, co pomaga w uzyskaniu realistycznego efektu, gdy tylko postać jest dobrze przygotowana do obróbki. Z racji tego, że twarze są bardzo elastyczne, ta technika często mieszana jest z innymi, dostosowując właściwości tak by uzyskać określoną elastyczność skóry i inne czynniki zależnie od mimiki, którą chce się osiągnąć.

 

Zastosowanie

Wiele firm komercyjnych rozwija swoje produkty, które są używane, ale są bardzo drogie. Spodziewa się, że będzie to jedno z głównych urządzeń stosowanych przy produkcji gier komputerowych, tylko gdy oprogramowanie pojawi się w przystępnej cenowo formie. Jednak, jak na razie taki sprzęt i oprogramowanie jeszcze nie istnieją, chociaż trwające już od 15 lat badania nad produktem pozwoliły uzyskać wyniki, które są prawie w pełni nadające się do użytku.

 

This is sample popup;