Digitalização 3D de Faces a partir de Vídeos
============================================

.. figure::  images/Video3D_capa.jpg
 :align:   center


* **Cicero Moraes** *3D Designer, Arc-Team Brazil, Sinop-MT*
* **Rodrigo Dornelles** *Cirurgião Plástico, Núcleo de Plástica Avançada - NPA, São Paulo-SP*
* **Everton da Rosa** *Cirurgião BMF, Hospital de Base, Brasília-DF*

======= ======
**DOI** https://doi.org/10.6084/m9.figshare.14075456
======= ======

====

O presente capítulo tem por objetivo apresentar a alternativa de digitalizar faces a partir de vídeos, utilizando a fotogrametria no OrtogOnBlender.

.. important::

  Este material utiliza a seguinte licença Creative Commons: **Atribuição 4.0 Internacional (CC BY 4.0)**.

.. warning::

  Este capítulo é direcionado a usuários contumazes do OrtogOnBlender, de modo que não serão explanados conceitos básicos relacionados ao *add-on*, focando principalmente nos resultados dos experimentos.

------------
Apresentação
------------

O hábito de fotografar com dispositivos digitais se tornou bastante comum na última década graças a popularização dos *smartphones*. A digitalização 3D por fotografias, ou fotogrametria, permite que os usuários explorem esses equipamentos para gerar modelos de grande qualidade. No entanto, se por um lado a técnica é acessível por permitir a digitalização 3D com equipamentos que cabem no orçamento dos usuários, por outro cobra dos mesmos um tempo que muitos podem não contar para preparar o cenário e proceder com fotografias, principalmente os profissionais que necessitam digitalizar muitas faces de uma vez. Diante dessa demanda os usuários têm inquirido constantemente acerca da possibilidade de utilizarem vídeos no lugar de fotografias, posto que os primeiros demandam um tempo menor para a aquisição das imagens necessárias para proceder com a digitalização.

Sabe-se que sim, é possível utilizar vídeos no processo de fotogrametria e o motivo é muito claro, os vídeos são formados por quadros e os quadros podem ser convertidos em imagens que por sua vez são a base da fotogrametria. Mas o problema principal mora na qualidade dos quadros dos vídeos frente as fotografias, seja pela constante presença de quadros com borrão de movimento (*blur*) seja pelo formato do vídeo que, em grande parte ou é em HD ou em FullHD e ambos podem não ter qualidade suficiente para a digitalização 3D.

Felizmente os problemas supracitados podem ser resolvidos ou abrandados das seguintes formas:

* Para resolver o problema do *blur* basta mover a câmera lentamente ao capturar o objeto;

* Para resolver o problema da resolução, basta selecionar o formato 4K ou UHD (3840x2160px).

Com as bases do estudo definidas é possível iniciar o processo de captura e digitalização.

------------------
Captura dos Vídeos
------------------

.. figure::  images/Video3D_capturas.jpg
 :align:   center

 Esquema gráfico das capturas de vídeo utilizadas no capítulo.

Foram efetuadas três capturas de vídeo para os experimentos abordados no presente capítulo, todas elas envolveram o deslocamento em arco (Fig. 1, A) disponível amplamente na documentação do OrtogOnBlender em especial no **Protocolo de Fotogrametria da Face** :cite:`OOBFOTO2020`. Em duas capturas também executou-se a tomada fotográfica de modo a comparar a qualidade das imagens adquiridas por foto, face aquelas resultantes da conversão de quadros para imagens.

A primeira captura foi a mais simples e consistiu em percorrer o caminho do protocolo básico de 26 fotografias em duas alturas buscando a digitalização geral do rosto (Fig 1, B).

A segunda captura consistiu em percorrer o mesmo caminho que resultou na tomada de 63 fotografias (Fig. 1, C). Neste processo manteve-se as duas alturas gerais da face, complementando-as com uma captura mais próxima da região do nariz, algo muito compatível com o "Protocolo Face Duplo 90º + Nariz Duplo 170º" disponível no capítulo **Protocolo Complementar para Melhor Resolução do Nariz em Fotogrametria 3D** :cite:`OOBNARIZ2020`.

A última captura foi feita em três alturas (Fig. 1, D), desta vez apenas a versão em vídeo e embora o arco inicial tenha sido feito em uma altura maior a sequência assemelha-se muito ao "Protocolo Face Triplo 90º" disponível no capítulo citado no parágrafo anterior.

.. important::

  Em todas as capturas o dispositivo mantém-se direcionado para a face, como indicado nas setas. Os autores recomendam a leitura dos capítulos acima citados para que a compreensão acerca da técnica se faça mais clara para o usuário.

-------------------------------------------------
Ferramenta para a Conversão Direta de Vídeo em 3D
-------------------------------------------------

A partir da versão 2021-02-14 do OrtogOnBlender os usuários têm à sua disposição a ferramenta **Video to 3D**, presente na aba **Other**.

Segue o passo-a-passo do seu funcionamento:

.. figure::  images/Drone_GUI.png
 :align:   center

 Interface da ferramenta de digitalização 3D por vídeos.

#. Ao expandir a seção clique no ícone do diretório e selecione o arquivo desejado, o formato pode ser qualquer um que seja compatível com o FFMPEG, são eles: avi, mpeg, mpg, webm, etc. (Fig. 2);
#. Em **Nº of photos to use** informe o número de fotos que serão utilizados para a geração do modelo, lembrando que quanto maior o número, maior será o tempo necessário para o processo;
#. Para uma melhor resolução do modelo o usário é orientado a desselecionar a opção **Decrease picture size!** (por padrão vem selecionada) de modo a explorar mais a definição das imagens originais;
#. Depois de tudo definido basta clicar em **Convert Video to 3D!** e agardar até que a digitalização seja finalizada.

.. warning::

  Como se verá adiante, no caso da fotogrametria de faces o uso da imagem nas dimensões originais pode gerar modelos com irregularidades superficiais, de modo que a desseleção do **Decrease picture size!** é mais aconselhável na digitalização de objetos, construções, e afins, não em faces humanas. No entanto em último caso a forma da abordagem é uma escolha do usuário frente as suas necessidades.

----------
Resultados
----------

A digitalização dos modelos foram efetuadas em um computador de mesa munido de um processador Intel i9-9900K com 64 GB de memória RAM. Como o foco do experimento recaiu sobre a superfície e sabendo-se que o algoritmo padrão do OrtogOnBlender gera boas texturas, a avaliação e as imagens serão apresentadas no modo *solid* sem texturização, posto que a mesma costuma camuflar os defeitos gerados na malha.

Protocolo Padrão para Ortogonática
----------------------------------

.. figure::  images/Video3D_default.jpg
 :align:   center

 Comparação entre as digitalizações com o protocolo padrão de ortognática.

Visualmente a melhor digitalização foi aquela feita a partir das 26 fotografias (Fig. 3, C) sem redução, as linhas ficaram melhores, mais detalhadas e a superfície mais atenuada. Os detalhes das asas do nariz também evidenciaram-se melhor. A reconstrução que mais se assemelhou a supracitada em qualidade foi aquela feita a partir do vídeo com 100 imagens (Fig. 3, A).

.. tip::
  Para saber qual foi a fonte (vídeo ou foto) e o número de imagens usadas no processo veja o gráfico de tempo gerado a partir das digitalizações (Fig. 4) que conta com todos os dados compilados.

.. figure::  images/Video3D_Padrao.png
 :align:   center

 Gráfico do tempo em segundos de cada digitalização com o protocolo padrão de fotogrametria.

Analisando o tempo de cada digitalização fica claro que o critério de escolha é feito pelo usuário em face das suas necessidades e tempo para executá-las. A digitalização que apresentou melhores resultados, ou seja, a "C - Fotos sem redução (26)" (Fig. 4), levou 498 segundos para ser efetuada, já a segunda colocada em qualidade a "A - Vídeo sem redução (100)" levou 1793 segundos, uma diferença muito grande e com menos qualidade na digitalização. Se o usuário optar pela praticidade da captura e contar com tempo, a escolha pela abordagem A parece ser a mais coerente. Se o usuário precisa de praticidade e conta com pouco tempo, ele pode optar pelo vídeo com 26 imagens (E), posto que o mesmo apresentou resultado muito semelhante aquele gerado pelas fotografias com redução. No entanto, se a necessidade recair sobre a qualidade da malha e o tempo, a melhor opção será sem dúvida a C.

Pelas imagens ficou evidenciado que as digitalizações com redução de imagem comprometeram a reconstrução de algumas áreas como a asa do nariz. Isso não é um problema relevante a ponto de inviabilizar o modelo para o planejamento de cirurgia ortognática, mas pode ser um ponto crítico no planejamento de rinoplastia.

O problema pode estar mais relacionado ao protocolo de captura do que ao fato das imagens serem fotos ou vídeos, por conta disso é necessário analisar os outros experimentos, buscando assim uma melhor compreensão.

.. warning::

  Como se trata de uma abordagem experimental o uso do lápis de olho foi ampliado ao longo de toda a face, de modo a garantir a digitalização da região. Mais testes serão necessários para avaliar a qualidade da digitalização pontilhando apenas a região do nariz, como é feito nos protocolos apresentados no OrtogOnLineMag e na documentação oficial do OrtogOnBlender.

Protocolo Face Duplo 90º + Nariz Duplo 170º
-------------------------------------------

.. figure::  images/Video3D_63.jpg
 :align:   center

 Comparação entre as digitalizações com o protocolo padrão de ortognática.

Assim que a última faixa de digitalizações é visualizada na comparação de modelos (Fig. 5) já é possível verificar que o protocolo escolhido responde positivamente para a qualidade relacionada a regiões críticas como a do nariz, fazendo com que as digitalizações sem redução de imagens (A, B, C), gerem resultado muito semelhantes aquelas com redução (D,E), mas com a vantagem da segunda ser feita em um tempo significativamente reduzido. Fica clara então uma potencial vantagem de se utilizar a captura em vídeo, uma vez que a mesma é feita de modo mais rápido e prático que a fotografia e gera resultados muito semelhantes (D vs. E) aquela efetuada com fotografias quando a digitalização é feita a partir de imagens reduzidas. A fotogrametria gerada a partir de imagens reduzidas também resultam em modelos com a superfície mais atenuada do que a opção sem redução.

.. figure::  images/Video3D_Nariz.png
 :align:   center

 Gráfico do tempo em segundos de cada digitalização com o Protocolo Face Duplo 90º + Nariz Duplo 170º.

A análise do gráfico de tempo reforça a vantagem das digitalizações efetuadas a partir de imagens reduzidas gerando modelos de boa qualidade em um tempo duas ou três vezes menor (Fig. 6).

Protocolo Face Triplo 90º
-------------------------

.. figure::  images/Video3D_triplo.jpg
 :align:   center

 Comparação entre as digitalizações com o Protocolo Face Triplo 90º

Como abordado anteriormente esta digitalização foi feita apenas com vídeo, dispensando a esquivalente por fotos (Fig. 7). O comportamento do processo se repetiu e a digitalização com 100 tomadas e sem a dimunuição da imagem gerou um modelo com mais detalhes, porém com mais irregularidades ao longo da face (A), já o mesmo grupo de imagens (100) mas com redução, gerou um modelo com menos detalhes, mas sem as irregularidades da superfície. Mesmo assim os detalhes importantes como as asas do nariz estão presentes, o que faz o modelo potencialmente utilizável tanto para o planejamento de cirurgia ortognática, o que já era esperado, quanto para o planejamento de rinoplastia.

Por último é apresentado o modelo digitalizado a partir de 39 tomadas com redução de tamanho (C) e o resultado não se distancia dos outros dois, ainda que os detalhes não sejam tão marcados. A vantagem mais clara é a atenuação da superfície, com menos irregularidades ao mesmo tempo em que mantém os detalhes das asas do nariz.

.. figure::  images/Video3d_grafico_39.png
 :align:   center

 Gráfico do tempo em segundos de cada digitalização com o Protocolo Face Triplo 90º.

A vantagem do modelo C se evidencia ainda mais quando comparados os tempos de digitalização, posto que o modelo resultante de 39 tomadas foi gerado em um tempo 2,93x mais rápido que o modelo B e 6,85x mais rápido que o modelo A!

---------
Conclusão
---------

Os experimentos mostraram que é possível digitalizar uma face a partir de um vídeo gravado em 4K. Os modelos gerados por imagens reduzidas foram os resultados com melhor custo/benefício, posto que geraram superfícies 3D atenuadas ao passo que conservavam os detalhes mais complexos do rosto.

As limitações deste experimento moram no reduzido número de digitalizações e no elevado zelo relacionado a segurança da captura, traduzido no incremento de pontos faciais que auxiliam o algoritmo de fotogrametria no reconhecimento de padrões nas imagens. Mais testes com mais indivíduos e com menos pontos faciais serão necessários para que a viabilização no uso prático seja implementada.


.. bibliography:: video3d_references.bib
 :cited: