RECONHECIMENTO - Investigador da UC vence Prémio "Melhor Tese de Doutoramento" com estudo na área de "machine learning" - PENACOVA ACTUAL
PUB

ÚLTIMAS

PUB

Post Top Ad

29 de setembro de 2017

RECONHECIMENTO - Investigador da UC vence Prémio "Melhor Tese de Doutoramento" com estudo na área de "machine learning"


Um estudo, desenvolvido pelo investigador Filipe Rodrigues, no Departamento de Engenharia Informática da Faculdade de Ciências e Tecnologia da Universidade de Coimbra (FCTUC), venceu o prémio “Melhor Tese de Doutoramento”, atribuído pela Associação Portuguesa de Reconhecimento de Padrões (APRP).

Intitulada “Probabilistic Models for Learning from Crowdsourced Data”, a tese, que também recebeu uma menção honrosa da Associação Portuguesa para a Inteligência Artificial (APPIA), foi orientada pelos docentes Francisco Câmara Pereira e Bernardete Ribeiro.

O estudo propõe um conjunto de modelos probabilísticos para aprendizagem a partir de dados gerados pela multidão (crowd). Este tipo de dados tem vindo a alterar a forma como muitos problemas de aprendizagem de máquina (machine learning, uma subárea da inteligência artificial) são abordados em diferentes áreas do domínio científico, tais como o processamento de linguagem natural, a visão computacional e a música.

Durante os últimos anos, explica Bernardete Ribeiro, «têm-se verificado grandes desenvolvimentos na área de "machine learning", permitindo ter, hoje em dia, sistemas inteligentes capazes de reconhecer a nossa voz e responder a perguntas, traduzir textos de forma automática, conduzir veículos de forma autónoma, etc. Por detrás deste recente progresso estão contribuições ao nível da teoria e novos algoritmos de aprendizagem, bem como a crescente disponibilidade de dados - vulgarmente designados de "Big Data". Contudo, o sucesso dos algoritmos de machine learning está frequentemente dependente da disponibilidade de grandes volumes de exemplos etiquetados».

Para se perceber melhor, a docente e investigadora da FCTUC exemplifica com um cenário: «imaginemos que queremos desenvolver um sistema capaz de distinguir imagens de peões de imagens de automóveis. Para isso é necessária a criação de um conjunto de dados etiquetados com centenas, ou idealmente milhares ou milhões, de exemplos de imagens de peões e imagens de automóveis».

Tipicamente, as grandes dimensões destes conjuntos de dados tornam impraticável o recurso à etiquetagem manual dos dados por um único anotador, sendo por isso prática comum o recurso a plataformas de "crowdsourcing", como por exemplo a Amazon Mechanical Turk (AMT). No entanto, os diferentes vieses e níveis de perícia individual dos diversos anotadores que colaboram nestas plataformas tornam necessário o desenvolvimento de abordagens específicas e direcionadas para este tipo de dados multi-anotador.

Considerando «o problema da heterogeneidade dos anotadores, na tese são propostos modelos probabilísticos capazes de diferenciar, de forma automática e totalmente não-supervisionada, os anotadores confiáveis dos menos confiáveis ou até identificar anotadores cujas respostas são dadas de forma aleatória ou pouco premeditada», sublinha Bernardete Ribeiro.

Na segunda parte da tese, são usados dados gerados pela crowd como entradas adicionais de forma a melhorar modelos de machine learning. Nomeadamente, é considerado o problema de compreender a procura em sistemas de transportes na presença de eventos, tais como concertos, eventos desportivos ou festivais.

Com os modelos propostos é possível «descobrir, por exemplo, que das 5000 pessoas que viajaram para uma dada zona da cidade a uma dada hora, existem 3000 pessoas acima do expectável em condições normais, e que dessas 3000 pessoas, 2500 dirigiram-se a um concerto de música Pop e as restantes 500 a uma peça de teatro. Tendo em conta o poder disruptivo de certos eventos ou combinações de eventos, é fundamental ter em conta o seu impacto nas previsões da procura de transportes bem como compreender o seu papel na maneira como as pessoas se deslocam em espaços urbanos», conclui a docente e investigadora.

Post Top Ad