Estudou línguas e engenharia, deu aulas e fez investigação, até que surgiu uma proposta irrecusável da Microsoft. Alguns anos depois, após passagens pela China e pelos EUA, a sua DefinedCrowd tem tecnologia relacionada com texto e voz que serve os gigantes tecnológicos do planeta. Daniela Braga é a mulher do leme.
Nasceu no Porto há 40 anos, chama-se Daniela Braga e a sua história profissional e de vida é feita de coincidências e de muito talento. A empreendedora começou na linguística, por sorte passou para a engenharia e juntou tudo numa empresa que é uma mais desejáveis da atualidade, na cada vez mais relevante área do reconhecimento de voz, texto e imagem.
Para o futuro da sua startup de análise de dados, que tem “algumas caraterísticas únicas a nível mundial” em inteligência artificial, além de duplicar a sua equipa – serão 150 durante este ano -, espera ter novo investimento de 30 milhões de dólares “em breve”. Admite ainda que os próximos passos podem passar por serem comprados por um dos muitos gigantes tecnológicos que já servem. Isso ou um IPO (oferta pública inicial), já que: “falhanço não está no meu dicionário”. Microsoft, Google, Amazon, Sony, IBM, Mastercard, são apenas alguns dos clientes. Mas há muito que não pode descortinar, por acordos de confidencialidade assinados.
O objetivo desta mãe, que vive em Seattle “por ser lá que os principais negócios acontecem” e lidera uma empresa com 100 pessoas com escritórios em três continentes – Seattle, Porto, Lisboa e Tóquio) é poder contribuir para que “possamos falar e ser compreendidos por qualquer máquina, tal como se estivéssemos a conversar com outro ser humano”.
Daniela Braga conta-nos como perdeu a paciência com a Microsoft de Steve Ballmer e, aos 37 anos, decidiu criar a sua própria empresa. Dela viu sair, passados poucos meses, os seus co-fundadores. Antes sozinha do que mal acompanhada. Depressa chegou o interesse dos maiores gigantes do planeta e investimentos relevantes que a fazem ser a felicidade em pessoa, de sorriso em sorriso.
Uma certa obra do acaso levou-a a trabalhar na faculdade de engenharia do Porto, após um curso em Línguas e Literaturas Modernas. Isso, associado à pressão de arranjar soluções, sob pena de não ter emprego passado um ano, levaram Daniela Braga a fazer a diferença e a distinguir-se, primeiro a nível europeu, depois a nível mundial.
Segue-se a entrevista, feita no meio de uma loucura de contactos em plena Mobile World Congress, em Barcelona.
Neste momento quais são os clientes e parceiros mais relevantes que tem. IBM, Amazon, mas também Microsoft e Mastercard, certo?
Sim, mas essas são mais parcerias comerciais em que acabamos por fornecer-lhe a parte de training data [é o material usado para que os computadores aprendam como processar a informação]. Mas também estamos a começar outra linha de parceiros além desses, com outro tipo de trabalho, algum do qual não posso ainda revelar.
Leia também | Microsoft a ajudar China em inteligência artificial faz soar alarmes
Por exemplo, o que fazem para a IBM, trabalham com o projeto mundial de inteligência artificial Watson, certo?
Sim, com a IBM, é uma combinação de integração com o produto, o Watson Studio. O nosso serviço está integrado na experiência de utilizador. Disponibilizamos ciência dos dados (data science) para o treino de um modelo de análise de sentimentos (sentiment analytics). Mas também fazemos com eles o chamado co-sell [um modelo de venda conjunta de uma solução tecnológica], que é a mesma coisa que fazemos com a Microsoft. Ou seja, nós vamos juntos com estas empresas ao mercado. Tanto a IBM como a Microsoft têm os clientes deles, uma rede maravilhosa (com as 500 maiores empresas do mundo). Nós ajudamos a fortalecer a tecnologia que eles têm na parte de serviços cognitivos, de aplicações de voz, de visão e de texto, de processamento de linguagem natural. Acabamos por entrar com a dimensão de training data, para personalizar esses produtos para uma seguradora, um banco, uma empresa de aviação, etc.
E com a Mastercard?
Na Mastercard é diferente porque eles têm todo um outro universo, trabalham com os mercados e os bancários e estão na rota das soluções de voz. Cerca de 30% das casas nos EUA já possuem colunas com assistentes digitais, em que podemos falar com eles. No mundo em desenvolvimento, que é o da Mastercard, há muitas pessoas com dificuldades com a escrita e, imagine o que é fazer um pagamento com o telefone só com comandos de voz – mas em segurança, tem de haver todo o um lado de biometria que tem de ser assegurado.
Já a Amazon é vossa investidora?
Sim, são nossos investidores, clientes e parceiros. Têm vários produtos em que trabalhamos diretamente com cada área e estamos integrados nos Alexa Skills Developers [rede de programadores parceiros]. Somos a única empresa que faz mesmo training data e os testes das aptidões, que depois qualquer pessoa pode desenvolver no mundo Alexa. E vêm aí uns produtos novos de machine learning que eles lançaram dentro do sistema AWS [sistema de cloud da Amazon], também por voz. É curioso ver que todos eles estão a concorrer uns com os outros na área de serviços em cima da cloud com o objetivo de manter os clientes lá presos no seu ecossistema.
Nós somos realmente a única empresa no mundo que dá garantia de qualidade
O que distingue em concreto a empresa, a nível tecnológico? O que fazem para ajudar todas estas empresas a funcionar melhor nesta área da voz?
Nós somos realmente a única empresa no mundo que dá garantia de qualidade com KPI Key Performance Indicator (indicador-chave de desempenho) claros, indicadores de performance, neste caso em dados. Nós somos a única empresa que está, não só a assegurar qualidade, com métricas certas, mas também com qualidade equivalente em 50 línguas e 70 países (depois há variantes das línguas dentro de alguns países). O nosso molho secreto é precisamente a forma como combinamos crowdsourcing [fonte de informação proveniente de muitos indivíduos] com machine learning [aprendizagem das máquinas]. Isso é algo que nem os nossos clientes nem os nossos concorrentes conseguem fazer bem. É uma área muito interdisciplinar e, depois, de escala. Portanto, para fazer isto bem feito, assegurando 95% de qualidade ou superior, em 70 tipos de dados, até agora não apareceu ninguém a fazer isso, como nós temos feito.
E como conseguem chegar lá, também tem que ver com talento?
É um produto especial. Eu entro agora nos escritórios de muitos clientes e todos me dizem: “então és tu que inventaste este sistema”. Sim, é verdade, inventei este sistema, mas o diabo está nos detalhes. A execução envolve uma multidisciplinariedade que muito poucas empresas conseguem juntar. Porque é uma mistura de matemática, estatística, linguística, capacidade computacional, ciência de computadores, depois vem todo o lado de gestão de comunidades e de diferenças culturais, tipos de pagamento, segurança, encriptação, fraude e ainda design. Há todo o um lado de experiência do utilizador que faz a diferença. São tantas áreas misturadas, que não há muitos que consigam lá chegar com bons resultados.
O nosso molho secreto é precisamente a forma como combinamos crowdsourcing [fonte de informação proveniente de muitos indivíduos] com machine learning [aprendizagem das máquinas]
E como é que chegou a este sistema?
Já ando nesta vida há duas décadas. Tudo começou com o meu início em linguística. O meu contexto é muito multidisciplinar, o que me tem ajudado. Tirei Línguas e Literaturas Modernas e Estudos Portugueses, na Faculdade de Letras da Universidade do Porto. Como é que se vai daqui para onde estou? Comecei logo a seguir ao curso a trabalhar na faculdade de engenharia. Ninguém faz isso na minha área.
Mas porquê?
Porque eu queria ir para o ramo científico e não ser professora de português, mas não havia saídas nessa área em investigação. Na mesma altura estava a começar na universidade de engenharia do Porto um projeto relacionado com uma bolsa que tinham recebido, para desenvolver um sistema de síntese de voz para cegos. Era uma terrível voz sintética, mas várias universidades na Europa estavam a seguir essa tendência para a qual tentavam trazer linguistas para as equipas. Eu basicamente fiquei com o lugar porque não havia mais ninguém disponível da área de línguas e com vontade de fazer investigação. Saíam 40 pessoas por ano do meu curso, mas era uma tristeza, iam todos dar aulas de português para o Secundário. E eu entro naquele teste na universidade e dizem-me logo: “Daniela, eles andam a contratar lá fora linguistas, descubra o que pode fazer por nós e como podemos fazer a diferença, senão não tem emprego daqui a um ano”. E foi assim que tudo começou a minha vida nesta área, até porque comecei a ter bons resultados tudo. Estive seis anos na academia, a ensinar linguística e linguística aplicada e a dar aulas em várias instituições – Universidade do Porto, do Minho e da Corunha – e a ainda a fazer investigação. Fiz doutoramento em Tecnologias de Voz.
Esse doutoramento foi onde e com que idade?
Foi em Espanha, na Corunha, e tinha 25 anos. Fiz um doutoramento que era já europeu numa parceria com a Universidade Federal do Rio de Janeiro, Universidade do Minho, entre outras instituições. O meu objetivo era terminar o mais cedo possível. Tirei antes do prazo, antes dos 30, que era o que queria. Mas, curiosamente, a Microsoft descobriu-me e fez-me uma oferta irrecusável para sair da academia, quando ainda quando estava a terminar o doutoramento. Eu achava que a minha vida ia ser investigação em engenharia e aulas no ensino superior. A minha vida era engenharia computacional, engenharia da voz e da fala.
Quem é que lhe fez a proposta para a Microsoft?
Foi o Miguel Sales Dias, que geria um centro que a Microsoft tinha aberto em Portugal em 2005 – só me doutorei em 2008. Eu estava na minha vida académica e a Microsoft faz-me uma oferta irrecusável e andaram atrás de mim durante três meses. Convencem-me e trazem-me para Lisboa e não era só investigação, era mesmo já trabalho em produtos. A proposta irrecusável foi ‘não só te pagamos o dobro que te estão a pagar, como nunca mais te tens de preocupar em procurar fundos para os teus projetos’. E, realmente, eu tinha todo o dinheiro do mundo para gerir produtos em 50 línguas para a Microsoft. Em pouco tempo estava a ter outras propostas dentro da empresa. Depois de Portugal fui para a China. Trabalhei lá um ano, mas durante quatro anos antes passei lá vários meses, porque tinham lá a área do meu doutoramento. O grupo da China fazia o text to speech (texto para voz), que era a minha especialidade, e fazíamos 10 línguas para o Windows. Fui para lá liderar a equipa. Mal chego lá, três meses depois, a Leadership Team (equipa de liderança) vai lá e pergunta-me: “o que é que estás aqui a fazer, temos de te levar para os EUA”. Tiraram-me de lá e vou para a sede, em Seattle, em 2012. Um ano depois despedi-me da Microsoft.
Foram os últimos meses de Steve Ballmer e já não tinha paciência para aquilo. Falta de direção, tínhamos perdido a inovação em voz e queria estar na crista de onda
E porquê a decisão de sair? Foram os tempos do Steve Ballmer como CEO…
Foi um momento político da Microsoft que não me estava a agradar, com o Steve Ballmer a liderar. Foram os últimos meses dele e já não tinha paciência para aquilo. Falta de direção, tínhamos perdido a inovação em voz e queria estar na crista de onda e já não estávamos porque só se estava a resolver questões políticas na empresa. Então despedi-me.
Então criou a DefinedCrowd para explorar a área da voz nos seus termos…
Exatamente, mas eu não fui logo. Ainda fui durante dois anos para outra empresa em Seattle, onde aprendi tudo aquilo que não devia fazer numa empresa e isso até me ajudou, ironia do destino, a montar a minha empresa em 2015. Gostei da experiência, porque aprendi que numa empresa mais pequena tinha de sobreviver de forma diferente, já sem os milhões da Microsoft – lá corra bem ou não o produto os milhões não se esgotam. Na tal empresa, se algo não corresse bem ficavamos todos mal, e essa chamada de atenção foi importante. Aprendi muito com os donos dessa empresa. Montei uma equipa de 15 pessoas que reportavam a mim e fui a diretora de data science daquela empresa. Chama-se Voice Box e foi vendida mais tarde à Nuance [gigante tecnológico], que até é um dos nossos clientes. Todos os grandes nesta área são nossos clientes. Não posso é falar de todos…
O que ajudou a DefinedCrowd no início foi um investimento da Microsoft?
Antes disso ainda houve algumas peripécias. O que nos deu força no início foram 200 mil dólares que recebemos de uns angel investors (investidores de fase inicial de empresas). Ainda não tínhamos sequer um MVP (produto com viabilidade mínima) e deram-nos o alento que precisávamos, acreditaram na minha visão. Antes disso, eu tentei esse MVP para mostrar uma espécie de prova de conceito, mas não correu bem porque dois dos primeiros fundadores da empresa deixaram-me ficar mal, nem sequer chegaram à constituição oficial da empresa e saíram – um deles era português. Fundei depois a empresa com outro co-fundador, que saiu logo a seguir, não durou sequer nove meses – as coisas também não correram bem aí – mas depois correram sempre bem, curiosamente.
Qual foi a cronologia da empresa?
Foi em junho de 2015 que nos deram o tal cheque de 200 mil. Em agosto incorporei a empresa no Delaware. Em setembro estava em Lisboa a falar com o João Vasconcelos e a dizer-lhe que queria ir para a Startup de Lisboa, senão houvesse espaço ia para Londres. E ele deu-me o OK e deu-me logo espaço. Na altura já tinha os 200 mil dólares e já tinha o nosso CTO, o João Freitas – que tirei da Microsoft com a promessa que esta empresa ia ser algo grande. Foi o João que nos conseguiu o MVP para depois irmos ao júri de um acelerador da Microsoft. Foi tudo muito rápido. Estavam lá empresas fortes em inteligência artificial vindas de todo o lado, todas com dois anos, e só entravam 2%, e nós só tínhamos quatro meses e… entrámos no programa.
Neste momento a Microsoft adora-nos e usa-nos muito no chamado co-sell. Mas tenho de admitir: todos os vários parceiros adoram-nos, da IBM à Microsoft, etc. A Sony é que liderou a nossa primeira ronda de investimento, em 2016, com 1,6 milhões de dólares e está no nosso conselho de administração. E, agora, já em 2019 foram 12,8 milhões com dois sócios de capital (equity partners).
Quem são os maiores investidores?
O principal investidor da Série A é o que tem mais valor de financiamento e, agora, são os vários VC, venture capitalists. Temos a Portugal Ventures, o fundo norte-americano de capital de risco Alexa Fund ou a MasterCard, por exemplo. Os investidores iniciais entraram com pouco dinheiro e têm muita percentagem da empresa (não posso revelar qual). Agora é preciso investir muito mais dinheiro porque a empresa vale cada vez mais. No total já foram investidos 13,2 milhões de dólares.
E há o objetivo de novos investimentos em breve?
Sim, sem dúvida. Estou a pensar levantar 30 milhões de dólares ou este ano, ou em janeiro de 2020. E há mesmo muitos interessados. Nesse aspeto não temos nenhum problema.
E qual o próximo objetivo para a empresa? Pode ser comprada por um dos gigantes que já serve, não?
Sim, claro, pode muito bem ser comprada. Pode ir a IPO, tornar-se pública e, para mim, só há essas duas hipóteses porque falhanço não está no meu dicionário.
Leia também | Mesmo sob pressão, Huawei cresce no 5G. Só na Europa já existem 23 contratos
Têm várias parcerias com a Amazon e a Alexa. Isso quer dizer que a Google não está nos planos?
A Google é um dos nossos clientes. São todos eles, todos os gigantes nesta área.
O que fazem para a Google?
No caso da Google não é tanto os testes, é mais o chamado training data para NLP (processamento natural da linguagem), ou seja, é para melhorar os serviços cognitivos dos sistemas de voz. Não é tanto na pesquisa, mas é mais nos serviços que têm de análises de texto e análise de sentimentos e tradução também, mas na Google não estamos tanto nessa área.
Usam o vosso serviço, como o de outras empresas, para melhorar os seus processos e os controlos de voz que vemos na Google Assistant por exemplo…
Sim, melhorar os modelos de inteligência artificial deles. Para tornar a perceção dos sistemas mais correta e próxima de uma conversa humana. Mas não posso entrar em muitos mais detalhes sobre nenhuma destas grandes empresas, estamos bloqueados com acordos de confidencialidade, mesmo em relação a serviços que se pretendem lançar. Posso dizer que fazemos coisas semelhantes para todos eles, porque estas grandes empresas têm todas serviços concorrentes. E nós ajudamos nessa na parte das línguas, da expansão linguística e nem é assim tanto na tradução, que não é o nosso principal foco, é na voz.
É interpretar bem as línguas para que o sistema reconheça aquilo que está a ser dito por um ser humano?
Sim, exatamente. É entender semântica e ir para lá da própria semântica e entender contexto e as aplicações em produtos que se podem fazer, tanto na voz como no texto.
O Google Duplex tem esse tipo de sistemas…
Sim, estes e outros, porque nós não estamos sozinhos e a Google anda nisto há 10 anos. Nós somos recentes. Estamos até a entrar em novos produtos de ponta que eles estão a lançar, mas que não posso revelar…
É uma área que ainda a entusiasma e com um futuro impressionante, não?
Claro, esta área de voz, texto e visão vale para já 190 mil milhões de dólares no mercado e tem um potencial ilimitado.
O que é que nos próximos cinco anos pode mudar nesta área para o utilizador comum?
A interação por voz feita com todas máquinas e com várias aplicações possíveis. É isso que vai acontecer. Ou seja, poderemos falar com qualquer máquina como se estivéssemos a falar com uma pessoa e o sistema vai reconhecer e perceber tudo o que é dito e agir consoante o pedido feito. A interação com máquinas vai ser igual à interação entre humanos. Vai ser incrível e cria algumas questões éticas, mas isso é tema para toda uma outra conversa.
E isso também não é bem a vossa parte…
Não é bem a nossa parte, mas eu tenho sempre alguma responsabilidade ética. A verdade é que nós, como os nossos clientes, estamos todos com boas intenções no chamado AI for good (inteligência artificial para o bem), mas também pode ser algo muito mal usado e levanta várias questões.
Para fazer a diferença, custa muito contratar talento hoje em dia?
Todo o talento é difícil de contratar, porque é o que faz a diferença. E nós também sentimos isso, mas temos tido sorte.
A empresa tem crescido muito em número de pessoas? Mais portugueses?
Sim. Em janeiro de 2018 éramos 20, em janeiro deste ano já éramos 75, já vamos em 100 e vamos ter 150 durante 2019. Estamos a contratar. O lobby português, como eu costumo dizer, é o maior. Temos escritório no Porto e agora mudámos de escritório em Lisboa, para um com mil m2. Temos outro em Seattle, onde também já estamos a tomar conta do edifício todo e temos um em Tóquio. O próximo é na Índia. Em Lisboa é onde temos mais pessoas, a maioria engenheiros e pessoas ligadas ao produto.