Startups de IA: Dados Próprios Otimizam Modelos e Concorrência

Blog
Artigos Relacionados

📚 Continue Lendo

Mais artigos do nosso blog

A forma como startups de IA abordam o treinamento de seus complexos modelos de inteligência artificial está passando por uma significativa reorientação. Em vez de depender exclusivamente de grandes volumes de dados amplamente disponíveis ou de equipes externas com pouca remuneração para anotações, as empresas inovadoras estão cada vez mais optando por assumir diretamente a responsabilidade pela coleta e curadoria de seus conjuntos de dados. Este movimento visa não apenas garantir uma qualidade superior, mas também forjar uma vantagem competitiva sustentável no dinâmico mercado de tecnologia.

Um exemplo notável dessa tendência é o trabalho de indivíduos como Taylor, uma colaboradora independente contratada pela Turing Labs, uma empresa de IA. Durante o verão, Taylor e sua colega de quarto passaram uma semana usando câmeras GoPro fixadas em suas testas. A rotina diária envolvia registrar meticulosamente suas atividades domésticas e artísticas — pintando, esculpindo e executando tarefas como preparar o café da manhã e lavar louças. O propósito dessa minuciosa gravação era treinar um modelo de visão de inteligência artificial, que demandava a sincronização cuidadosa das imagens para capturar múltiplos ângulos do mesmo comportamento. Embora a tarefa fosse fisicamente exaustiva e ocasionalmente causasse dores de cabeça, Taylor recebia uma remuneração que lhe permitia dedicar grande parte do seu dia à produção artística. Ela mencionou que o ritmo de sete horas diárias de trabalho era necessário para cumprir a meta de cinco horas de filmagem sincronizada, garantindo tempo para pausas e recuperação.

Startups de IA: Dados Próprios Otimizam Modelos e Concorrência

O foco da Turing Labs, que conectou Taylor à reportagem, não se limitava a ensinar o algoritmo a pintar, mas a desenvolver capacidades abstratas relacionadas à resolução sequencial de problemas e ao raciocínio visual. Diferente dos modelos de linguagem extensos, o modelo de visão da Turing seria integralmente treinado por meio de vídeo. Grande parte desse material seria recolhida internamente pela própria companhia. Para diversificar seus conjuntos de dados e alcançar um treinamento robusto, a Turing não se limita a artistas; a empresa também emprega cozinheiros, trabalhadores da construção civil e eletricistas – profissionais que utilizam suas mãos no cotidiano. Sudarshan Sivaraman, Chief AGI Officer da Turing, enfatizou à TechCrunch que essa coleta manual é o único caminho para obter um conjunto de dados suficientemente variado. Ele ressaltou a importância dessa diversidade durante a fase de pré-treinamento, permitindo que os modelos compreendam como diversas tarefas são executadas após a captação dessas informações.

Essa metodologia reflete uma transição em larga escala no setor de inteligência artificial. Historicamente, conjuntos de treinamento eram frequentemente obtidos de forma irrestrita da internet ou através de anotações realizadas por profissionais com baixíssima remuneração. Contudo, atualmente, as empresas de IA estão direcionando investimentos consideráveis para adquirir dados meticulosamente curados e de alta qualidade. Com a já comprovada capacidade computacional dos sistemas de IA, o próximo patamar de diferencial competitivo está sendo alcançado através da posse e desenvolvimento de dados proprietários para treinamento. Conforme este paradigma evolui, as organizações estão frequentemente abandonando a terceirização e internalizando as operações de coleta de dados. Este movimento representa uma maturidade na compreensão do valor intrínseco e estratégico que dados bem gerenciados possuem para o avanço da tecnologia e performance dos modelos.

A Fyxer, uma startup focada em soluções de e-mail que emprega inteligência artificial para categorizar mensagens e redigir respostas, exemplifica esta nova diretriz estratégica. Após os testes iniciais, o fundador Richard Hollingsworth constatou que a estratégia mais eficaz consistia em empregar um conjunto de pequenos modelos, cada um alimentado com dados de treinamento altamente segmentados e específicos. Embora a Fyxer opere sobre uma fundação de modelo externo, diferente da abordagem de dados puros da Turing, a percepção fundamental que guia ambas as empresas permanece a mesma. Hollingsworth declarou que a qualidade dos dados, e não a quantidade, é o fator determinante do desempenho dos modelos, uma máxima que tem revolucionado as práticas de treinamento na vanguarda da IA moderna.

Na prática, essa revelação levou a Fyxer a tomar decisões incomuns em relação ao seu quadro de pessoal. Em seus primeiros dias, a equipe de engenheiros e gerentes da empresa chegava a ser superada em número, numa proporção de quatro para um, por assistentes executivos especializados, essenciais para o treinamento inicial do modelo. A necessidade de focar nas nuances das interações por e-mail, como decidir se uma mensagem exigia ou não uma resposta, transformou o processo em um problema essencialmente centrado no discernimento humano. “É um problema muito orientado a pessoas. Encontrar grandes pessoas é muito difícil”, explicou Hollingsworth, sublinhando a dificuldade e a importância de identificar especialistas com experiência para guiar o aprendizado da IA em contextos que exigem compreensão social e pragmatismo comunicativo. É possível aprofundar a compreensão sobre definições de inteligência artificial em fontes confiáveis para entender melhor este complexo cenário. Este conteúdo da IBM oferece uma excelente visão geral do campo da IA.

Startups de IA: Dados Próprios Otimizam Modelos e Concorrência - Imagem do artigo original

Imagem: Getty via techcrunch.com

Embora a velocidade de aquisição de dados pela Fyxer jamais tenha diminuído, Hollingsworth tornou-se progressivamente mais criterioso quanto à seleção dos conjuntos de dados. Ele passou a preferir grupos menores e mais rigorosamente curados para as fases de pós-treinamento, reforçando sua convicção de que “a qualidade dos dados, não a quantidade, é o que realmente define o desempenho”. Essa priorização da precisão e relevância em detrimento do volume bruto tem sido fundamental para aprimorar a performance e a eficiência dos modelos de inteligência artificial, resultando em respostas mais contextuais e precisas na gestão de e-mails, consolidando o diferencial competitivo da empresa no segmento.

Esta abordagem ganha especial relevância quando se utilizam dados sintéticos. A ampliação do escopo de possíveis cenários de treinamento por meio de dados sintéticos também potencializa a magnitude de quaisquer imperfeições presentes no conjunto de dados original. No âmbito dos modelos de visão, a Turing estima que aproximadamente 75 a 80 por cento de seus dados são sintéticos, gerados por extrapolação dos vídeos originais gravados com câmeras GoPro. Essa constatação acentua a vital importância de manter a qualidade máxima do conjunto de dados inicial. Sudarshan Sivaraman advertiu que “se os próprios dados de pré-treinamento não são de boa qualidade, então tudo o que se faz com dados sintéticos também não será de boa qualidade”, destacando que a fundação da inteligência artificial deve ser sólida e precisa para que as construções derivadas sejam igualmente confiáveis.

Além das considerações sobre a qualidade, uma lógica de competição robusta motiva a internalização da coleta de dados. Para a Fyxer, o árduo esforço despendido na obtenção de dados atua como um dos mais potentes “fossos” — barreiras estratégicas — que a empresa possui contra seus rivais de mercado. Conforme a perspectiva de Hollingsworth, qualquer concorrente é capaz de integrar um modelo de código aberto em seu produto. No entanto, a verdadeira dificuldade e o diferencial residem na capacidade de identificar e contratar anotadores especializados para treinar esse modelo e transformá-lo em um produto funcional e eficaz. Ele reitera a crença da Fyxer: “Acreditamos que a melhor maneira de fazer isso é por meio de dados, construindo modelos personalizados, através de um treinamento de dados de alta qualidade, liderado por humanos”. Essa filosofia destaca que o capital humano especializado e a curadoria meticulosa de dados são, em última instância, os pilares da inovação sustentável em inteligência artificial.

Confira também: crédito imobiliário

Em suma, a transição para a coleta e curadoria de dados proprietários pelas startups de IA marca uma evolução crítica na busca por eficiência e distinção no desenvolvimento de modelos de inteligência artificial. Empresas como Turing Labs e Fyxer demonstram que o investimento na qualidade dos dados, priorizando a precisão humana e a especificidade contextual, é a chave para o avanço da IA e a construção de vantagens competitivas duradouras. Convidamos você a explorar mais sobre o impacto das novas tecnologias e estratégias de mercado em nossa editoria de Análises para se manter atualizado sobre as tendências do setor. Fique atento às nossas próximas publicações!

Crédito da imagem: Russell Brandom / TechCrunch


Links Externos

🔗 Links Úteis

Recursos externos recomendados

Deixe um comentário