Autores

Joydeep Dey
Head of Data Enablement

A importância da qualidade dos dados para o sucesso da IA

A IA generativa apresentou uma ascensão meteórica nos últimos doze meses. Desde o lançamento do modelo de linguagem alimentado por IA ChatGPT, em novembro de 2022, as visitas mensais ao site têm alcançado 1,5 bilhão. As empresas do setor financeiro perceberam isso, e a IA rapidamente se tornou a nova fronteira para o investimento em private equity. No segundo trimestre de 2023, o financiamento de private equity em startups de IA generativa superou US$ 14,1 bilhões, US$ 11,6 bilhões a mais do que em 2022.

Evidentemente, a IA veio para ficar. No entanto, um dos principais debates que surgem é a qualidade dos dados e como isso alimenta os resultados gerados pela IA. Esta não é uma preocupação nova. Em 2018, a ferramenta de recrutamento de IA da Amazon mostrou preconceito contra as mulheres. Devido a conjuntos de dados limitados baseados em currículos predominantemente masculinos, a ferramenta rebaixou os aplicativos com a palavra ‘mulheres’.

Muito já foi dito sobre como a qualidade dos dados pode influenciar os resultados da IA generativa. Mas como os desenvolvedores podem garantir que estão usando os melhores dados de treinamento para criar um modelo de IA eficaz?

Enfrentando os desafios da IA: mitigando vieses para uma transformação positiva

Não há como negar que a IA está transformando muitas áreas da sociedade para melhor. Os resultados preliminares do uso de IA no rastreamento do câncer de mama indicaram uma redução de quase metade da carga de trabalho humana. No entanto, os vieses que podem acompanhar as ferramentas de IA no recrutamento, RH ou policiamento são uma perspectiva preocupante a ser abordada.

Para a grande maioria das empresas, o foco precisa ser tomar medidas práticas nos estágios iniciais da implantação de IA para mitigar quaisquer discrepâncias. Os algoritmos de IA ditam os resultados desses modelos, permitindo que eles executem tarefas em um ritmo mais rápido e eficiente.

Um exemplo recente da Octopus Energy mostra o potencial da IA no suporte ao cliente. Os e-mails automatizados por IA alcançaram uma taxa de satisfação do cliente de 80%, 15% maior do que pessoas qualificadas e treinadas. Esses algoritmos permitem que os modelos aprendam, analisem dados e tomem decisões com base nesse conhecimento. Mas a IA em tempo real exige grandes quantidades de dados, sendo crucial obter e usar dados de maneira ética.

Começar com dados de várias fontes, e garantir que sejam representativos de toda a população, ajudará a mitigar possíveis vieses e imprecisões que podem surgir no caso de um subconjunto restrito de dados. Criar equipes de engenharia de dados diversificadas para IA e aprendizado de máquina, que reflitam as pessoas que usam e são impactadas pelo algoritmo, também ajudará a diminuir esses vieses ao longo do tempo.

Contabilizar vieses no nível de dados pode ser mais difícil, especialmente para algoritmos de aprendizagem não supervisionados. Quaisquer falhas no conjunto de dados original se manifestarão nos modelos gerados. Portanto, projetar as ferramentas para filtrar vieses pode reduzir a qualidade do modelo. É aqui que estão a ser desenvolvidas abordagens prontas para os conjuntos de regras para obter melhores resultados.

IA e o futuro da análise de dados

Os métodos convencionais de fornecimento de dados, como a rotulagem de dados, em que descrições ou marcadores claros são adicionados para categorizar grandes conjuntos de dados, baseiam-se em práticas bem estabelecidas. Ele pode ajudar a fornecer resultados confiáveis se a qualidade dos dados for alta. No entanto, dados pobres propagarão vieses, e esses métodos estabelecidos muitas vezes podem ser difíceis de romper. Para isso, no último ano, mais e mais empresas de tecnologia estão se afastando disso, usando grandes modelos de linguagem (LLMs – Large Language Models) para iniciar o processo de análise de dados.

LLMs são um tipo de algoritmo de IA que usa aprendizado profundo para classificar e categorizar grandes conjuntos de dados para maior eficiência e velocidade em sua operação. Por meio de seus recursos de compreensão e geração de linguagem, os LLMs podem detectar possíveis discrepâncias nos dados que podem propagar resultados de viés. As plataformas LLM personalizadas estão começando a ser filtradas em diferentes setores, sendo um deles a segurança cibernética. Grandes empresas de tecnologia estão procurando se expandir para esse espaço, por exemplo, o Google anunciou recentemente seu Google Cloud Security AI Workbench.

No entanto, um problema é que os LLMs podem ser potencialmente manipulados para vazar informações, especialmente se informações enganosas forem adicionadas aos dados de treinamento usados para ajustar o modelo. Para os utilizadores, pode ser difícil verificar se os dados da formação inicial foram adulterados, uma vez que existem frequentemente informações limitadas ou transparência disponível relativamente à integridade dos dados da formação. Apesar disso, é encorajador que essas novas tecnologias possam ajudar a identificar informações potencialmente incorretas ou enganosas.

Como essas tecnologias ainda estão em fase de desenvolvimento, seria prejudicial afastar-se completamente de recursos preditivos mais tradicionais, como a rotulagem de dados, especialmente quando os LLMs podem não compreender totalmente as complexidades de certos tipos de dados ou contextos, tornando a rotulagem humana necessária para melhorar a precisão.

A próxima regulamentação dará uma resposta?

Com o governo do Reino Unido devendo publicar uma série de testes que precisam ser cumpridos para aprovar novas leis sobre IA, governos e blocos comerciais em todo o mundo também têm tido pressa em implementar suas próprias estruturas.

No Brasil, um Projeto de Lei (PL) n.º 21/2020, sobre o uso de inteligência artificial, foi aprovado em 29/09/22, onde estabelece o marco legal para o desenvolvimento e uso da IA no país. O texto, agora em tramitação no Senado, define princípios, direitos e deveres, além de instrumentos de governança para a IA, garantindo respeito aos direitos humanos, transparência e privacidade de dados. A medida é vista como crucial para impulsionar o crescimento econômico e aumentar a produtividade, seguindo estratégias adotadas por outras nações. A iniciativa conta com o apoio da Secretaria Especial de Produtividade e Competitividade do Ministério da Economia.

Para as organizações que empregam atualmente IA, estabelecer padrões internos de IA que atribuam responsabilidade às pessoas pela rotulagem precisa dos dados e realizem verificações regulares para identificar e corrigir erros ou inconsistências, será fundamental para solucionar eventuais problemas que surjam.

Ao promover padrões de qualidade de dados e governança de IA, as empresas podem melhorar a precisão e a justiça de seus modelos de IA, enquanto ainda colhem os frutos da tecnologia em expansão.

CONTEÚDO RELACIONADO

AUTORES

Joydeep Dey
Head of Data Enablement

CONTEÚDO RELACIONADO

ARTIGOS RELACIONADOS