Desvendando os erros comuns em aprendizado de máquina: lições cruciais para pesquisadores
- W. Gabriel de Oliveira
- 18 de ago. de 2024
- 6 min de leitura

O artigo "How to Avoid Machine Learning Pitfalls: A Guide for Academic Researchers", escrito por Michael A. Lones, aborda os desafios comuns enfrentados por pesquisadores acadêmicos ao aplicar técnicas de aprendizado de máquina (ML). O foco principal do documento é fornecer orientações práticas para evitar erros que podem comprometer a eficácia dos modelos de ML, especialmente quando estes são aplicados a dados não vistos durante o treinamento e teste.
Uma das grandes descobertas do artigo é a importância de uma avaliação rigorosa e comparativa dos modelos, que é essencial para garantir a validade dos resultados e a confiança nas conclusões. O autor enfatiza que muitos projetos de ML falham devido a práticas inadequadas, como a falta de transparência nos métodos utilizados e a não consideração de estudos anteriores. Assim, o guia serve como um recurso valioso para estudantes e pesquisadores, ajudando-os a construir modelos mais robustos e confiáveis, além de promover uma cultura de compartilhamento e documentação no campo do aprendizado de máquina.
O artigo destaca diversos erros práticos que podem comprometer a validade dos resultados em projetos de aprendizado de máquina. Um dos principais problemas é a "vazamento de dados", que ocorre quando informações do conjunto de teste são inadvertidamente utilizadas durante o treinamento do modelo, levando a uma avaliação enganosa de sua capacidade de generalização. Outro erro comum é a realização de seleção de características antes da divisão dos dados, o que pode introduzir viés e distorcer os resultados. Além disso, o uso do mesmo conjunto de teste para avaliar múltiplos modelos pode resultar em sobreajuste sequencial, nos quais os modelos parecem ter um desempenho superior ao real.
O autor também alerta contra a aplicação de técnicas de aumento de dados antes de separar o conjunto de teste, pois isso pode levar a uma superestimação da eficácia do modelo. Esses erros, entre outros, ressaltam a importância de seguir práticas rigorosas e bem documentadas para garantir a integridade e a confiabilidade das pesquisas em aprendizado de máquina.
Para alcançar a rigorosidade na pesquisa em aprendizado de máquina, conforme destacado no artigo, é importante seguir algumas práticas recomendadas, como:
1. Uso de conjuntos de teste apropriados: sempre utilize um conjunto de teste separado para medir a generalização do modelo, evitando que dados de teste sejam utilizados durante o treinamento.
2. Prevenção de vazamento de dados: certifique-se de que não haja vazamento de informações do conjunto de teste durante o processo de configuração, treinamento ou seleção de modelos.
3. Documentação e planejamento: utilize checklists, como o REFORMS, para planejar e documentar cada etapa do pipeline de aprendizado de máquina, garantindo que todas as decisões sejam bem fundamentadas.
4. Avaliação rigorosa: realize avaliações múltiplas e independentes do modelo, utilizando métricas apropriadas que reflitam verdadeiramente o desempenho do modelo em dados não vistos.
5. Comparações justas: ao comparar diferentes modelos, implemente todos os modelos a partir do zero e otimize seus hiperparâmetros de maneira consistente, evitando comparações baseadas em resultados publicados que podem ser enviesados.
6. Consideração de viés e variância: esteja ciente dos trade-offs entre viés e variância ao escolher e ajustar modelos, garantindo que o modelo não esteja superajustado ou subajustado.
7. Revisão por pares e feedback: busque feedback de colegas e especialistas na área e considere a revisão por pares como parte do processo de validação dos resultados. Talvez essa seja a dica mais valiosa de todo o artigo e que poucos põem em prática, infelizmente.
8. Atualização contínua: mantenha-se atualizado com as últimas pesquisas e desenvolvimentos na área de aprendizado de máquina, reconhecendo que as melhores práticas podem evoluir com o tempo. Uma sugestão é ter podcasts e RSS de notícias e de artigos sempre bem configurados para receber automaticamente os últimos lançamentos. Eu, por exemplo, uso o Spotify como central de podcasts e o Flipboard, além do Reditt e do Medium.
Essas práticas podem ajudar a garantir que os resultados obtidos sejam válidos, confiáveis e contribuam efetivamente para o avanço do conhecimento na área de aprendizado de máquina.
Além disso tudo, é importante realizar comparações justas entre diferentes modelos de aprendizado de máquina, como já citado. Comparar modelos de forma adequada é fundamental para garantir que as conclusões tiradas sejam válidas e que os pesquisadores não sejam levados a erros por avaliações enviesadas.
De acordo com o artigo, organizei 6 dicas para realizar esse trabalho:
1. Contexto Consistente: todos os modelos devem ser avaliados no mesmo contexto, utilizando os mesmos conjuntos de dados e condições experimentais. Isso evita que diferenças de desempenho sejam atribuídas a variações nos dados ou nas configurações de teste.
2. Implementação recente, nova: é recomendável que os pesquisadores implementem todos os modelos a partir do zero, em vez de confiar em implementações anteriores. Isso garante que cada modelo seja otimizado de maneira consistente e que as comparações sejam baseadas em condições equivalentes.
3. Otimização de hiperparâmetros: ao comparar modelos, é crucial que todos eles passem pelo mesmo processo de otimização de hiperparâmetros. Um modelo que utiliza configurações padrão não deve ser comparado a outro que foi cuidadosamente ajustado, pois isso pode levar a conclusões enganosas sobre qual modelo é realmente superior.
4. Uso de testes estatísticos: para validar as comparações, é importante aplicar testes estatísticos que ajudem a determinar se as diferenças de desempenho observadas são significativas ou se podem ser atribuídas ao acaso.
5. Cuidado com métricas: escolher as métricas corretas para avaliar o desempenho dos modelos é fundamental. Diferentes métricas podem levar a interpretações diferentes sobre qual modelo é melhor, por isso é importante usar métricas que sejam relevantes para o problema em questão. Exemplo de métricas: F1 Score (média harmônica entre precisão e recall, considera tanto os falsos positivos quanto os falsos negativos), Cohen’s Kappa Coefficient (mede a concordância entre duas classificações, levando em conta a possibilidade de concordância ao acaso), Matthews Correlation Coefficient (o MCC equilibra qualidade de uma classificação binária, considerando verdadeiros positivos, verdadeiros negativos, falsos positivos e falsos negativos), Curva AUC-ROC (distingue classes, plotando a taxa de verdadeiros positivos contra a taxa de falsos positivos), Log Loss (perda logística, mede a incerteza das previsões) e Root Mean Squared Error (o RMSE mede a média das diferenças quadráticas entre as previsões do modelo e os valores reais, além de pegar os outliers).
6. Evitar comparações superficiais: o autor alerta contra a ideia de que um número maior de acurácia ou outra métrica de desempenho automaticamente significa que um modelo é melhor. É necessário considerar o contexto e as condições sob as quais os modelos foram avaliados.
Isso é importante porque ajuda a garantir que as comparações entre modelos sejam justas e informativas, contribuindo para um avanço mais sólido e confiável na pesquisa em aprendizado de máquina. Além disso, o artigo ainda enfatiza a importância de relatar os resultados de maneira clara, transparente e informativa. A forma como os resultados são apresentados pode influenciar significativamente a interpretação e a aplicação das descobertas na comunidade científica. E nós sabemos como o brasileiro, em termo gerais, tem uma enorme dificuldade de interpretação de textos, imagine de dados. Assim, seguem alguns pontos-chave sobre como relatar resultados incluem, segundo o artigo:
1. Transparência: é fundamental ser transparente sobre os métodos utilizados, os dados empregados e as métricas escolhidas. Isso permite que outros pesquisadores repliquem os experimentos e verifiquem as conclusões, contribuindo para a credibilidade da pesquisa.
2. Relato de múltiplas métricas: ao apresentar os resultados, é aconselhável incluir várias métricas de desempenho. Isso oferece uma visão mais abrangente do desempenho do modelo e ajuda a evitar interpretações errôneas que podem surgir ao se basear em uma única métrica.
3. Discussão das limitações: é importante reconhecer e discutir as limitações dos resultados. Isso inclui considerar a representatividade dos dados, possíveis vieses e a generalização das conclusões para outros contextos. Essa abordagem ajuda a evitar a superinterpretação dos resultados.
4. Documentação e compartilhamento: compartilhar o código e os dados utilizados nos experimentos, quando possível (caso não tenha direitos autorais ou alguma limitação de divulgação), é uma prática recomendada. Isso não apenas aumenta a transparência, mas também facilita a colaboração e o avanço da pesquisa na área. Afinal, pesquisadores deveriam se unir, e não se fechar em suas salas para realizar pesquisas isoladamente.
Quero finalizar essa resenha reforçando que esse artgo trouxe uma contribuição significativa para a comunidade de pesquisa em aprendizado de máquina, pois fornece DIRETRIZES PRÁTICAS e FUNDAMENTADAS para evitar armadilhas comuns que podem comprometer a validade dos resultados. Mas ao abordar questões como a comparação justa de modelos, a escolha de métricas adequadas e a importância de relatar resultados de forma transparente se tornam ainda bem valiosas. Por isso, esse artigo ajuda pesquisadores a melhorar a qualidade de suas investigações e a contribuir de maneira mais eficaz para o avanço do conhecimento na área.
REFERÊNCIA BIBLIOGRÁFICA
LONES, Michael A. How to avoid machine learning pitfalls: a guide for academic researchers. arXiv:2108.02497v4 [cs.LG], 2024. Disponível em: https://arxiv.org/abs/2108.02497. Acesso em: 18 de agosto de 2024, às 15:00.
Comments