És comú que en usar dades reals, aquestes es trobin desbalancejades, on hi ha algunes classes majoritàries, i algunes de minoritàries. Un dels casos més comuns on es troba aquest problema és en tractar dades mèdiques, on la prevalença de les malalties sol ser baixa. Així doncs, la majoria d’exemples es corresponen a la classe negativa (el pacient no està malalt). Per contra, una minoria es troben en les classes positives (el pacient està malalt). Gràcies a la digitalització i implantació de noves tecnologies en tots els àmbits, cada cop podem obtenir més dades, les quals es poden trobar com a sèries temporals tot representant l’evolució històrica d’aquestes dades. El tema del TFG es basaria en estudiar com afecta el desbalanceig de dades als classificadors de sèries temporals. Els classificadors no solen funcionar adequadament en la detecció de les classes minoritàries quan hi ha una sobrerepresentació de la majoritària. Una de les maneres d’alleujar aquest problema és a nivell de les dades, modificant la mostra en les dades d’entrenament perquè els classificadors puguin aprendre adequadament a distingir les diferents classes. Algunes tècniques comunes que es poden usar en sèries temporals inclouen random oversampling/undersampling o T-SMOTE. Altres tècniques, com variacions d’SMOTE per dades no-temporals també es podrien adaptar i desenvolupar per dades temporals. Diverses característiques de les dades com la longitud de les seqüències, la quantitat d’exemples, o el tipus de classificació, univariada/multivariada o binària/multiclasse, podrien fer-se servir per desenvolupar un mètode que donades unes dades temporals, indiqui quina seria la millor manera per compensar el desbalanceig
Doble Titulació de Grau d'Enginyeria Informàtica i Biotecnologia (GEI)
Intel·ligència artificial
En Curs
2025-01-29
Aïda Valls Mateu, Jordi Pascual Fontanilles
SAID TRUJILLO DE LEÓN
Molt Alta
No
No
No
No