Continuant amb el tema de la Intel·ligència Artificial i els biaixos de sexe i gènere, he seguit amb molta atenció el cicle de conferències, debats i taules rodones, que han conformat el Projecte organitzat per la Fundació La Caixa conjuntament amb Barcelona Supercomputing Center i el Programa BioInfo4Women. Les sessions van començar el 16 de març i la darrera va ser el passat 16 de juny. Estic a l’espera de la publicació de les conclusions finals i dels reptes i línies de treball futures, però m’ha semblat tan interessant, que crec val la pena fer una petita ressenya sobre aquest projecte.
Encara que el tema estava focalitzat en relació a la salud, moltes de les coses que es van dir, es poden aplicar a altres sectors de la vida econòmica i social. Alguns dels aspectes que m’han cridat més l’atenció han sigut la constatació dels biaixos que es generen en el disseny dels algoritmes. Es pot parlar des de la selecció d’una mostra incorrecte o de les dades d’entrenament que siguin també poc acurades o directament esbiaixades. Segons com es construeixi un algoritme, si el que es cerca és l’eficiència en la resolució de casos, i s’aplica per exemple en el registre de nous pacients en un hospital, es podria rebutjar els malalts més greus per aconseguir una ràtio d’eficiència més elevada. L’experiència també demostra que les dones triguen més en anar a l’hospital, per tant quan s’està acumulant coneixement en l’algoritme, pot haver una desproporció important de persones d’un sexe en relació a l’altre, deguda a aquest fet.
Es va comentar que cal la revisió per part d’una persona d’aquests coneixements que s’ensenyen, però em va quedar el dubte, de que no sempre una persona és neutre i que per tant, per molt que hi hagi aquesta supervisió, existeix una possibilitat real d’incorrecció en les dades.
És evident que un primer punt a tenir present, és l’origen de les dades. Totes les que s’obtenen, excepte les dades censals, estan esbiaixades. Per tan, si s’aconsegueixen per entrevista directe, a través de formularis a Internet, a través de xarxes socials (i aquí ja es dona un altre aspecte alarmant: cada xarxa social és emprada per sectors de la població diferents, tant per edat, com per destresa digital, etc.) etc , cal tenir clar que s’hauran de depurar per no generar desequilibris importants en la informació recollida.
Suposant que les dades fossin correctes, cal pensar en la composició dels equips que elaboren els algoritmes. No es dir res de nou, el afirmar que per norma general, els equips no estan ben compensats. Per tant el bagatge social i cultural de cada un d’ells i els tòpics apresos, tenen un pes que influeix en els resultats. Es poden produir situacions injustes, propiciades per una decisió ja mal plantejada en el seu origen. Cal analitzar com es fa per detectar aquests possibles errors i qui ho fa.
La tercera pota, un cop tenim les dades i s’ha construït l’algoritme, és la interpretació dels resultats. Un cop més, l’experiència acumulada fins ara demostra, que cal disposar de criteris clars per no mal interpretar els efectes aconseguits. Un exemple que es va comentar en una sessió, és el fet que el nombre de dones que van acollir-se als ERTO amb la pandèmia, va ser molt inferior al dels homes. Hi han diversos factors a més del sexe, com pot ser les feines en precari que realitzen en molts casos les dones i que no els hi donava dret a acollir-se a cap ERTO, el treball a temps parcial, ocupat principalment per dones, etc. Si algú fa l’anàlisi en base només a les dades, i en l’algoritme, no s’han afegit factors de correcció, es pot arribar a la formulació incorrecte de la situació.
Per molt que estem en una situació de globalització, determinades situacions o creences no son iguals a tot arreu. Això implica, que un algoritme construït i pensat en base a persones, per exemple del Nord d’Europa, és quasi segur que no dona els mateixos resultats si és utilitzat per persones del Sud d’Àsia o del mateix Sud d’Europa. Per tant, cal contemplar aquesta diversitat i fugir de la creença de la supremacia d’una part del món sobre l’altre part.
Com expressava una ponent emprant una frase molt eloqüent: les dades son el nou petroli. En conseqüència, qui te les dades te el poder. Com deia Jan Eeckhout a La Contra de La Vanguardia del passat 9 de juny, “Si te dan algo gratis en internet, la mercancía eres tú”. Per tant hi han diverses forces que conflueixen: les dades brutes, qui les proporciona i a través de quin mitjans i plataformes, com s’elaboren i manipulen per crear models i la interpretació i ús que se’n faci de les mateixes.
I tota aquesta realitat es produeix quan encara no estan establerts de forma clara i precisa, els límits, les normes legals i la responsabilitat dels productes digitals
Serà interessant llegir amb atenció les conclusions i propostes i cal esperar que les línies de treball i col·laboració que s’han establert, vagin marcant pautes i obrin camins per aconseguir, en primer lloc, augmentar la consciència del problema i després generar eines que ajudin a corregir aquests biaixos de sexe i gènere que s’estan donant en la Intel·ligència Artificial. Però de moment estan disponibles els materials i és convenient dedicar-hi temps per anar-los escoltant i prendre notes dels mateixos.