Problema de Scunthorpe

De la Viquipèdia, l'enciclopèdia lliure
Un exemple del problema de Scunthorpe a la Viquipèdia a causa d'una expressió regular que identifica "cunt" en el nom d'usuari

El problema de Scunthorpe és el bloqueig involuntari de llocs web, correus electrònics, publicacions en fòrums o resultats de cerca per part d'un filtre de spam o un motor de cerca degut a que el seu text conté una cadena de lletres que semblen tenir un significat obscè o inacceptable. Els noms, les abreviatures i els termes tècnics se citen amb major freqüència com afectats pel problema.

El problema sorgeix perquè les computadores poden identificar fàcilment cadenes de text dins d'un document, però interpretar paraules d'aquest tipus requereix una habilitat considerable per a interpretar una àmplia gamma de contextos, la qual cosa és una tasca extremadament difícil. Com a resultat, les àmplies regles de bloqueig poden generar falsos positius que afectin frases innocents.

Etimologia i origen[modifica]

El problema va rebre el seu nom d'un incident en 1996 en el qual el filtre de blasfèmies de AOL va impedir que els residents de la ciutat de Scunthorpe, North Lincolnshire, Anglaterra, creessin comptes amb AOL, perquè el nom de la ciutat conté la subcadena "cunt" (una manera vulgar en anglès de referir-se a la vagina i que a més s'utilitza com a insult).[1] A principis de la dècada dels 2000, els filtres SafeSearch opcionals de Google van cometre el mateix error, i els serveis i empreses locals que incloïen a Scunthorpe en els seus noms o URL es trobaven entre els exclosos d'aparèixer en els resultats de cerca[2]

Solucions alternatives[modifica]

El problema de Scunthorpe és difícil de resoldre per complet a causa de la dificultat de crear un filtre capaç de comprendre paraules en context.[3][4] Una solució consisteix a crear una llista blanca de falsos positius coneguts. El filtre pot ignorar qualsevol paraula que aparegui en la llista, encara que contingui text que d'una altra manera no estaria permès.[5]

Altres exemples[modifica]

Noms de domini web i registres de comptes rebutjats[modifica]

  • L'abril del 1998, Jeff Gold va intentar registrar el nom de domini shitakemushrooms.com, però a causa de la subcadena "shit" (merda), va ser bloquejat per un filtre de InterNIC que prohibia les "set paraules brutes".[6] (Shiitake (en català Xiitake), també comunament escrit shitake, és el nom japonès del fong comestible Lentinula edodes.)
  • En 2000, una notícia de la televisió canadenca sobre el programari de filtrat web va descobrir que el lloc web de la Comunitat Urbana de Mont-real (Communauté Urbaine de Montréal, en francès) estava completament bloquejat perquè el seu nom de domini era el seu acrònim francès CUM (www.cum.qc.ca); "cum", que entre altres significats, és l'argot de l'idioma anglès per a semen.[7]
  • Al febrer de 2004 a Escòcia, Craig Cockburn va informar que no podia usar el seu cognom (pronunciat "Coburn") a Hotmail perquè conté la subcadena "cock", una paraula vulgar per a referir-se al penis. D'altra banda, va tenir problemes amb el correu electrònic del seu lloc de treball perquè el seu càrrec, "programari specialist" (especialista en programari), contenia la subcadena cialis, un medicament per a la disfunció erèctil que s'esmenta comunament en els correus electrònics no desitjats. Hotmail inicialment li va dir que lletregés el seu nom C0ckburn (amb un zero en lloc de la lletra "o"), però després va revertir la prohibició.[8] En 2010, va tenir un problema similar en registrar-se en el lloc web de la BBC, on novament els primers quatre caràcters del seu cognom van causar un problema per al filtre de contingut.[9]
  • Al febrer de 2006, a Linda Callahan se li va impedir inicialment registrar el seu nom en Yahoo! com una adreça de correu electrònic, ja que contenia la subcadena "allah". Yahoo! més tard va revocar la prohibició.[10]
  • Al juliol de 2008, el Dr. Herman I. Libshitz no va poder registrar una adreça de correu electrònic amb el seu nom en Verizon perquè el seu cognom contenia la subcadena "shit" (merda) i Verizon inicialment va rebutjar la seva sol·licitud d'excepció. En una declaració posterior, una portaveu de Verizon es va disculpar per no aprovar la seva adreça de correu electrònic desitjada.[11]
  • El cadena "kunt" també està prohibit per al registre en Wikimedia. Les persones de Lakuntza no poden crear comptes usant el seu nom d'ubicació; de manera similar, no es pot utilitzar la paraula "hezkuntza" (educació), paraula habitual a l'hora de crear comptes des del col·legi.

Cerques web bloquejades[modifica]

  • En els mesos previs a gener de 1996, es van filtrar algunes cerques web de Super Bowl XXX, perquè el número romà per al joc i el lloc (XXX) també s'usa per a identificar pornografia.[12]
  • Gareth Roelofse, el dissenyador web de Romansinsussex.co.uk, va assenyalar en 2004: "Trobem moltes estacions d'Internet de biblioteques, xarxes escolars i cibercafés que bloquegen llocs amb la paraula 'sexe' en el nom de domini. Aquest va ser un desafiament per a Romansinsussex.co.uk perquè el seu públic objectiu són els nens en edat escolar".[13]
  • En 2008, el filtre del servei sense fil gratuït de la ciutat de Whakatane a Nova Zelanda va bloquejar les cerques que involucraven el propi nom de la ciutat perquè l'anàlisi fonètica del filtre va considerar que "whak" sonava com "fuck"; el nom de la ciutat està en maori, i en l'idioma maori "wh" es pronuncia més comunament com a /f / . Posteriorment, la ciutat va col·locar el nom de la ciutat en la llista blanca del filtre.[14]
  • Al juliol de 2011, les cerques en la web a la Xina sobre el nom Jiang van ser bloquejades després d'afirmacions en el lloc de microblogging Sina Weibo que l'exsecretari general del Partit Comunista Xinès (PCCh), Jiang Zemin, havia mort. Atès que la paraula "Jiang", que significa "riu", està escrita amb el mateix caràcter xinès (江), les cerques relacionades amb rius, inclòs el Yangtze (Cháng Jiāng), van generar el missatge: "D'acord amb les lleis, reglaments i polítiques pertinents, els resultats d'aquesta cerca no es pot mostrar".[15]
  • Al febrer de 2018, les cerques web en la plataforma de compres de Google es van bloquejar per a articles com a pistoles de cola, Guns N' Roses (conté gun en el nom) i vi de Borgonya (borgonya, en anglès burgundy, conté "gun") després que Google parchó precipitadament el seu sistema de cerca que mostrava resultats d'armes i accessoris que violaven les polítiques establertes de Google.[16]

Correus electrònics bloquejats[modifica]

  • Al febrer de 2003, els membres del Parlament en la Cambra dels Comuns del Regne Unit van descobrir que un nou filtre de spam estava bloquejant els correus electrònics que contenien referències al projecte de llei de delictes sexuals que s'estava debatent en aquest moment, així com alguns missatges relacionats amb un document de consulta dels liberals demòcrates sobre la censura.[17] També va bloquejar els correus electrònics enviats en gal·lès perquè no reconeixia l'idioma.[18]
  • A l'octubre de 2004, es va informar que el Museu Horniman de Londres no estava rebent alguns dels seus correus electrònics perquè els filtres van tractar erròniament el seu nom com una versió de les paraules "horny man".[19]

Bloquejat per paraules amb múltiples significats[modifica]

  • Al maig de 2006, un home a Manchester (Regne Unit) va descobrir que els correus electrònics que va escriure al seu ajuntament per a queixar-se d'una sol·licitud de planificació havien estat bloquejats perquè contenien la paraula "erecció" quan es referien a una estructura.[20]
  • Els correus electrònics bloquejats i les cerques en la web relacionades amb The Beaver, una revista amb seu en Winnipeg, van fer que l'editorial canviés el seu nom a Canada's History en 2010, després de 89 anys de publicació.[21][22] L'editora Deborah Morrison va comentar: "En 1920, The Beaver era un nom perfectament apropiat. I encara que el seu altre significat [vulva] no és res nou, la seva ambigüitat va començar a plantejar un desafiament completament nou amb l'avanç d'Internet. El nom es va convertir en un impediment per al nostre creixement".[23]
  • En 2011, un regidor en Dudley va trobar un correu electrònic marcat com a blasfem pel programari de seguretat del seu consell després d'esmentar fagots, un plat de Black Country (són un tipus de mandonguilles, però també un terme pejoratiu per als homes homosexuals).[24]
  • Els correus electrònics dels residents de Penistone en South Yorkshire han estat bloquejats perquè el nom de la ciutat inclou la subcadena peni.[25]
  • Els residents de Clitheroe (Lancashire, Anglaterra) han estat molestats repetidament perquè el nom de la seva ciutat inclou la subcadena "clit", que és l'abreviatura de "clítoris".[26]
  • Els currículums que contenen referències a graduar-se amb honors en llatí, com cum laude, magna cum laude i summa cum laude, han estat bloquejats pels filtres de spam a causa de la inclusió de la paraula cum, que en llatí significa amb (en aquest ús), però a vegades s'usa com a argot per a semen o ejaculació en anglès.[27]

Articles de notícies[modifica]

  • Al juny de 2008, un lloc de notícies dirigit pel grup anti-LGBT American Family Association va filtrar un article de Associated Press sobre el velocista Tyson Gay, reemplaçant les instàncies de "gai" per "homosexual", donant així el seu nom com "Tyson Homosexual".[28] Aquesta mateixa funció havia canviat prèviament el nom del jugador de bàsquet Rudy Gay a "Rudy Homosexual".[29]

Altres[modifica]

  • A l'abril de 2021, es va eliminar la pàgina oficial de Facebook de la Comuna francesa de Bitche. En resposta, els funcionaris de la comuna van crear una nova pàgina que fa referència al codi postal, Mairie 57230. Facebook després es va disculpar i va restaurar la pàgina original. Com a mesura de precaució, els funcionaris de Rohrbach-lès-Bitche van canviar el nom de la seva pàgina de Facebook a Ville de Rohrbach.[30][31]

Vegeu també[modifica]

Referències[modifica]

  1. Clive Feather «AOL censors British town's name!». The Risks Digest. Peter G. Neumann, 18, 7, 25-04-1996.
  2. McCullagh. «Google's chastity belt too tight». CNET, 23-04-2004. Arxivat de l'original el 2011-06-16.
  3. Oberhaus. «Life on the Internet Is Hard When Your Last Name is 'Butts'» (en anglès). Vice, 29-08-2018. [Consulta: 31 juliol 2022].
  4. Gellis. «The Scunthorpe Problem, And Why AI Is Not A Silver Bullet For Moderating Platform Content At Scale». Techdirt, 31-08-2018. [Consulta: 31 juliol 2022].
  5. Veale, Tony. Your Wit Is My Command: Building AIs with a Sense of Humor. MIT Press, 2021, p. 231. ISBN 978-0-262-04599-5. OCLC 1221016857. 
  6. Festa. «Food domain found "obscene"». News.com, 27-04-1998. Arxivat de l'original el 10 maig 2020.
  7. «Foire aux questions». radio-canada.ca. Arxivat de l'original el 2012-10-21. [Consulta: 24 febrer 2011].
  8. «How Mr C0ckburn fought spam». , 26-02-2004.
  9. Cockburn. «BBC fail – my correct name is not permitted». blog.siliconglen.com, 09-03-2010. Arxivat de l'original el 2020-09-30.
  10. «Is Yahoo Banning Allah?». Kallahar's Place. Arxivat de l'original el 2016-01-14. [Consulta: 24 febrer 2011].
  11. «When your name gets turned against you». .
  12. "E-Rate And Filtering: A Review Of The Children's Internet Protection Act". Congressional Hearings. General. Energy and Commerce, Subcommittee on Telecommunications and the Internet. 4 April 2001.
  13. McCullagh. «Google's chastity belt too tight». CNET, 23-04-2004. Arxivat de l'original el 2011-06-16.
  14. «F-Word Town's Name Gets Censored By Internet Filter». .
  15. «Following Jiang Death Rumors, China's Rivers Go Missing». , 06-07-2011.
  16. «Wine lovers cannot buy Burgundy tipple on Google as internet giant cracks down on 'gun' searches». , 27-02-2018.
  17. «E-mail vetting blocks MPs' sex debate». , 04-02-2003.
  18. «Software blocks MPs' Welsh e-mail». , 05-02-2003.
  19. Kwintner. «Name of museum is confused with porn». News Shopper, 05-10-2004.
  20. «E-mail filter blocks 'erection'». , 30-05-2006.
  21. «The Beaver mag renamed to end porn mix-up». , 13-01-2010.
  22. «Web Filters Cause Name Change for a Magazine». , 24-01-2010.
  23. «How spam filters dictated Canadian magazine's fate». BBC News, 29-03-2010.
  24. «Black Country Councillor Caught up in Faggots Farce». , 24-02-2011.
  25. «The 10 best words the internet has given English». , 17-04-2013.
  26. Keyes, Ralph. Unmentionables: From Family Jewels to Friendly Fire – What We Say Instead of What We Mean. John Murray, 2010. ISBN 978-1-84854-456-7. 
  27. Maher. «Don't Let Spam Filters Snatch Your Resume». Career Journal. Arxivat de l'original el 2006-10-23. [Consulta: 11 febrer 2008].
  28. Frauenfelder. «Homophobic news site changes athlete Tyson Gay to Tyson Homosexual». Boing Boing, 30-06-2008. Arxivat de l'original el 2021-02-04.
  29. Mantyla. «The Dangers of Auto-Replace». Right Wing Watch. People for the American Way, 30-06-2008. Arxivat de l'original el 2020-10-25. [Consulta: 24 febrer 2021].
  30. Kempf. «Insolite : Bitche est censuré par Facebook» (en francès). Radio Mélodie, 12-04-2021.
  31. Darmanin. «Facebook takes down official page for French town of Bitche». POLITICO, 13-04-2021. [Consulta: 3 juliol 2021].