Metodologia de coneixement

La metodologia de coneixement identifica tres tipus d'informació perquè l'utilitzi el sistema de recomanació:

1. Informació demogràfica dels usuaris: edat, gènere, lloc de residència...

2. Preferències dels usuaris de les característiques del producte: tipus de pel·lícula, director, actor principal...

3. Experiències prèvies: avaluacions de productes de compra...

Sobre la base de dades d'aquesta informació, l'afinitat que l'usuari té es calcula per a alguns productes i els productes amb major afinitat es recomanen per a l'usuari. Les fonts que proporcionen informació oportuna, exacta i pertinent s'espera que siguin utilitzats amb més freqüència que les fonts que proporcionen informació irrellevant.

Motivació[modifica]

Un dels reptes més importants tant en un sistema de comercialització com en un sistema de recomanació és obtenir informació útil sobre el client o usuari d'un determinat producte o servei. En general, el primer pas és buscar informació analitzant qualsevol font disponible. Això no obstant, el principal problema que sorgeix és la utilitat d'aquesta informació. Per tant, a priori, cal un mecanisme que proporcioni proves sobre la pertinència d'aquesta informació per les recomanacions. Per evitar fer una recerca sense fi en l'enorme pila de dades disponibles, ja que s'utilitzen massa recursos, la informació ha de ser prèviament classificada o indexada per ser fàcilment trobada. Aquesta metodologia s'ha definit específicament per a les fonts d'informació estructurada.

Passos que el compon[modifica]

Obtenció d'un conjunt de característiques representatives de la informació continguda en les fonts: aquestes característiques han de permetre que la font més rellevant sigui comparada amb les altres abans de ser escollida.
Obtenció d'una mesura per seleccionar la font més fiable: la confiança d'una font s'obté dels resultats de les recomanacions formulades anteriorment amb aquesta font.
Selecció de la font més adequada: per a cadascuna de les fonts disponibles s'obté una mesura d'adequació utilitzant el valor de pertinença obtingut al pas 1 i el valor de confiança obtingut a l'apartat 2. Això serveix per decidir, de manera justificada, quines fonts són les més adequades per a les recomanacions.

Obtenció de pertinença o rellevància (R(s))[modifica]

Per saber com és de pertinent una font hem de mirar certes característiques:

Integritat: l'objectiu és obtenir informació sobre els usuaris de les fonts disponibles relacionades amb ells. La base de dades que conté informació sobre tots els usuaris serà més completa que la que només conté informació sobre alguns dels usuaris.

Donat un conjunt $U$ d'usuaris d'un domini de recomanació, la integritat (I) d'una font $S$ és la quantitat d'usuaris d'U sense S, conegut com $|C|$ , dividit entre la quantitat d'usuaris $|U|$ .

I(S)={\frac {|C|}{|U|}}

Diversitat: permet que es conegui la informació demogràfica continguda en les fonts. Els sistemes de recomanació usen aquesta informació per a poder recomanar a grups sencers segons gènere, lloc on viuen, edat ... Com més diversa sigui la font, més grups d'usuaris hauran.

La diversitat (D) es calcula com l'entropia, on cada $p_{i}={\frac {n_{i}}{N}}$ i, on $n_{i}$ són els usuaris d'un grup $I$ i $N$ el nombre total d'usuaris de la font $S$ .

D(S)=-\sum p_{i}log_{2}p_{i}

FREQÜÈNCIA: ajuda a saber la quantitat d'informació que conté la font. Una font obté la informació a través de les interaccions amb els usuaris, per tant, segons la freqüència en que una font interacciona amb els usuaris més completa serà. A més, quanta més informació hi ha sobre un comportament, la compra o les avaluacions dels usuaris, més precises seran les recomanacions.

Les font es divideixen en categories segons el nombre d'iteracions:

Categoria

f_{1}

: 1-10 interaccions

Categoria

f_{2}

: 11-25 interaccions

Categoria

f_{3}

: 26-50 interaccions

Categoria

f_{4}

: 51-100 interaccions

Categoria

f_{5}

: 101-200 interaccions

Categoria

f_{6}

: +201 interaccions

La freqüència (F) de les interaccions d'una font S és la suma de pesos $w_{i}$ , donades les categories $f_{i}$ , multiplicat per $|f_{i}|$ i dividit pel nombre d'usuaris $N$ de la font $S$ .

F(S)={\frac {w_{i}|f_{i}|}{N}}

PUNTUALITAT: les fonts han de disposar d'informació actualitzada, ja que els gustos i preferències dels usuaris poden canviar amb el temps. Les pel·lícules que agradaven fa deu anys poden no ser les mateixes que agraden ara, però hi ha més probabilitat que s'assemblin a les pel·lícules que més agradaven fa 2 anys.

També hi ha categories on es recullen els usuaris que han interaccionat amb la font segons períodes:

Categoria

p_{1}

: 01/01/2006 – 31/12/2006

Categoria

p_{2}

: 01/01/2007 – 31/12/2007

Categoria

p_{3}

: 01/01/2008 – 31/12/2008

Categoria

p_{4}

: 01/01/2009 – 31/12/2009

Categoria

p_{5}

: 01/01/2010 – 31/12/2010

Categoria

p_{6}

: 01/01/2011 – 31/12/2011

La puntualitat (P) de les interaccions d'una font $S$ és la suma de pesos $w_{i}$ , donades les categories $p_{i}$ , multiplicat per $|p_{i}|$ i dividit pel nombre d'usuaris $N$ de la font $S$ .

$P(S)={\frac {w_{i}|p_{i}|}{N}}$

Finalment adquirim una mesura de rellevància:

NOMBRE D'ATRIBUTS RELLEVANTS: encara que la font sigui completa, tingui una gran quantitat d'informació sobre els usuaris i estigui actualitzada, potser no conté la informació exacta per fer les recomanacions. La quantitat d'atributs rellevants és una característica que expressa si la informació que busquem es troba a una font o no.

Donat un conjunt $D$ d'atributs rellevants per fer la recomanació, el nombre d'atributs rellevants (R) d'una font $S$ és la quantitat d'atributs D sense S, anomenat $|B|$ , dividit entre la quantitat d'atributs $|D|$ .

$R(S)={\frac {|B|}{|D|}}$

Obtenció de confiança (T(S))[modifica]

La confiança d'una font es defineix com la probabilitat que una font sigui avaluada per utilitzar la seva informació, és un valor entre 0 i 1. Aquest valor és la confiança obtinguda a partir d'observacions del comportament passat de les fonts. La informació necessària per calcular el grau d'èxit de les recomanacions es guarda i, s'utilitza per avaluar les recomanacions fetes amb informació d'una font com a reeixida (=1) o no reeixida (=0).

Selecció de la font més pertinent i de confiança[modifica]

L'algorisme es compon de tres elements:

Un conjunt (S) de les fonts candidates.
Una funció de selecció (R (s), T (s)) per obtenir les fonts més rellevants (‘'relevant en anglès) i fiables (‘'trust en anglès). ::Aquesta funció utilitza els valors de pertinença T i confiança R de les fonts com a paràmetres.
Una un conjunt solució (F) que conté les fonts triades.

$SELECCIO(R(s),T(s))=R(s)$ · $T(s)$