Detecció de similitud de contingut: diferència entre les revisions

Contingut suprimit Contingut afegit

En línia

Revisió del 09:04, 16 set 2018

Detecció de plagi és el procés de localitzar casos de plagi dins d'una feina o document. L'ús estès d'ordinadors i el advent de l'Internet ha fet el més fàcil a plagiarize la feina d'altres. La majoria de casos de plagi són trobats dins academia, on els documents són típicament assajos o informes. Tanmateix, el plagi pot ser trobat dins virtualment qualsevol camp, incloent novel·les, papers científics, dissenys d'art, i codi de font.

La detecció de plagi pot ser qualsevol manual o programari-va assistir. La detecció manual requereix esforç substancial i memòria excel·lent, i és impractical en casos on massa documents han de ser comparats, o els documents originals no són disponibles per comparació. Programari-la detecció assistida permet col·leccions vastes de documents per ser comparats a cadascú altre, fent detecció exitosa molt més probablement.

La pràctica de plagiarizing per ús de substitucions de paraula suficient a elude programari de detecció és sabut com rogeting.Error de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permès

Programari-detecció assistida

Ordinador-detecció de plagi assistit (CaPD) és una Informació retrieval (IR) la tasca donada suport per va especialitzar sistemes d'IR, va referir a tan sistemes de detecció del plagi (PDS).

Dins documents de text

Sistemes per text-detecció de plagi implementa un de dues detecció genèrica aproximacions, un sent extern, l'altre sent intrínsec.Error de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permès Sistemes de detecció externa comparen un document sospitós amb una col·lecció de referència, el qual és un conjunt dels documents van assumir per ser genuí.Error de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permès Basat en un model de document escollit i predefined criteris de semblança, la tasca de detecció és per recuperar tots els documents que contenen text que és similar a un grau per sobre d'un llindar escollit a text en el document sospitós.Error de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permès PDS intrínsec només analitza el text per ser avaluat sense actuar comparacions a documents externs. Aquests objectius d'aproximació per reconèixer canvis en l'estil d'escriptura únic d'un autor com un indicador per plagi potencial.Error de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permès PDS no és capaç de reliably identificant plagi sense judici humà. Les semblances són computades amb l'ajuda de predefined models de document i podria representar falsos positius.Error de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permèsError de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permèsError de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permèsError de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permèsError de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permès

Efectivitat d'en enquadraments d'educació més alta

Un estudi va ser conduït per provar l'efectivitat de programari de detecció del plagi en un enquadrament d'educació més alt. Un separa de l'estudi va assignar un grup d'estudiants per escriure un paper. Aquests estudiants eren primer educat aproximadament plagi i va informar que la seva feina era per ser corregut a través d'un sistema de detecció del plagi. Un segon grup d'estudiants va ser assignat per escriure un paper sense qualsevol informació aproximadament plagi. Els investigadors van esperar trobar els índexs més baixos dins agrupen un però trobat més o menys els mateixos índexs de plagi en ambdós grups.Error de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permès

Aproximacions

La figura a sota representa una classificació de totes aproximacions de detecció actualment dins ús per ordinador-detecció de plagi assistit. Les aproximacions són caracteritzades pel tipus de valoració de semblança emprenen: global o local. Aproximacions de valoració de semblança globals utilitzen les característiques agafades de parts més grans del text o el document globalment per computar semblança, mentre els mètodes locals només examinen pre-segments de text seleccionat mentre entrada.

Fingerprinting

Fingerprinting És actualment el més aproximació aplicada àmpliament a detecció de plagi. Aquest mètode forma representatiu digests de documents per seleccionar un conjunt de subcadenes múltiples (n-grams) d'ells. Els conjunts representen el fingerprints i els seus elements són cridats minutiae.Error de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permèsError de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permès Un document sospitós és comprovat per plagi per computar el seu fingerprint i querying minutiae amb un precomputed índex de fingerprints per tots els documents d'una col·lecció de referència. Minutiae Aparellant amb aquells d'altres documents indiquen segments de text compartit i suggerir plagi potencial si superen un llindar de semblança escollit.Error de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permès Temps i recursos computacionals estan limitant factors a fingerprinting, el qual és per què aquest mètode típicament només compara un subconjunt de minutiae per sol·licitar la computació i permetre per controls dins col·lecció molt gran, com l'Internet.Error de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permès

Comparació de cadenes de caràcters

La corda que aparella és un prevalent l'aproximació va utilitzar dins informàtica. Quan aplicat al problema de detecció de plagi, els documents són comparats per verbatim el text solapa. Els mètodes nombrosos han estat proposats per emprendre aquesta tasca, del qual algun tenir estat adaptat a detecció de plagi extern. Comprovant un document sospitós en aquest enquadrament requereix la computació i emmagatzematge d'amb eficiència representacions comparables per tots els documents en la col·lecció de referència per comparar-los pairwise. Generalment, models de document del sufix, com arbres de sufix o vectors de sufix, ha estat utilitzat per aquesta tasca. No obstant això, la subcadena que aparella les restes computacionalment cares, el qual el fa una solució no viable per comprovar col·leccions grans de documents.Error de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permèsError de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permèsError de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permès

Bossa de paraules

La bossa d'anàlisi de paraules representa l'adopció d'espai de vector retrieval, un concepte d'IR tradicional, a l'àmbit de detecció de plagi. Els documents són representats mentre un o vectors múltiples, p. ex. per parts de document diferent, els quals són utilitzats per parell computacions de semblança assenyada. Computació de semblança llavors pot confiar en el tradicional cosine mesura de semblança, o damunt semblança més sofisticada mesures.

Anàlisi de Cites

Citation-Detecció de plagi basat (CbPD) confia damunt citation anàlisi, i és l'aproximació única a detecció de plagi que no confia en la semblança textual.Error de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permèsError de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permès CbPD Examina el citation i informació de referència en textos per identificar patrons similars en el citation seqüències. Com a tal, aquesta aproximació és adequada per textos científics, o altres documents acadèmics que contenen citations. Citation Anàlisi per detectar el plagi és un concepte relativament jove. No ha estat adoptat per programari comercial, però un primer prototipus d'un citation-sistema de detecció de plagi basat existeix.Error de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permès Ordre similar i proximity de citations en el va examinar els documents són els criteris principals va utilitzar per computar citation semblances de patró. Citation Els patrons representen subsuccessions no-exclusivament contenint citations compartit pels documents van comparar.Error de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permèsError de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permès Factors, incloent el número absolut o fracció relativa de compartit citations en el patró, així com la probabilitat que citations co-ocórrer en un document és també considerat per quantificar el grau dels patrons de semblança.Error de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permèsError de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permèsError de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permèsError de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permès

Stylometry

Stylometry subsumes Mètodes estadístics per quantificar l'estil d'escriptura única d'un autor i és principalment utilitzat per authorship atribució o intrínsec CaPD.Error de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permèsError de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permès Per construir i comparant stylometric models per segments de text diferent, passatges que són stylistically diferent d'altres, per això potencialment plagiarized, pot ser detectat.Error de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permès

Actuació

Les avaluacions comparatives de sistemes de detecció del plagi indiquen que la seva actuació depén en el tipus de present de plagi (veu figura).Error de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permèsError de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permèsError de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permèsError de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permèsError de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permèsError de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permès Excepte citation anàlisi de patró, totes aproximacions de detecció confien en semblança textual. És per això symptomatic que disminucions de precisió de la detecció els més casos de plagi són obfuscated.

Còpies literals, aka còpia i paste (c&p) plagi, o modestament disguised casos de plagi poden ser detectats amb precisió alta per PDS extern actual si la font és accessible al programari. Especialment la subcadena que aparella els procediments aconsegueixen una actuació bona per c&p plagi, de llavors ençà generalment utilitzen models de document sense pèrdues, com arbres de sufix. L'actuació dels sistemes que utilitzen fingerprinting o bossa d'anàlisi de paraules dins detectant les còpies depén en la pèrdua d'informació incorreguda en pel model de document va utilitzar. Per aplicar flexible chunking i estratègies de selecció, són millors capaç de detectar modera formes de disguised el plagi quan comparat a la subcadena que aparella procediments.

Detecció de plagi intrínsec que utilitza stylometry pot vèncer les fronteres de semblança textual fins a cert punt per comparar semblança lingüística. Donat que les diferències estilístiques entre plagiarized i els segments originals són significatius i pot ser identificat reliably, stylometry pot ajudar dins identificant disguised i paraphrased plagi. Stylometric Les comparacions probablement poden fallar en casos on els segments són fortament paraphrased al punt on més estretament #es #assemblar-se l'estil d'escriptura personal del plagiarist o si un text va ser compilat per autors múltiples. Els resultats de les Competències Internacionals damunt Detecció de Plagi va aguantar dins 2009, 2010 i 2011, així com els experiments van actuar per Stein, indica que stylometric l'anàlisi sembla per treballar reliably només per longituds de document de diversos miler o desenes de milers de paraules, el qual limita l'aplicabilitat del mètode a CaPD enquadraments.Error de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permèsError de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permèsError de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permèsError de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permès

Una quantitat creixent de recerca és actuada en els mètodes i els sistemes capaços de detectar va traduir plagis. Actualment, creu-detecció de plagi de la llengua (CLPD) no és vist com a la tecnologia madura i els sistemes respectius no han estat capaços d'aconseguir satisfent resultats de detecció dins pràctica.Error de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permèsError de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permès

Citation-Detecció de plagi basat que utilitza citation anàlisi de patró és capaç d'identificar traduccions i paràfrasis més fortes amb índexs d'èxit més alt quan comparats a altres aproximacions de detecció, perquè és independent de característiques textuals.Error de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permèsError de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permès Tanmateix, de llavors ençà citation-anàlisi de patró depén en la disponibilitat de suficient citation informació, és limitat a textos acadèmics. Queda inferior a text-va basar aproximacions dins detectant més curt plagiarized passatges, els quals són típics per casos de còpia-i-paste o sacsejada-i-paste plagi; l'últim refereix a barrejar lleugerament va alterar fragments de fonts diferents.Error de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permès

Programari

El disseny de programari de detecció del plagi per l'ús amb documents de text és caracteritzat per un número de factors:^{[cal citació]}

Factor	Descripció i alternatives
Abast de recerca	En la internet pública, utilitzant motors de cerca / les bases de dades Institucionals / Locals, sistema-base de dades específica.^{[cal citació]}
Temps d'anàlisi	Retard entre el temps un document és entregat i el temps quan els resultats són fets disponibles.^{[cal citació]}
Processament de Lot / de capacitat de document	Número de documents el sistema pot processar per unitat de temps.^{[cal citació]}
Intensitat de control	Que sovint i per quins tipus de fragments de document (paràgrafs, frases, seqüències de paraula de longitud fixa) la consulta de sistema recursos externs, com motors de cerca.
Tipus d'algoritme de la comparació	Els algoritmes que defineixen la manera els usos de sistema per comparar documents contra cada altre.^{[cal citació]}
Precisió i Recordar	Número de documents correctament flagged tan plagiarized comparat al número total de flagged documents, i al número total de documents que eren de fet plagiarized. La precisió alta significa que pocs falsos positius van ser trobats, i alt recordar significa que pocs fals negatives va quedar undetected.^{[cal citació]}

La majoria de detecció de plagi d'escala gran els sistemes utilitzen bases de dades grans, internes (a més d'altres recursos) que creixen amb cada document addicional entregat per anàlisi. Tanmateix, aquesta característica és considerada per alguns com a violation de copyright d'estudiant.^{[cal citació]}

codi de font inclós

Plagi dins codi de font de l'ordinador és també freqüent, i requereix eines diferents que aquells utilitzat per comparacions de text dins document. La recerca significativa ha estat dedicada a font acadèmica-plagi de codi.Error de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permès

Un aspecte distintiu de font-plagi de codi és que hi ha cap molins d'assaig, com pot ser trobat en plagi tradicional. De llavors ençà la majoria de programació assignments esperar estudiants per escriure programes amb requisits molt específics, és molt difícil de trobar existint programes que ja els coneixen. De llavors ençà integrant el codi extern és sovint més dur que escrivint-lo de zero, més plagiarizing els estudiants escullen fer tan del seu mira atentament.

Segons Roy i Cordy, font-algoritmes de detecció de semblança de codi poden ser classificats mentre basat en qualsevolError de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permès

Cadenes de caràcterr – es busquen segments de parts textuals exactes, per grups de cinc paraules. Ràpid, però pot ser confós rebatejant identificadors.
Tokens – Mentre amb cordes, però utilitzant un lexer per convertir el programa a tokens primer. Aquest discards whitespace, comentaris, i noms d'identificador, fent el sistema més robust a substitucions de text senzill. La majoria de sistemes de detecció de plagi acadèmics feina a aquest nivell, utilitzant algoritmes diferents per mesurar la semblança entre token seqüències.
Parse Complexió – d'arbres i comparar parse arbres. Això permet semblancesde nivell alt per ser detectat. Per cas, comparació d'arbre pot normalitzar declaracions condicionals, i detectar equivalent construeix tan similar a cadascú altre.
Grafs de Dependència del programa (PDGs) – un PDG captura el flux real de control en un programa, i permet moltes equivalències de nivell alt per ser localitzat, a una despesa més gran dins complexitat i temps de càlcul.
Els nuclis de captura – de mètrica de la mètrica de segments de codi segons criteris segurs; per cas, "el número de bucles i conditionals", o "el número de variables diferents va utilitzar". La mètrica és senzilla de calcular i pot ser comparat de pressa, però pot també avantatge a falsos positius: dos fragments amb les mateixes puntuacions en un conjunt de mètriques pot fer enterament coses diferents.
Aproximacions híbrides – per cas, parse arbres + de sufix dels arbres poden combinar la capacitat de detecció de parse arbres amb la velocitat permesa per arbres de sufix, un tipus d'estructura de dada que aparella corda.

La classificació anterior va ser desenvolupada per codi refactoring, i no per detecció de plagi acadèmic (un objectiu important de refactoring és per evitar codi duplicat, va referir a tan clons de codi en la literatura). El per sobre de les aproximacions són eficaces contra nivells diferents de semblança; baix-semblança de nivell refereix a text idèntic, mentre alt-semblança de nivell pot ser a causa d'especificacions similars. En un enquadrament acadèmic, quan tots els estudiants són esperats a codi a les mateixes especificacions, funcionalment codi equivalent (amb semblançade nivell alt ) és enterament esperat, i només baix-semblança de nivell és considerada tan prova d'enganyar.

Vegeu també

Categoria:detectors de Plagi
Comparació de anti-programari de plagi
Locality Sensible hashing
Recerca de veí més proper
Detecció de paràfrasi
Kolmogorov Compressió#de complexitat – utilitzada per calcular semblança entre token seqüències en diversos sistemes

Referències

Error de citació: L'etiqueta <ref> amb el nom "Stein07" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Potthast09" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Stein07a" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "MeyerZuEissen06" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Bao06" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Clough00" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Culwin01" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Lancaster03" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Maurer07" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Hoad03" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Stein05" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Brin95" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Gipp14" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Gipp13" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Monostori00" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Baker93" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Khmelev03" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Si97" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Dreher07" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Muhr09" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Gipp09" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Gipp10" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Gipp11" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Gipp11a" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Holmes98" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Juola08" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "HTW04" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "HTW08" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "HTW10" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Potthast10" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Potthast11" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Stein11" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Potthast10a" definida a <references> no s'utilitza en el text anterior.

Error de citació: L'etiqueta <ref> amb el nom "Weber-Wulff08" definida a <references> no s'utilitza en el text anterior.

Bibliografia

Carroll, J. (2002). Un handbook per dissuadir plagi en educació més alta. Oxford: El Centre d'Oxford per Personal i Aprenent Desenvolupament, Oxford Brookes Universitat. (96 p.), ISBN 1873576560 1873576560
Zeidman, B. (2011). El Detectiu d'IP del Programari Handbook. Prentice Sala. (480 p.), ISBN 0137035330 0137035330

Enllaços externs