Detecció de similitud de contingut: diferència entre les revisions

De la Viquipèdia, l'enciclopèdia lliure
Contingut suprimit Contingut afegit
Creada per traducció de la pàgina «Plagiarism detection»
Línia 1: Línia 1:
'''Detecció de plagi''' és el procés de localitzar casos de [[plagi]] dins d'una feina o document. L'ús estès d'ordinadors i el advent de l'Internet ha fet el més fàcil a plagiarize la feina d'altres. La majoria de casos de plagi són trobats dins academia, on els documents són típicament assajos o informes. Tanmateix, el plagi pot ser trobat dins virtualment qualsevol camp, incloent novel·les, papers científics, dissenys d'art, i codi de font.
{{Inacabat}}


La detecció de plagi pot ser qualsevol manual o programari-va assistir. La detecció manual requereix esforç substancial i memòria excel·lent, i és impractical en casos on massa documents han de ser comparats, o els documents originals no són disponibles per comparació. Programari-la detecció assistida permet col·leccions vastes de documents per ser comparats a cadascú altre, fent detecció exitosa molt més probablement.
La '''detecció de plagi''' és el procés de localització de casos de plagi en un treball o document. L'ús generalitzat dels ordinadors i l'arribada d'Internet han facilitat el plagi del treball dels altres. La majoria dels casos de plagi es troben en l'àmbit acadèmic, on els documents solen ser assajos o informes. No obstant això, el plagi pot trobar-se en pràcticament qualsevol camp, incloent novel·les, articles científics, dissenys d'art i codi font.


La pràctica de plagiarizing per ús de substitucions de paraula suficient a elude programari de detecció és sabut com rogeting.<ref />
== Motors d'investigació ==
Amb el desenvolupament d'Internet i les noves tecnologies, el fenomen del plagi escolar s'ha desenvolupat molt, particularment en el món acadèmic. Molts professors han buscat formes i mètodes efectius per combatre el plagi, arribant a crear gran quantitat de motors per a detectar-lo.


== Programari-detecció assistida ==
Per detectar un possible plagi, la primera possibilitat és buscar en un motor de cerca paraules clau o frases del text en qüestió, per veure si trobem un text potencialment plagiat.
Ordinador-detecció de plagi assistit (CaPD) és una Informació retrieval (IR) la tasca donada suport per va especialitzar sistemes d'IR, va referir a tan sistemes de detecció del plagi (PDS).


=== Dins documents de text ===
Aquest mètode pot ser especialment efectiu en el cas d'un estudiant que ha recopilat completament un article que es troba a Internet. D'altra banda, si l'estudiant ha plagiat diverses fonts, o només una part del seu deure, aquesta recerca pot convertir-se ràpidament en tediós
Sistemes per text-detecció de plagi implementa un de dues detecció genèrica aproximacions, un sent extern, l'altre sent intrínsec.<ref />
Sistemes de detecció externa comparen un document sospitós amb una col·lecció de referència, el qual és un conjunt dels documents van assumir per ser genuí.<ref />
Basat en un [[Recuperació d'informació|model de document]] escollit i predefined criteris de semblança, la tasca de detecció és per recuperar tots els documents que contenen text que és similar a un grau per sobre d'un llindar escollit a text en el document sospitós.<ref />
PDS intrínsec només analitza el text per ser avaluat sense actuar comparacions a documents externs. Aquests objectius d'aproximació per reconèixer canvis en l'estil d'escriptura únic d'un autor com un indicador per plagi potencial.<ref />
PDS no és capaç de reliably identificant plagi sense judici humà. Les semblances són computades amb l'ajuda de predefined models de document i podria representar falsos positius.<ref /><ref /><ref /><ref /><ref />


==== Efectivitat d'en enquadraments d'educació més alta ====
== Programaris de detecció de plagi ==
Un estudi va ser conduït per provar l'efectivitat de programari de detecció del plagi en un enquadrament d'educació més alt. Un separa de l'estudi va assignar un grup d'estudiants per escriure un paper. Aquests estudiants eren primer educat aproximadament plagi i va informar que la seva feina era per ser corregut a través d'un sistema de detecció del plagi. Un segon grup d'estudiants va ser assignat per escriure un paper sense qualsevol informació aproximadament plagi. Els investigadors van esperar trobar els índexs més baixos dins agrupen un però trobat més o menys els mateixos índexs de plagi en ambdós grups.<ref />
Per lluitar contra aquest fenomen creixent, diversos programaris han aparegut aquests últims temps. Han característics sensiblement idèntics, però la seva eficàcia pot variar.


==== Aproximacions ====
Aquests programaris van de la simplíssima comparació de dos documents a la investigació automàtica de fonts sortides de la Internet per a les més eficients. Seguint el seu grau de aboutissement, són en mesura de tractar un nombre més o menys important de formats de fitxers, els més difosos sent els fitxers [[Microsoft Word|Word]], [[PDF]] i #[[Hyper Text Markup Language|html]].
La figura a sota representa una classificació de totes aproximacions de detecció actualment dins ús per ordinador-detecció de plagi assistit. Les aproximacions són caracteritzades pel tipus de valoració de semblança emprenen: global o local. Aproximacions de valoració de semblança globals utilitzen les característiques agafades de parts més grans del text o el document globalment per computar semblança, mentre els mètodes locals només examinen pre-segments de text seleccionat mentre entrada.
[[Fitxer:PDS_Classification.png|center|miniatura|Classificació d'ordinador-mètodes de detecció de plagi assistits]]


===== Fingerprinting =====
Es distingeix en fet fonamentalment dos caracteritzes de funcionament per a aquests programaris :
Fingerprinting És actualment el més aproximació aplicada àmpliament a detecció de plagi. Aquest mètode forma representatiu digests de documents per seleccionar un conjunt de subcadenes múltiples ([[N-grama|n-grams]]) d'ells. Els conjunts representen el fingerprints i els seus elements són cridats minutiae.<ref /><ref />
Un document sospitós és comprovat per plagi per computar el seu fingerprint i querying minutiae amb un precomputed índex de fingerprints per tots els documents d'una col·lecció de referència. Minutiae Aparellant amb aquells d'altres documents indiquen segments de text compartit i suggerir plagi potencial si superen un llindar de semblança escollit.<ref /> Temps i recursos computacionals estan limitant factors a fingerprinting, el qual és per què aquest mètode típicament només compara un subconjunt de minutiae per sol·licitar la computació i permetre per controls dins col·lecció molt gran, com l'Internet.<ref />


===== Comparació de cadenes de caràcters =====
* els que treballen sobre un [[Servidor|servidor distant]] ;
La corda que aparella és un prevalent l'aproximació va utilitzar dins informàtica. Quan aplicat al problema de detecció de plagi, els documents són comparats per verbatim el text solapa. Els mètodes nombrosos han estat proposats per emprendre aquesta tasca, del qual algun tenir estat adaptat a detecció de plagi extern. Comprovant un document sospitós en aquest enquadrament requereix la computació i emmagatzematge d'amb eficiència representacions comparables per tots els documents en la col·lecció de referència per comparar-los pairwise. Generalment, models de document del sufix, com arbres de sufix o vectors de sufix, ha estat utilitzat per aquesta tasca. No obstant això, la subcadena que aparella les restes computacionalment cares, el qual el fa una solució no viable per comprovar col·leccions grans de documents.<ref /><ref /><ref />
* els que poden haver instal·lat directament sobre la màquina de l'usuari, i utilitzats en local.


===== Bossa de paraules =====
El primer tipus de programari és ''ha priori'' el més eficaç perquè disposa ben sovint d'una base de dades de referència gigantesca, qui es va enriquir a cada vegada que un nou document li ha sotmès per a anàlisi, el servidor incorporant-la llavors als seus documents de referència.
La bossa d'anàlisi de paraules representa l'adopció d'espai de vector retrieval, un concepte d'IR tradicional, a l'àmbit de detecció de plagi. Els documents són representats mentre un o vectors múltiples, p. ex. per parts de document diferent, els quals són utilitzats per parell computacions de semblança assenyada. Computació de semblança llavors pot confiar en el tradicional cosine mesura de semblança, o damunt semblança més sofisticada mesures.
Allò té d'en un altre lloc estat l'objecte d'un escàndol per al programari ''Turnitin'', acusat de violar el dret d'autor de tots els estudiants qui veien els seus informes reutilitzats a fins comercials per l'editor de programari.<ref>[http://www.techno-science.net/?onglet=news&news=3244 Turnitin : la polémique des technologies anti-plagiat]</ref>

===== Anàlisi de Cites =====
Citation-Detecció de plagi basat (CbPD) confia damunt [[Anàlisi de citacions|citation anàlisi]], i és l'aproximació única a detecció de plagi que no confia en la semblança textual.<ref /><ref /> CbPD Examina el citation i informació de referència en textos per identificar patrons similars en el citation seqüències. Com a tal, aquesta aproximació és adequada per textos científics, o altres documents acadèmics que contenen citations. Citation Anàlisi per detectar el plagi és un concepte relativament jove. No ha estat adoptat per programari comercial, però un primer prototipus d'un citation-sistema de detecció de plagi basat existeix.<ref /> Ordre similar i proximity de citations en el va examinar els documents són els criteris principals va utilitzar per computar citation semblances de patró. Citation Els patrons representen subsuccessions no-exclusivament contenint citations compartit pels documents van comparar.<ref /><ref /> Factors, incloent el número absolut o fracció relativa de compartit citations en el patró, així com la probabilitat que citations co-ocórrer en un document és també considerat per quantificar el grau dels patrons de semblança.<ref /><ref /><ref /><ref />

===== Stylometry =====
Stylometry subsumes Mètodes estadístics per quantificar l'estil d'escriptura única d'un autor i és principalment utilitzat per authorship atribució o intrínsec CaPD.<ref /><ref /> Per construir i comparant stylometric models per segments de text diferent, passatges que són stylistically diferent d'altres, per això potencialment plagiarized, pot ser detectat.<ref />

==== Actuació ====
Les avaluacions comparatives de sistemes de detecció del plagi indiquen que la seva actuació depén en el tipus de present de plagi (veu figura).<ref /><ref /><ref /><ref /><ref /><ref /> Excepte citation anàlisi de patró, totes aproximacions de detecció confien en semblança textual. És per això symptomatic que disminucions de precisió de la detecció els més casos de plagi són obfuscated.
[[Fitxer:PD_Methods_Detection_Performance.png|center|miniatura|Actuació de detecció de CaPD s'apropa dependre en el tipus de present de ser del plagi]]
Còpies literals, aka còpia i paste (c&p) plagi, o modestament disguised casos de plagi poden ser detectats amb precisió alta per PDS extern actual si la font és accessible al programari. Especialment la subcadena que aparella els procediments aconsegueixen una actuació bona per c&p plagi, de llavors ençà generalment utilitzen models de document sense pèrdues, com arbres de sufix. L'actuació dels sistemes que utilitzen fingerprinting o bossa d'anàlisi de paraules dins detectant les còpies depén en la pèrdua d'informació incorreguda en pel model de document va utilitzar. Per aplicar flexible chunking i estratègies de selecció, són millors capaç de detectar modera formes de disguised el plagi quan comparat a la subcadena que aparella procediments.

Detecció de plagi intrínsec que utilitza stylometry pot vèncer les fronteres de semblança textual fins a cert punt per comparar semblança lingüística. Donat que les diferències estilístiques entre plagiarized i els segments originals són significatius i pot ser identificat reliably, stylometry pot ajudar dins identificant disguised i paraphrased plagi. Stylometric Les comparacions probablement poden fallar en casos on els segments són fortament paraphrased al punt on més estretament #es #assemblar-se l'estil d'escriptura personal del plagiarist o si un text va ser compilat per autors múltiples. Els resultats de les Competències Internacionals damunt Detecció de Plagi va aguantar dins 2009, 2010 i 2011, així com els experiments van actuar per Stein, indica que stylometric l'anàlisi sembla per treballar reliably només per longituds de document de diversos miler o desenes de milers de paraules, el qual limita l'aplicabilitat del mètode a CaPD enquadraments.<ref /><ref /><ref /><ref />

Una quantitat creixent de recerca és actuada en els mètodes i els sistemes capaços de detectar va traduir plagis. Actualment, creu-detecció de plagi de la llengua (CLPD) no és vist com a la tecnologia madura i els sistemes respectius no han estat capaços d'aconseguir satisfent resultats de detecció dins pràctica.<ref /><ref />

Citation-Detecció de plagi basat que utilitza citation anàlisi de patró és capaç d'identificar traduccions i paràfrasis més fortes amb índexs d'èxit més alt quan comparats a altres aproximacions de detecció, perquè és independent de característiques textuals.<ref /><ref /> Tanmateix, de llavors ençà citation-anàlisi de patró depén en la disponibilitat de suficient citation informació, és limitat a textos acadèmics. Queda inferior a text-va basar aproximacions dins detectant més curt plagiarized passatges, els quals són típics per casos de còpia-i-paste o sacsejada-i-paste plagi; l'últim refereix a barrejar lleugerament va alterar fragments de fonts diferents.<ref />

==== Programari ====
El disseny de programari de detecció del plagi per l'ús amb documents de text és caracteritzat per un número de factors:{{Citació necessària}}
{| class="wikitable" style="margin-bottom: 10px;"
!Factor
!Descripció i alternatives
|-
|'''Abast de recerca'''
|En la internet pública, utilitzant motors de cerca / les bases de dades Institucionals / Locals, sistema-base de dades específica.{{Citació necessària}}
|-
|'''Temps d'anàlisi'''
|Retard entre el temps un document és entregat i el temps quan els resultats són fets disponibles.{{Citació necessària}}
|-
|'''Processament de Lot / de capacitat de document'''
|Número de documents el sistema pot processar per unitat de temps.{{Citació necessària}}
|-
|'''Intensitat de control'''
|Que sovint i per quins tipus de fragments de document (paràgrafs, frases, seqüències de paraula de longitud fixa) la consulta de sistema recursos externs, com motors de cerca.
|-
|'''Tipus d'algoritme de la comparació'''
|Els algoritmes que defineixen la manera els usos de sistema per comparar documents contra cada altre.{{Citació necessària}}
|-
|'''Precisió i Recordar'''
|Número de documents correctament flagged tan plagiarized comparat al número total de flagged documents, i al número total de documents que eren de fet plagiarized. La precisió alta significa que pocs falsos positius van ser trobats, i alt recordar significa que pocs fals negatives va quedar undetected.{{Citació necessària}}
|}
La majoria de detecció de plagi d'escala gran els sistemes utilitzen bases de dades grans, internes (a més d'altres recursos) que creixen amb cada document addicional entregat per anàlisi. Tanmateix, aquesta característica és considerada per alguns com a violation de copyright d'estudiant.{{Citació necessària}}

=== codi de font inclós ===
Plagi dins codi de font de l'ordinador és també freqüent, i requereix eines diferents que aquells utilitzat per comparacions de text dins document. La recerca significativa ha estat dedicada a font acadèmica-plagi de codi.<ref />

Un aspecte distintiu de font-plagi de codi és que hi ha cap molins d'assaig, com pot ser trobat en plagi tradicional. De llavors ençà la majoria de programació assignments esperar estudiants per escriure programes amb requisits molt específics, és molt difícil de trobar existint programes que ja els coneixen. De llavors ençà integrant el codi extern és sovint més dur que escrivint-lo de zero, més plagiarizing els estudiants escullen fer tan del seu mira atentament.

Segons Roy i Cordy, font-algoritmes de detecció de semblança de codi poden ser classificats mentre basat en qualsevol<ref />

* Cadenes de caràcterr – es busquen segments de parts textuals exactes, per grups de cinc paraules. Ràpid, però pot ser confós rebatejant identificadors.
* Tokens – Mentre amb cordes, però utilitzant un [[Anàlisi lèxica|lexer]] per convertir el programa a [[Anàlisi lèxica|tokens]] primer. Aquest discards whitespace, comentaris, i noms d'identificador, fent el sistema més robust a substitucions de text senzill. La majoria de sistemes de detecció de plagi acadèmics feina a aquest nivell, utilitzant algoritmes diferents per mesurar la semblança entre token seqüències.
* Parse Complexió – d'arbres i comparar parse arbres. Això permet semblancesde nivell alt per ser detectat. Per cas, comparació d'arbre pot normalitzar declaracions condicionals, i detectar equivalent construeix tan similar a cadascú altre.
* Grafs de Dependència del programa (PDGs) – un PDG captura el flux real de control en un programa, i permet moltes equivalències de nivell alt per ser localitzat, a una despesa més gran dins complexitat i temps de càlcul.
* Els nuclis de captura – de mètrica de la mètrica de segments de codi segons criteris segurs; per cas, "el número de bucles i conditionals", o "el número de variables diferents va utilitzar". La mètrica és senzilla de calcular i pot ser comparat de pressa, però pot també avantatge a falsos positius: dos fragments amb les mateixes puntuacions en un conjunt de mètriques pot fer enterament coses diferents.
* Aproximacions híbrides – per cas, parse arbres + de sufix dels arbres poden combinar la capacitat de detecció de parse arbres amb la velocitat permesa per arbres de sufix, un tipus d'estructura de dada que aparella corda.

La classificació anterior va ser desenvolupada per [[Refacció|codi refactoring]], i no per detecció de plagi acadèmic (un objectiu important de refactoring és per evitar codi duplicat, va referir a tan clons de codi en la literatura). El per sobre de les aproximacions són eficaces contra nivells diferents de semblança; baix-semblança de nivell refereix a text idèntic, mentre alt-semblança de nivell pot ser a causa d'especificacions similars. En un enquadrament acadèmic, quan tots els estudiants són esperats a codi a les mateixes especificacions, funcionalment codi equivalent (amb semblançade nivell alt ) és enterament esperat, i només baix-semblança de nivell és considerada tan prova d'enganyar.


== Vegeu també ==
== Vegeu també ==

* [[Plagi]]
* Categoria:detectors de Plagi
* [[Propietat intel·lectual]]
* [[Programari antiplagi|Comparació de anti-programari de plagi]]
* [[Turnitin]]
* Locality Sensible hashing
* [[Programari antiplagi]]
* Recerca de veí més proper
* [[Plagscan]]
* Detecció de paràfrasi
* Kolmogorov Compressió#de complexitat – utilitzada per calcular semblança entre token seqüències en diversos sistemes


== Referències ==
== Referències ==
{{reflist|30em|refs=<ref name="Stein07">{{citation
{{Referències}}
| last=Stein | first=Benno | last2=Koppel | first2=Moshe
| last3=Stamatatos | first3=Efstathios
| title=Plagiarism Analysis, Authorship Identification, and Near-Duplicate Detection PAN’07
| journal=SIGIR Forum
| volume=41
| issue=2
|date=Dec 2007
| doi=10.1145/1328964.1328976
| url=http://www.uni-weimar.de/medien/webis/publications/papers/stein_2007o.pdf
}}</ref>

<ref name=Potthast09>{{citation
|last = Potthast
|first = Martin
|last2 = Stein
|first2 = Benno
|last3 = Eiselt
|first3 = Andreas
|last4 = Barrón-Cedeño
|first4 = Alberto
|last5 = Rosso
|first5 = Paolo
|contribution = Overview of the 1st International Competition on Plagiarism Detection
|year = 2009
|title = PAN09 - 3rd Workshop on Uncovering Plagiarism, Authorship and Social Software Misuse and 1st International Competition on Plagiarism Detection
|series = CEUR Workshop Proceedings
|volume = 502
|pages = 1–9
|issn = 1613-0073
|url = http://www.uni-weimar.de/medien/webis/research/events/pan-09/pan09-papers-final/potthast09-overview-first-international-competition-plagiarism-detection.pdf
|deadurl = yes
|archiveurl = https://web.archive.org/web/20120402050919/http://www.uni-weimar.de/medien/webis/research/events/pan-09/pan09-papers-final/potthast09-overview-first-international-competition-plagiarism-detection.pdf
|archivedate = 2 April 2012
|df = dmy-all
}}</ref>

<ref name=Stein07a>{{citation
| last=Stein | first=Benno | last2=Meyer zu Eissen | first2=Sven
| last3=Potthast | first3=Martin
| contribution=Strategies for Retrieving Plagiarized Documents
| year=2007
| title=Proceedings 30th Annual International ACM SIGIR Conference
| pages=825–826
| publisher=ACM
| ISBN=978-1-59593-597-7
| doi=10.1145/1277741.1277928
| url=http://www.uni-weimar.de/medien/webis/publications/papers/stein_2007f.pdf
}}</ref>

<ref name=MeyerZuEissen06>{{citation
| last=Meyer zu Eissen | first=Sven | last2=Stein | first2=Benno
| contribution=Intrinsic Plagiarism Detection
| year=2006
| title=Advances in Information Retrieval 28th European Conference on IR Research, ECIR 2006, London, UK, April 10–12, 2006 Proceedings
| series=Lecture Notes in Computer Science
| volume=3936
| pages=565–569
| publisher=Springer
| doi=10.1007/11735106_66
| url=http://www.uni-weimar.de/medien/webis/publications/papers/stein_2006d.pdf
}}</ref>

<ref name=Bao06>{{citation
| last=Bao | first=Jun-Peng | last2=Malcolm | first2=James A.
| contribution=Text similarity in academic conference papers
| year=2006
| title=2nd International Plagiarism Conference Proceedings
| publisher=Northumbria University Press
| url=http://www.plagiarismadvice.org/images/stories/old_site/media/2006papers/JunPengBao.pdf
}}</ref>

<ref name=Clough00>{{citation
|last = Clough
|first = Paul
|title = Plagiarism in natural and programming languages an overview of current tools and technologies
|year = 2000
|type = Technical Report
|publisher = Department of Computer Science, University of Sheffield
|url = http://www.ir.shef.ac.uk/cloughie/papers/plagiarism2000.pdf
|deadurl = yes
|archiveurl = https://web.archive.org/web/20110818161514/http://ir.shef.ac.uk/cloughie/papers/plagiarism2000.pdf
|archivedate = 18 August 2011
|df = dmy-all
}}</ref>

<ref name="Culwin01">{{citation
|last = Culwin
|first = Fintan
|last2 = Lancaster
|first2 = Thomas
|title = Plagiarism issues for higher education
|journal = Vine
|volume = 31
|issue = 2
|year = 2001
|pages = 36–41
|doi = 10.1108/03055720010804005
|url = http://www.essaycoursework.com/howtowriteessaynet/pdf/plagiarism-higheredu.pdf
|deadurl = yes
|archiveurl = https://web.archive.org/web/20120405090134/http://www.essaycoursework.com/howtowriteessaynet/pdf/plagiarism-higheredu.pdf
|archivedate = 5 April 2012
|df = dmy-all
}}</ref>

<ref name=Lancaster03>{{citation
|last = Lancaster
|first = Thomas
|title = Effective and Efficient Plagiarism Detection
|year = 2003
|type = PhD Thesis
|publisher = School of Computing, Information Systems and Mathematics South Bank University
|url = http://www.bcu.academia.edu/documents/0009/4554/Lancaster_2003.pdf
}}{{dead link|date=March 2018 |bot=InternetArchiveBot |fix-attempted=yes }}</ref>

<ref name=Maurer07>{{citation
| last=Maurer | first=Hermann | last2=Zaka | first2=Bilal
| contribution=Plagiarism - A Problem And How To Fight It
| year=2007
| title=Proceedings of World Conference on Educational Multimedia, Hypermedia and Telecommunications 2007
| pages=4451–4458
| publisher=AACE
| url=http://www.editlib.org/p/26021
}}</ref>

<ref name=Hoad03>{{citation
| last=Hoad | first=Timothy | last2=Zobel | first2=Justin
| title=Methods for Identifying Versioned and Plagiarised Documents
| journal=Journal of the American Society for Information Science and Technology
| volume=54
| issue=3
| year=2003
| pages=203–215
| doi=10.1002/asi.10170
| citeseerx = 10.1.1.18.2680
| url=http://goanna.cs.rmit.edu.au/~jz/fulltext/jasist-tch.pdf
}}</ref>

<ref name=Stein05>{{citation
| last=Stein | first=Benno
| contribution=Fuzzy-Fingerprints for Text-Based Information Retrieval
|date=July 2005
| title=Proceedings of the I-KNOW ‘05, 5th International Conference on Knowledge Management, Graz, Austria
| pages=572–579
| publisher=Springer, Know-Center
| url=http://www.uni-weimar.de/medien/webis/publications/papers/stein_2005a.pdf
}}</ref>

<ref name="Brin95">{{citation
| last=Brin | first=Sergey | last2=Davis | first2=James
| last3=Garcia-Molina | first3=Hector
| contribution=Copy Detection Mechanisms for Digital Documents
| year=1995
| title=Proceedings of the 1995 ACM SIGMOD International Conference on Management of Data
| pages=398–409
| publisher=ACM
| isbn=1-59593-060-4
| doi=10.1145/223784.223855
| url=http://ilpubs.stanford.edu:8090/112/1/1995-43.pdf
}}</ref>

<ref name=Gipp14>{{citation
| last=Gipp| first=Bela
| title=Citation-based Plagiarism Detection
| date= 2014
| publisher=Springer Vieweg Research
| isbn=978-3-658-06393-1
| url = https://www.springer.com/springer+vieweg/it+%26+informatik/k%C3%BCnstliche+intelligenz/book/978-3-658-06393-1
}}</ref>

<ref name=Gipp13>{{citation
| last=Gipp | first=Bela| last2=Meuschke| first2=Norman | last3=Breitinger | first3=Corinna
| last4=Lipinski | first4=Mario | last5=Nürnberger | first5=Andreas
| contribution=Demonstration of Citation Pattern Analysis for Plagiarism Detection
| date=28 July 2013 | title=Proceedings of the 36th International ACM SIGIR Conference on Research and Development in Information Retrieval
| publisher=ACM
| doi=10.1145/2484028.2484214
| url=http://sciplore.org/wp-content/papercite-data/pdf/gipp13.pdf
}}</ref>

<ref name=Monostori00>{{citation
| last=Monostori | first=Krisztián | last2=Zaslavsky | first2=Arkady
| last3=Schmidt | first3=Heinz
| contribution=Document Overlap Detection System for Distributed Digital Libraries
| year=2000
| title=Proceedings of the fifth ACM conference on Digital libraries
| pages=226–227
| publisher=ACM
| isbn=1-58113-231-X
| doi=10.1145/336597.336667
| url=http://www.csse.monash.edu.au/projects/MDR/papers/dl2000-monostori.pdf
}}</ref>

<ref name=Baker93>{{citation
|last = Baker
|first = Brenda S.
|authorlink = Brenda Baker
|title = On Finding Duplication in Strings and Software
|date = February 1993
|type = Technical Report
|publisher = AT&T Bell Laboratories, NJ
|url = http://cm.bell-labs.com/cm/cs/doc/93/2-bsb-1.ps.gz
|format = gs
|deadurl = yes
|archiveurl = https://web.archive.org/web/20071030140253/http://cm.bell-labs.com/cm/cs/doc/93/2-bsb-1.ps.gz
|archivedate = 30 October 2007
|df = dmy-all
}}</ref>

<ref name=Khmelev03>{{citation
|last=Khmelev
|first=Dmitry V.
|last2=Teahan
|first2=William J.
|contribution=A Repetition Based Measure for Verification of Text Collections and for Text Categorization
|year=2003
|title=SIGIR'03: Proceedings of the 26th annual international ACM SIGIR conference on Research and development in information retrieval
|pages=104–110
|publisher=ACM
|doi=10.1145/860435.860456
|citeseerx = 10.1.1.9.6155
}}</ref>

<ref name=Si97>{{citation
| last=Si | first=Antonio | last2=Leong | first2=Hong Va
| last3=Lau | first3=Rynson W. H.
| contribution=CHECK: A Document Plagiarism Detection System
| year=1997
| title=SAC ’97: Proceedings of the 1997 ACM symposium on Applied computing
| pages = 70–77
| publisher = ACM
| isbn=0-89791-850-9
| doi=10.1145/331697.335176
| url=http://www.cs.cityu.edu.hk/~rynson/papers/sac97.pdf
}}</ref>

<ref name="Dreher07">{{citation
| last=Dreher | first=Heinz
| title=Automatic Conceptual Analysis for Plagiarism Detection
| journal=Information and Beyond: The Journal of Issues in Informing Science and Information Technology
| volume=4
| year=2007
| pages=601–614
| url=http://proceedings.informingscience.org/InSITE2007/IISITv4p601-614Dreh383.pdf
}}</ref>

<ref name=Muhr09>{{citation
|last = Muhr
|first = Markus
|last2 = Zechner
|first2 = Mario
|last3 = Kern
|first3 = Roman
|last4 = Granitzer
|first4 = Michael
|contribution = External and Intrinsic Plagiarism Detection Using Vector Space Models
|year = 2009
|title = PAN09 - 3rd Workshop on Uncovering Plagiarism, Authorship and Social Software Misuse and 1st International Competition on Plagiarism Detection
|series = CEUR Workshop Proceedings
|volume = 502
|pages = 47–55
|issn = 1613-0073
|url = http://www.uni-weimar.de/medien/webis/research/events/pan-09/pan09-papers-final/zechner09-external-and-intrinsic-plagiarism-detection-using-vsm.pdf
|deadurl = yes
|archiveurl = https://web.archive.org/web/20120402051035/http://www.uni-weimar.de/medien/webis/research/events/pan-09/pan09-papers-final/zechner09-external-and-intrinsic-plagiarism-detection-using-vsm.pdf
|archivedate = 2 April 2012
|df = dmy-all
}}</ref>

<ref name=Gipp09>{{citation
| last=Gipp | first=Bela | last2=Beel | first2=Jöran
| contribution=Citation Proximity Analysis (CPA) - A new approach for identifying related work based on Co-Citation Analysis
|date=July 2009
| title=Proceedings of the 12th International Conference on Scientometrics and Informetrics (ISSI’09)
| pages=571–575
| publisher=International Society for Scientometrics and Informetrics
| issn=2175-1935
| url=http://www.sciplore.org/publications/2009-Citation_Proximity_Analysis_(CPA)_-_A_new_approach_for_identifying_related_work_based_on_Co-Citation_Analysis_--_preprint.pdf}}</ref>

<ref name=Gipp10>{{citation
| last=Gipp | first=Bela
| last2=Beel | first2=Jöran
| contribution=Citation Based Plagiarism Detection - A New Approach to Identifying Plagiarized Work Language Independently
|date=June 2010
| title=Proceedings of the 21st ACM Conference on Hypertext and Hypermedia (HT'10)
| pages=273–274
| publisher=ACM
| isbn=978-1-4503-0041-4
| doi=10.1145/1810617.1810671
| url=http://www.sciplore.org/publications/2010-Citation_Based_Plagiarism_Detection_-_A_New_Approach_to_Identify_Plagiarized_Work_Language_Independently_-_preprint.pdf
}}</ref>

<ref name=Gipp11>{{citation
| last=Gipp | first=Bela | last2=Meuschke | first2=Norman | last3=Beel | first3=Jöran
| contribution=Comparative Evaluation of Text- and Citation-based Plagiarism Detection Approaches using GuttenPlag
|date=June 2011
| title=Proceedings of 11th ACM/IEEE-CS Joint Conference on Digital Libraries (JCDL’11)
| pages=255–258
| publisher=ACM
| isbn=978-1-4503-0744-4
| doi=10.1145/1998076.1998124
| url=http://www.sciplore.org/publications/2011-Comparative_Evaluation_of_Text-_and_Citation-based_Plagiarism_Detection_Approaches_using_GuttenPlag.pdf
}}</ref>

<ref name=Gipp11a>
{{citation
| last=Gipp | first=Bela | last2=Meuschke | first2=Norman
| contribution=Citation Pattern Matching Algorithms for Citation-based Plagiarism Detection: Greedy Citation Tiling, Citation Chunking and Longest Common Citation Sequence
|date=September 2011
| title=Proceedings of the 11th ACM Symposium on Document Engineering (DocEng2011)
| pages=249–258
| publisher=ACM
| isbn= 978-1-4503-0863-2
| doi=10.1145/2034691.2034741
| url=http://www.sciplore.org/publications/2011-Citation_Pattern_Matching_Algorithms_for_Citation-based_Plagiarism_Detection--Greedy_Citation_Tiling,_Citation_Chunking_and_Longest_Common_Citation_Sequence.pdf
}}</ref>

<ref name=Holmes98>{{citation
| last=Holmes | first=David I.
| title=The Evolution of Stylometry in Humanities Scholarship
| journal=Literary and Linguistic Computing
| volume=13
| issue=3
| year=1998
| pages=111–117
| doi=10.1093/llc/13.3.111
}}</ref>

<ref name=Juola08>{{citation
| last=Juola | first=Patrick
| title=Authorship Attribution
| journal=Foundations and Trends Information Retrieval
| volume=1
| year=2006
| pages=233–334
| issn=1554-0669
| doi=10.1561/1500000005
| url=http://www.mathcs.duq.edu/~juola/papers.d/fnt-aa.pdf
}}</ref>

<ref name=HTW04>{{citation
| url=http://plagiat.htw-berlin.de/ff-alt/05hilfen/programme.html
| title=Portal Plagiat - Softwaretest 2004
| language = German
| publisher=HTW University of Applied Sciences Berlin
| accessdate=6 October 2011
}}</ref>

<ref name=HTW08>{{citation
| url=http://plagiat.htw-berlin.de/software/2008/
| title=Portal Plagiat - Softwaretest 2008
| language = German
| publisher=HTW University of Applied Sciences Berlin
| accessdate=6 October 2011
}}</ref>

<ref name=HTW10>{{citation
| url=http://plagiat.htw-berlin.de/software/2010-2/
| title=Portal Plagiat - Softwaretest 2010
| language = German
| publisher=HTW University of Applied Sciences Berlin
| accessdate=6 October 2011
}}</ref>

<ref name=Potthast10>{{citation
| last=Potthast | first=Martin | last2=Barrón-Cedeño | first2=Alberto
| last3=Eiselt | first3=Andreas | last4=Stein | first4=Benno
| last5=Rosso | first5=Paolo
| contribution=Overview of the 2nd International Competition on Plagiarism Detection
| year=2010
| title=Notebook Papers of CLEF 2010 LABs and Workshops, 22–23 September, Padua, Italy
| url=http://clef2010.org/resources/proceedings/clef2010labs_submission_125.pdf
}}</ref>

<ref name=Potthast11>{{citation
| last=Potthast | first=Martin | last2=Eiselt| first2=Andreas
| last3=Barrón-Cedeño| first3=Alberto | last4=Stein| first4=Benno
| last5=Rosso| first5=Paolo
| contribution=Overview of the 3rd International Competition on Plagiarism Detection
| year=2011
| title=Notebook Papers of CLEF 2011 LABs and Workshops, 19–22 September, Amsterdam, Netherlands
| url=http://www.uni-weimar.de/medien/webis/publications/papers/stein_2011t.pdf
}}</ref>

<ref name=Stein11>{{citation
| last=Stein | first=Benno | last2=Lipka | first2=Nedim
| last3=Prettenhofer | first3=Peter
| title=Intrinsic Plagiarism Analysis
| journal=Language Resources and Evaluation
| volume=45
| issue=1
| year=2011
| pages=63–82
| issn=1574-020X
| doi=10.1007/s10579-010-9115-y
| url=http://www.uni-weimar.de/medien/webis/publications/papers/stein_2011a.pdf
}}</ref>

<ref name=Potthast10a>{{citation
| last=Potthast | first=Martin | last2=Barrón-Cedeño | first2=Alberto
| last3=Stein | first3=Benno | last4=Rosso | first4=Paolo
| title=Cross-Language Plagiarism Detection
| journal=Language Resources and Evaluation
| volume=45
| issue=1
| year=2011
| pages=45–62
| issn=1574-020X
| doi=10.1007/s10579-009-9114-z
| url=http://www.uni-weimar.de/medien/webis/publications/papers/stein_2011b.pdf
}}</ref>

<ref name=Weber-Wulff08>{{citation
| last=Weber-Wulff | first=Debora
| contribution=On the Utility of Plagiarism Detection Software
| date=June 2008
| title=In Proceedings of the 3rd International Plagiarism Conference, Newcastle Upon Tyne
| url=http://archive.plagiarismadvice.org/images/stories/old_site/media/2008papers/P21%20Weber-Wulff.pdf
}}</ref>}}

== Bibliografia ==

* Carroll, J. (2002). Un ''handbook per dissuadir plagi en educació més alta.'' Oxford: El Centre d'Oxford per Personal i Aprenent Desenvolupament, Oxford Brookes Universitat. (96 p.), {{ISBN|1873576560}} 1873576560
* Zeidman, B. (2011). El Detectiu d'IP del Programari Handbook. Prentice Sala. (480 p.), {{ISBN|0137035330}} 0137035330

== Enllaços externs ==


* [http://www.checktext.org Recerca de Plagi en línia]
[[Categoria:Pedagogia]]
* [https://web.archive.org/web/20140722061546/http://dejavu.vbi.vt.edu/dejavu/ Déjà Vu: Una Base de dades de Duplicat Citations en la Literatura Científica]
[[Categoria:Ètica]]
[[Categoria:Plagi]]

Revisió del 09:04, 16 set 2018

Detecció de plagi és el procés de localitzar casos de plagi dins d'una feina o document. L'ús estès d'ordinadors i el advent de l'Internet ha fet el més fàcil a plagiarize la feina d'altres. La majoria de casos de plagi són trobats dins academia, on els documents són típicament assajos o informes. Tanmateix, el plagi pot ser trobat dins virtualment qualsevol camp, incloent novel·les, papers científics, dissenys d'art, i codi de font.

La detecció de plagi pot ser qualsevol manual o programari-va assistir. La detecció manual requereix esforç substancial i memòria excel·lent, i és impractical en casos on massa documents han de ser comparats, o els documents originals no són disponibles per comparació. Programari-la detecció assistida permet col·leccions vastes de documents per ser comparats a cadascú altre, fent detecció exitosa molt més probablement.

La pràctica de plagiarizing per ús de substitucions de paraula suficient a elude programari de detecció és sabut com rogeting.Error de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permès

Programari-detecció assistida

Ordinador-detecció de plagi assistit (CaPD) és una Informació retrieval (IR) la tasca donada suport per va especialitzar sistemes d'IR, va referir a tan sistemes de detecció del plagi (PDS).

Dins documents de text

Sistemes per text-detecció de plagi implementa un de dues detecció genèrica aproximacions, un sent extern, l'altre sent intrínsec.Error de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permès Sistemes de detecció externa comparen un document sospitós amb una col·lecció de referència, el qual és un conjunt dels documents van assumir per ser genuí.Error de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permès Basat en un model de document escollit i predefined criteris de semblança, la tasca de detecció és per recuperar tots els documents que contenen text que és similar a un grau per sobre d'un llindar escollit a text en el document sospitós.Error de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permès PDS intrínsec només analitza el text per ser avaluat sense actuar comparacions a documents externs. Aquests objectius d'aproximació per reconèixer canvis en l'estil d'escriptura únic d'un autor com un indicador per plagi potencial.Error de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permès PDS no és capaç de reliably identificant plagi sense judici humà. Les semblances són computades amb l'ajuda de predefined models de document i podria representar falsos positius.Error de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permèsError de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permèsError de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permèsError de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permèsError de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permès

Efectivitat d'en enquadraments d'educació més alta

Un estudi va ser conduït per provar l'efectivitat de programari de detecció del plagi en un enquadrament d'educació més alt. Un separa de l'estudi va assignar un grup d'estudiants per escriure un paper. Aquests estudiants eren primer educat aproximadament plagi i va informar que la seva feina era per ser corregut a través d'un sistema de detecció del plagi. Un segon grup d'estudiants va ser assignat per escriure un paper sense qualsevol informació aproximadament plagi. Els investigadors van esperar trobar els índexs més baixos dins agrupen un però trobat més o menys els mateixos índexs de plagi en ambdós grups.Error de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permès

Aproximacions

La figura a sota representa una classificació de totes aproximacions de detecció actualment dins ús per ordinador-detecció de plagi assistit. Les aproximacions són caracteritzades pel tipus de valoració de semblança emprenen: global o local. Aproximacions de valoració de semblança globals utilitzen les característiques agafades de parts més grans del text o el document globalment per computar semblança, mentre els mètodes locals només examinen pre-segments de text seleccionat mentre entrada.

Classificació d'ordinador-mètodes de detecció de plagi assistits
Fingerprinting

Fingerprinting És actualment el més aproximació aplicada àmpliament a detecció de plagi. Aquest mètode forma representatiu digests de documents per seleccionar un conjunt de subcadenes múltiples (n-grams) d'ells. Els conjunts representen el fingerprints i els seus elements són cridats minutiae.Error de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permèsError de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permès Un document sospitós és comprovat per plagi per computar el seu fingerprint i querying minutiae amb un precomputed índex de fingerprints per tots els documents d'una col·lecció de referència. Minutiae Aparellant amb aquells d'altres documents indiquen segments de text compartit i suggerir plagi potencial si superen un llindar de semblança escollit.Error de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permès Temps i recursos computacionals estan limitant factors a fingerprinting, el qual és per què aquest mètode típicament només compara un subconjunt de minutiae per sol·licitar la computació i permetre per controls dins col·lecció molt gran, com l'Internet.Error de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permès

Comparació de cadenes de caràcters

La corda que aparella és un prevalent l'aproximació va utilitzar dins informàtica. Quan aplicat al problema de detecció de plagi, els documents són comparats per verbatim el text solapa. Els mètodes nombrosos han estat proposats per emprendre aquesta tasca, del qual algun tenir estat adaptat a detecció de plagi extern. Comprovant un document sospitós en aquest enquadrament requereix la computació i emmagatzematge d'amb eficiència representacions comparables per tots els documents en la col·lecció de referència per comparar-los pairwise. Generalment, models de document del sufix, com arbres de sufix o vectors de sufix, ha estat utilitzat per aquesta tasca. No obstant això, la subcadena que aparella les restes computacionalment cares, el qual el fa una solució no viable per comprovar col·leccions grans de documents.Error de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permèsError de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permèsError de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permès

Bossa de paraules

La bossa d'anàlisi de paraules representa l'adopció d'espai de vector retrieval, un concepte d'IR tradicional, a l'àmbit de detecció de plagi. Els documents són representats mentre un o vectors múltiples, p. ex. per parts de document diferent, els quals són utilitzats per parell computacions de semblança assenyada. Computació de semblança llavors pot confiar en el tradicional cosine mesura de semblança, o damunt semblança més sofisticada mesures.

Anàlisi de Cites

Citation-Detecció de plagi basat (CbPD) confia damunt citation anàlisi, i és l'aproximació única a detecció de plagi que no confia en la semblança textual.Error de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permèsError de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permès CbPD Examina el citation i informació de referència en textos per identificar patrons similars en el citation seqüències. Com a tal, aquesta aproximació és adequada per textos científics, o altres documents acadèmics que contenen citations. Citation Anàlisi per detectar el plagi és un concepte relativament jove. No ha estat adoptat per programari comercial, però un primer prototipus d'un citation-sistema de detecció de plagi basat existeix.Error de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permès Ordre similar i proximity de citations en el va examinar els documents són els criteris principals va utilitzar per computar citation semblances de patró. Citation Els patrons representen subsuccessions no-exclusivament contenint citations compartit pels documents van comparar.Error de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permèsError de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permès Factors, incloent el número absolut o fracció relativa de compartit citations en el patró, així com la probabilitat que citations co-ocórrer en un document és també considerat per quantificar el grau dels patrons de semblança.Error de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permèsError de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permèsError de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permèsError de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permès

Stylometry

Stylometry subsumes Mètodes estadístics per quantificar l'estil d'escriptura única d'un autor i és principalment utilitzat per authorship atribució o intrínsec CaPD.Error de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permèsError de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permès Per construir i comparant stylometric models per segments de text diferent, passatges que són stylistically diferent d'altres, per això potencialment plagiarized, pot ser detectat.Error de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permès

Actuació

Les avaluacions comparatives de sistemes de detecció del plagi indiquen que la seva actuació depén en el tipus de present de plagi (veu figura).Error de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permèsError de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permèsError de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permèsError de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permèsError de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permèsError de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permès Excepte citation anàlisi de patró, totes aproximacions de detecció confien en semblança textual. És per això symptomatic que disminucions de precisió de la detecció els més casos de plagi són obfuscated.

Actuació de detecció de CaPD s'apropa dependre en el tipus de present de ser del plagi

Còpies literals, aka còpia i paste (c&p) plagi, o modestament disguised casos de plagi poden ser detectats amb precisió alta per PDS extern actual si la font és accessible al programari. Especialment la subcadena que aparella els procediments aconsegueixen una actuació bona per c&p plagi, de llavors ençà generalment utilitzen models de document sense pèrdues, com arbres de sufix. L'actuació dels sistemes que utilitzen fingerprinting o bossa d'anàlisi de paraules dins detectant les còpies depén en la pèrdua d'informació incorreguda en pel model de document va utilitzar. Per aplicar flexible chunking i estratègies de selecció, són millors capaç de detectar modera formes de disguised el plagi quan comparat a la subcadena que aparella procediments.

Detecció de plagi intrínsec que utilitza stylometry pot vèncer les fronteres de semblança textual fins a cert punt per comparar semblança lingüística. Donat que les diferències estilístiques entre plagiarized i els segments originals són significatius i pot ser identificat reliably, stylometry pot ajudar dins identificant disguised i paraphrased plagi. Stylometric Les comparacions probablement poden fallar en casos on els segments són fortament paraphrased al punt on més estretament #es #assemblar-se l'estil d'escriptura personal del plagiarist o si un text va ser compilat per autors múltiples. Els resultats de les Competències Internacionals damunt Detecció de Plagi va aguantar dins 2009, 2010 i 2011, així com els experiments van actuar per Stein, indica que stylometric l'anàlisi sembla per treballar reliably només per longituds de document de diversos miler o desenes de milers de paraules, el qual limita l'aplicabilitat del mètode a CaPD enquadraments.Error de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permèsError de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permèsError de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permèsError de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permès

Una quantitat creixent de recerca és actuada en els mètodes i els sistemes capaços de detectar va traduir plagis. Actualment, creu-detecció de plagi de la llengua (CLPD) no és vist com a la tecnologia madura i els sistemes respectius no han estat capaços d'aconseguir satisfent resultats de detecció dins pràctica.Error de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permèsError de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permès

Citation-Detecció de plagi basat que utilitza citation anàlisi de patró és capaç d'identificar traduccions i paràfrasis més fortes amb índexs d'èxit més alt quan comparats a altres aproximacions de detecció, perquè és independent de característiques textuals.Error de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permèsError de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permès Tanmateix, de llavors ençà citation-anàlisi de patró depén en la disponibilitat de suficient citation informació, és limitat a textos acadèmics. Queda inferior a text-va basar aproximacions dins detectant més curt plagiarized passatges, els quals són típics per casos de còpia-i-paste o sacsejada-i-paste plagi; l'últim refereix a barrejar lleugerament va alterar fragments de fonts diferents.Error de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permès

Programari

El disseny de programari de detecció del plagi per l'ús amb documents de text és caracteritzat per un número de factors:[cal citació]

Factor Descripció i alternatives
Abast de recerca En la internet pública, utilitzant motors de cerca / les bases de dades Institucionals / Locals, sistema-base de dades específica.[cal citació]
Temps d'anàlisi Retard entre el temps un document és entregat i el temps quan els resultats són fets disponibles.[cal citació]
Processament de Lot / de capacitat de document Número de documents el sistema pot processar per unitat de temps.[cal citació]
Intensitat de control Que sovint i per quins tipus de fragments de document (paràgrafs, frases, seqüències de paraula de longitud fixa) la consulta de sistema recursos externs, com motors de cerca.
Tipus d'algoritme de la comparació Els algoritmes que defineixen la manera els usos de sistema per comparar documents contra cada altre.[cal citació]
Precisió i Recordar Número de documents correctament flagged tan plagiarized comparat al número total de flagged documents, i al número total de documents que eren de fet plagiarized. La precisió alta significa que pocs falsos positius van ser trobats, i alt recordar significa que pocs fals negatives va quedar undetected.[cal citació]

La majoria de detecció de plagi d'escala gran els sistemes utilitzen bases de dades grans, internes (a més d'altres recursos) que creixen amb cada document addicional entregat per anàlisi. Tanmateix, aquesta característica és considerada per alguns com a violation de copyright d'estudiant.[cal citació]

codi de font inclós

Plagi dins codi de font de l'ordinador és també freqüent, i requereix eines diferents que aquells utilitzat per comparacions de text dins document. La recerca significativa ha estat dedicada a font acadèmica-plagi de codi.Error de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permès

Un aspecte distintiu de font-plagi de codi és que hi ha cap molins d'assaig, com pot ser trobat en plagi tradicional. De llavors ençà la majoria de programació assignments esperar estudiants per escriure programes amb requisits molt específics, és molt difícil de trobar existint programes que ja els coneixen. De llavors ençà integrant el codi extern és sovint més dur que escrivint-lo de zero, més plagiarizing els estudiants escullen fer tan del seu mira atentament.

Segons Roy i Cordy, font-algoritmes de detecció de semblança de codi poden ser classificats mentre basat en qualsevolError de citació: L’etiqueta d’obertura <ref> s’ha formatat incorrectament o té un nom no permès

  • Cadenes de caràcterr – es busquen segments de parts textuals exactes, per grups de cinc paraules. Ràpid, però pot ser confós rebatejant identificadors.
  • Tokens – Mentre amb cordes, però utilitzant un lexer per convertir el programa a tokens primer. Aquest discards whitespace, comentaris, i noms d'identificador, fent el sistema més robust a substitucions de text senzill. La majoria de sistemes de detecció de plagi acadèmics feina a aquest nivell, utilitzant algoritmes diferents per mesurar la semblança entre token seqüències.
  • Parse Complexió – d'arbres i comparar parse arbres. Això permet semblancesde nivell alt per ser detectat. Per cas, comparació d'arbre pot normalitzar declaracions condicionals, i detectar equivalent construeix tan similar a cadascú altre.
  • Grafs de Dependència del programa (PDGs) – un PDG captura el flux real de control en un programa, i permet moltes equivalències de nivell alt per ser localitzat, a una despesa més gran dins complexitat i temps de càlcul.
  • Els nuclis de captura – de mètrica de la mètrica de segments de codi segons criteris segurs; per cas, "el número de bucles i conditionals", o "el número de variables diferents va utilitzar". La mètrica és senzilla de calcular i pot ser comparat de pressa, però pot també avantatge a falsos positius: dos fragments amb les mateixes puntuacions en un conjunt de mètriques pot fer enterament coses diferents.
  • Aproximacions híbrides – per cas, parse arbres + de sufix dels arbres poden combinar la capacitat de detecció de parse arbres amb la velocitat permesa per arbres de sufix, un tipus d'estructura de dada que aparella corda.

La classificació anterior va ser desenvolupada per codi refactoring, i no per detecció de plagi acadèmic (un objectiu important de refactoring és per evitar codi duplicat, va referir a tan clons de codi en la literatura). El per sobre de les aproximacions són eficaces contra nivells diferents de semblança; baix-semblança de nivell refereix a text idèntic, mentre alt-semblança de nivell pot ser a causa d'especificacions similars. En un enquadrament acadèmic, quan tots els estudiants són esperats a codi a les mateixes especificacions, funcionalment codi equivalent (amb semblançade nivell alt ) és enterament esperat, i només baix-semblança de nivell és considerada tan prova d'enganyar.

Vegeu també

  • Categoria:detectors de Plagi
  • Comparació de anti-programari de plagi
  • Locality Sensible hashing
  • Recerca de veí més proper
  • Detecció de paràfrasi
  • Kolmogorov Compressió#de complexitat – utilitzada per calcular semblança entre token seqüències en diversos sistemes

Referències

Error de citació: L'etiqueta <ref> amb el nom "Stein07" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Potthast09" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Stein07a" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "MeyerZuEissen06" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Bao06" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Clough00" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Culwin01" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Lancaster03" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Maurer07" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Hoad03" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Stein05" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Brin95" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Gipp14" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Gipp13" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Monostori00" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Baker93" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Khmelev03" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Si97" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Dreher07" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Muhr09" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Gipp09" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Gipp10" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Gipp11" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Gipp11a" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Holmes98" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Juola08" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "HTW04" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "HTW08" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "HTW10" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Potthast10" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Potthast11" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Stein11" definida a <references> no s'utilitza en el text anterior.
Error de citació: L'etiqueta <ref> amb el nom "Potthast10a" definida a <references> no s'utilitza en el text anterior.

Error de citació: L'etiqueta <ref> amb el nom "Weber-Wulff08" definida a <references> no s'utilitza en el text anterior.

Bibliografia

  • Carroll, J. (2002). Un handbook per dissuadir plagi en educació més alta. Oxford: El Centre d'Oxford per Personal i Aprenent Desenvolupament, Oxford Brookes Universitat. (96 p.), ISBN 1873576560 1873576560
  • Zeidman, B. (2011). El Detectiu d'IP del Programari Handbook. Prentice Sala. (480 p.), ISBN 0137035330 0137035330

Enllaços externs