Feedback Form
Feed subscription » blog | » comments | » irc | » fórum | » mobi | » twitter

CAPTCHA pre každý web rýchlo a jednoducho

solution-logoKaždý kto sa pohybuje po webe už narazil na CAPTCHU. Tento ochranný mechanizmus vznikol v roku 2000 ľuďmi Luisom von Ahnom, Manuelom Blumom, Nicholasom J. Hopperom (všetci z univerzity Carnegie Mellon), a Johnom Langfordom (z IBM) a znamená “Completely Automated Public Turing test to tell Computers and Humans Apart”, čo vo voľnom preklade znamená automatický test pre zistenie či návštevník je ľudská bytosť :).

Nedávno som hľadal jednoduché riešenie pre jedneho kamaráta, ktoré by bolo ľahko nasaditelné. Na moje prekvapenie som narazil na veľmi príjemné riešenie online generátora CAPTCHY od tvôrcov pôvodnej myšlienky. Celá myšlienka je postavená na tom, že CAPTCHA je kompletne outsourcovaná čo znamená že nezaťažuje server a ani traffic majiteľa, čím znižuje náklady na prevádzku servera (hostingu) a znižuje časové potreby na vývoj aplikácie (web stránky). Hovorím o projekte reCAPTCHA.

Najväčšou prednosťou celého projektu je škálovatelnosť a jednoduché nasedenie. Project bol od začiatku plánovaný ako Web 2.0 projekt a tak umožňuje komunikáciu cez API rozhranie a tak umožňuje veľmi jednoduché nasadenie. Tento projekt používa veľa známich projektov, ku príkladu FaceBook, InternetArchive a množstvo ďaľších. Nepomerne veľmi veľkou výhodou je kvalitne spracovaná dokumentácia a príklady použitia vo viacerých najviac rožšírených programovacích jazykoch.

Ďaľšou nespornou výhodou sú už hotové pluginy do niektorých populárnych open-source projektov.

Pre nasadenie reCAPTCHY na vaše stránky je potrebné sa bezplatne zaregistrovať. Okamžite potom získate dva kľúče, verejný a súkromný (privátny) ktorými sa CAPTCHA šifruje. Takisto zaujimavá je ochrana emailu za pomoci CAPTCHY s názvom MailHide.
Rovnako je k nej poskytnuté API dokumentácia.

Pre mňa aj zaujimavá časť je bezpečnosť ktorá je, dovolím si povedať na najvyššej možnej úrovni. Princíp je celkom jednoduchý. Autori projektu naskenovali stovky tisíc slov z kníh, ktoré potom kombinujú v CAPTCHE. Vybrané dve slová netvoria logický rad a sú náhodným výberom systému. Čo by som mohol vytknúť je, že podporujú len anglické slová a v prípade že je text zle čitateľný si ne-anglicky hovoriaca osoba nedomyslí pointu a musí kód vymeniť. Spolu s IP Adress Detection (detekcia IP adresy), čo znamená že v prípade že sa pokúsi jedná IP adresa o mnohočetné načítanie novej CAPTCHY v krátkom čase bude dočasne zablokovaná a posunutá na verifikáciu zodpovednou osobou. Čo sa týka ochrany proti OCR používajú autori ten najlepší spôsob ochrany (jednotná farba pozadia s prekrývajúcimi častami, časté zmeny fontov) a preto je úspešnosť na jednotlivé znaky okolo 70% čo znamená že sa robotovy nikdy nepodarí prejsť verifikačným procesom, pretože ten vyžaduje 100% úspešnosť. Tu nepomôžu ani “human bots” (ľudské roboty) čo bývajú zamestnanci (väčšinou Čína, Vietnam …), ktorí prepisujú zobrazené texty až kým uspešnosť nie je 100%. Autori tvrdia že majú k dispozícii stovky tisíc slov čo z nich robí miliónové kombinačné možnosti a teda ani tento postup nie je možné aplikovať v praxi.

V prípade že sa chcete chrániť pred spammom a chcete chrániť aj svoje web stránky ale zároveň nemáte čas vymýšľať dokonalé riešenie alebo už niektoré používate ale vyžadujete najvyššiu formu bezpečnosti, pre Vás určite projekt reCAPTCHA je! Ja som ju pomohol nasadiť už na štyri projekty a musím povedať že sme boli všetci extrémne spokojný.



Príbuzné články:
  • Jiggy, aplikácie pre iPhone rýchlo a jednoducho
  • Google captcha úspešne prelomená
  • Azet.sk Captcha: Spameri, vitajte!
  • Ako sa naučiť rýchlo čítať?
  • Captcha je už prežitok


  • 12 Responses to “CAPTCHA pre každý web rýchlo a jednoducho”


    1. 1 istari Dec 17th, 2007 at 14:47

      Aspon raz si to po sebe precitaj, ked nieco pustis na blog.
      …ktoré by bolo ľahko nasaditelné a bolo by ľahko nasaditelné….
      ..a ľahké nasedenie….

      Chvilami to vyzera, ze si chcel nasilu natiahnut dlzku :).

      Inac je clanok super a zase som sa nieco nove dozvedel.

    2. 2 oooo Dec 17th, 2007 at 15:17

      istari: dakujem za upozornenie, ked sa pozries na cas kedy som to pisal zistis ze som bol hore celu noc. kazdopadne som chyby odstranil.
      ver mi ze nemam najmensi dovod umelo predlzovat dlzku, keby som nutne nieco take chcel, prepisem par informacii z wikipedie.

      som rad ze sa ti clanok pacil a dufam ze budes spokojny aj s dalsimi v buducnosti

    3. 3 daru Feb 27th, 2008 at 09:42

      Spominas project reCAPTCHA, no nepises ani slovo o tom o co tam ide. V tomto projekte ide najme o to aby sa zdigitalizovali naskenovane stare dokumenty, knihy pomocou ludskeho zdroja, pouzivatelov netu.
      Project je vyborny, no co sa tyka CAPTCHA, nevyzera to dost bezpecne, totiz kedze ide o digitalizaciu, ani strana reCAPTCHA nepozna vysledok obrazku, teda cez test prejdes aj vtedy ak si obrazok neopisal na 100%, no a to vzladne hadam hocijaky OCR.

    4. 4 hugis Feb 27th, 2008 at 11:30

      Spôsob fungovania reCAPCHA je opísaný úplne chybne. reCAPCHA pomáha diginalizovať knižky pre stránku Internet Archive. Používajú sa slová ktoré neprešli cez OCR. Ponúkne sa dvojica slov, pričom jedno slovo je už známe a druhé je neznáme. Ak na známe slovo odpoviem správne tak sa prepokladá, že aj neznáme slovo je správne. Neznáme slovo sa dá prečítať viac krát, aby sa potvrdil jeho význam. Zmeny fontov, rôzne druhy poškodenia textu sú dané rôznorodosťou predlôh, ktoré sa skenujú.

    5. 5 oooo Feb 27th, 2008 at 13:19

      pani, neviem ci som to opisal ja chybne, ale: o knihach viem, to si uz moze citatel precitat na strankach priamo reCAPTCHA. neverim ze je ho zvladne akykolvek ocr, pretoze to testovali a uspesnost bola hodne nizka, plus ho pouziva niekolko najvacsich webov (facebook etc.). je mozne, ze som nejake informacie opomenul, dakujem za ich doplnenie, ale nemyslim si, ze by bolo jednoduche prejst nimi cez OCR. kazdopadne poprosim o POC, dostanete plny kredit. som na to teda celkom zvedavy

    6. 6 hugis Feb 27th, 2008 at 14:38

      Reagoval som hlavne na časť: ” … dve slová ktoré tvoria logický sled … “. Práve z toho príncípu ktorý som napísal, keď obsah jedného slova nepoznám, nie je možné zabezpečiť akýkoľvek logický sled. Vôbec nespochybňujem bezpečnosť, tá je určite vysoká. Už len to, že text je získavaný z analogového zdroja a nie je generovaný žiadnym algoritmom je veľké plus.

      Pre daru: jedno slovo musíš napísať presne a zároveň nevieš ktoré to je a to nezvládne hocijaký OCR pretože už to majú overené, že tie slová su pre OCR nečitateľné.

    7. 7 oooo Feb 27th, 2008 at 14:59

      hugis: aha, zle som to pochopil. mas pravdu, ta veta je tam uplne nevhodna, odstranim ju. dakujem za upozornenie a naprosto suhlasim

    8. 8 daru Feb 28th, 2008 at 09:44

      >jedno slovo musíš napísať presne a zároveň nevieš ktoré to je a to nezvládne hocijaký OCR
      Ano cital som, no tiez som to aj testoval, a hoci som robil naschval chyby v obidvoch, system to akceptoval, takze neviem.

    9. 9 oooo Feb 28th, 2008 at 09:54

      ja som si to skusil schvalne vcera a neexist. musis presne opisat slova, pretoze ked sa v oboch pomylis (mne neuznalo chybu ani raz ani v jedinom slove), nepusti ta

    10. 10 2ge Feb 28th, 2008 at 18:47

      imho je len otazkou casu kedy aj toto prelomia. Najkrajsie na tom je, ze podobny projekt som chcel aj ja skodit :)

    11. 11 kuso666 Mar 1st, 2008 at 22:51

      Mno a aku to ma preboha ucinnost?!
      Na facebook.com som 2.krat zadal obidva texty s chybou a mal som 100% uspestnost.

    12. 12 oooo Mar 1st, 2008 at 23:25

      teraz som to skusal a neprejde to. tak neviem co teda robis alebo zadavas

    Leave a Reply