10 de jun de 2012

Google usa reCAPTCHA para combater spam e digitalizar livros antigos. Saiba como funciona.




Você sabe o que é CAPTCHA? O "Completely Automated Turing Test To Tell Computers and Humans Apart" ou CAPTCHA é um programa desenvolvido para testar se o usuário é humano ou um computador. Somente humanos podem ler as palavras distorcidas do CAPTCHA e fazendo uso dele, sites, blogs, fóruns, portais, etc. podem previnir-se contra spam e máquinas utilizadas para se passarem por humanos para obter benefícios. O programa foi criado em 2000 por uma equipe da Carnegie Mellon University, tendo sido usado pela primeira vez pelo Yahoo. 

O que talvez muita gente não saiba é que ao usar o reCAPTCHA, projeto criado pela School of Computer Science, o usuário está ajudando a digitalizar livros para o Internet Archive. As palavras que aparecem aleatoriamente e distorcidas fazem parte na verdade de digitalizações de livros velhos. E quando a palavra em questão é digitada, ela é automaticamente reconhecida. Portanto, ao estimar-se que cerca de 200 milhões de captchas são resolvidos diariamente em todo o mundo e que cada pessoa gaste cerca de 10 segundos nisso, totalizando mais de 150 mil horas que estariam sendo trabalhadas num único dia, não fica difícil aceitar que isso realmente funcione. A tecnologia do reCAPTCHA  foi adquirida pela Google em 2009.

Veja como funciona:

Existe um software chamado Optical Character Recognition (OCR) que reconhece letras digitalizadas, o que permite que livros inteiros sejam digitalizados e o seu texto reconhecido.  Porém, nem todas as palavras são decifradas corretamente, principalmente no caso de livros antigos nos quais as letras podem não estar tao claras.


É aí que entra o reCAPTCHA. Ele mostra para nós, randomicamente, duas palavras: 

Uma delas ele já conhece, é essa palavra que vai testar se você é um bot ou não. A outra imagem é uma palavra desconhecida que o OCR não conseguiu ler, é você que vai ajudar a decifrá-la! 

O ReCAPTCHA conclui que se você digitou correto a primeira, provavelmente também acertará a segunda, vai comparar essa resposta com de várias outras pessoas,e se uma porcentagem grande de pessoas deu a mesma resposta provavelmente está correta e vai para a versão digitalizada do livro.


Atualmente, os serviços do reCaptcha estão sendo utilizados para digitalizar as antigas edições do jornal americano New York Times e livros da Google Books. Mas de acordo com a Google, o serviço não se limita a isso. A tecnologia reCAPTCHA também é utilizada para reconhecer endereços, nomes de ruas e até mesmo placas e sinais de trânsito mostrados pelo Google Street View.

Se você tem um site na internet, você pode evitar SPAM colocando o reCAPTCHA no seu site. Além de se livrar do SPAM, você ainda estará contribuindo com a digitalização de livros antigos.

Veja o vídeo com o criador da tecnologia CAPTCHA e reCAPTCHA: Luis von Ahn:

   

Related Posts Plugin for WordPress, Blogger...