10 de jun de 2012

Google usa reCAPTCHA para combater spam e digitalizar livros antigos. Saiba como funciona.




Você sabe o que é CAPTCHA? O "Completely Automated Turing Test To Tell Computers and Humans Apart" ou CAPTCHA é um programa desenvolvido para testar se o usuário é humano ou um computador. Somente humanos podem ler as palavras distorcidas do CAPTCHA e fazendo uso dele, sites, blogs, fóruns, portais, etc. podem previnir-se contra spam e máquinas utilizadas para se passarem por humanos para obter benefícios. O programa foi criado em 2000 por uma equipe da Carnegie Mellon University, tendo sido usado pela primeira vez pelo Yahoo. 

O que talvez muita gente não saiba é que ao usar o reCAPTCHA, projeto criado pela School of Computer Science, o usuário está ajudando a digitalizar livros para o Internet Archive. As palavras que aparecem aleatoriamente e distorcidas fazem parte na verdade de digitalizações de livros velhos. E quando a palavra em questão é digitada, ela é automaticamente reconhecida. Portanto, ao estimar-se que cerca de 200 milhões de captchas são resolvidos diariamente em todo o mundo e que cada pessoa gaste cerca de 10 segundos nisso, totalizando mais de 150 mil horas que estariam sendo trabalhadas num único dia, não fica difícil aceitar que isso realmente funcione. A tecnologia do reCAPTCHA  foi adquirida pela Google em 2009.

Veja como funciona:

Existe um software chamado Optical Character Recognition (OCR) que reconhece letras digitalizadas, o que permite que livros inteiros sejam digitalizados e o seu texto reconhecido.  Porém, nem todas as palavras são decifradas corretamente, principalmente no caso de livros antigos nos quais as letras podem não estar tao claras.


É aí que entra o reCAPTCHA. Ele mostra para nós, randomicamente, duas palavras: 

Uma delas ele já conhece, é essa palavra que vai testar se você é um bot ou não. A outra imagem é uma palavra desconhecida que o OCR não conseguiu ler, é você que vai ajudar a decifrá-la! 

O ReCAPTCHA conclui que se você digitou correto a primeira, provavelmente também acertará a segunda, vai comparar essa resposta com de várias outras pessoas,e se uma porcentagem grande de pessoas deu a mesma resposta provavelmente está correta e vai para a versão digitalizada do livro.


Atualmente, os serviços do reCaptcha estão sendo utilizados para digitalizar as antigas edições do jornal americano New York Times e livros da Google Books. Mas de acordo com a Google, o serviço não se limita a isso. A tecnologia reCAPTCHA também é utilizada para reconhecer endereços, nomes de ruas e até mesmo placas e sinais de trânsito mostrados pelo Google Street View.

Se você tem um site na internet, você pode evitar SPAM colocando o reCAPTCHA no seu site. Além de se livrar do SPAM, você ainda estará contribuindo com a digitalização de livros antigos.

Veja o vídeo com o criador da tecnologia CAPTCHA e reCAPTCHA: Luis von Ahn:

   

Related Posts Plugin for WordPress, Blogger...
Comentários
7 Comentários

7 comentários:

  1. Legal Cesar muito interessante a matéria eu nunca imagina que estava ajudando a digitalizar livros antigos.... Será que vou ter que digitar um Captcha para postar esse comemtário???

    rsrsrs

    ResponderExcluir
    Respostas
    1. Olá Geovane, claro!!! É a sua contribuição para ajudar na tradução dos livros antigos!!! Parabéns!!!! :)

      Excluir
  2. Realmente a matéria foi muito boa. Parabéns!

    ResponderExcluir
  3. Tenho que confessar que, sabendo que apenas uma das palavras conta na verificação, as vezes não digito a palavra que ajuda na identificação de textos pelo Google. Nem é má vontade, é que surgem umas coisas muito bizarras de vez em quando.

    ResponderExcluir
  4. Eu já sabia disso, mas mesmo assim muito bom o artigo, tem gente que reclama de ter que digitar o captcha por não saber pra que serve ;)
    Abraço.

    ResponderExcluir
    Respostas
    1. Legal, Matheus, eu não sabia dessa função dos Captchas. Muito legal mesmo!!!

      Excluir