Артур Скальский

© Би-Би-Си

ИнтернетМир

2812

19.08.2008, 15:04

Программы против спама помогут "отцифровать" книги

Компьютерные программы, защищающие от спама, сделали возможным с большей точностью перевести в электронную форму старинные книги и другие письменные источники.

Получить доступ ко многим сайтам можно лишь зарегистрировавшись на них, предварительно напечатав в специальном окошке набор символов, представленных в виде причудливой картинки. Владельцы интернет-ресурсов идут на это для противодействия натиску спам-сообщений.

Сейчас многие сайты вместо невнятной абракадабры используют для этих целей тексты из старинных письменных источников, которые были отсканированы и но не распознаны.

Куски текста, которые программы распознавания текста не осилили, как раз и предлагается расшифровать интернет-пользователям.

С учетом того, что около 100 млн. пользователей в день доказывают таким образом, что они не роботы, получается довольно внушительная армия потенциальных дешифровальщиков.

Объем нечитаемых слов в некоторых старинных документах может доходить до 20% из-за пожелтевшей бумаги или выцветших чернил.

Предельная точность

Специалисты из американского университета Карнеги-Меллон разработали систему под названием Recaptcha, которая собирает фрагменты сканированного текста, не поддавшиеся компьютерной программе, и затем рассылает их сайтам, которые подписаны на эту услугу.

Вместе с буквами, которые компьютер не узнал после сканирования, высылается и слово, уже внесенное в систему. Правильно распознав второе слово, пользователь получает доступ к сайту, а расшифровка первого слова дополняет базу данных, после того, как будет получено несколько подтверждающих ответов.

В материале, опубликованном в журнале Science, говорится, что такой подход позволяет добиться почти стопроцентной точности, что превосходит требования архивариусов.

В настоящее время около 40 тыс. сайтов предлагают своим пользователям решить такие простенькие задачки, и получают в день около 4 млн. ответов.

В прошлом году таким образом удалось расшифровать 440 млн. слов и перевести в цифровую форму весь архив газеты New York Times с 1908 года.

Артур Скальский

© Би-Би-Си

ИнтернетМир

2812

19.08.2008, 15:04

URL: https://babr24.com/?ADE=47073

Bytes: 2046 / 2039

Версия для печати

Скачать PDF

Поделиться в соцсетях:

Также читайте эксклюзивную информацию в соцсетях:
- Телеграм
- ВКонтакте

Связаться с редакцией Бабра:
newsbabr@gmail.com

Последние новости

14.10 21:59
В Новосибирской области сотрудница медучреждения получил условный срок за фиктивный больничный лист

14.10 21:50
В Новосибирской области построили новую детскую поликлинику

14.10 21:44
В Новосибирской области сотрудница администрации была привлечена к административной ответственности

14.10 21:38
В Новосибирске женщине назначили условный срок за мошенничество с единовременной выплатой

14.10 21:33
В Новосибирской области назвали самые дефицитные профессии

14.10 21:10
В Новосибирске в суд передали дело застройщика о мошенничестве

14.10 18:58
На федеральной трассе в Бурятии опрокинулся большегруз

14.10 18:52
В Новосибирской области из-за снегопада пострадал урожай

14.10 18:06
В Красноярске женщину, напавшую на трёхлетнего сына с ножом, признали невменяемой

14.10 17:49
Подростка из Шелехова заключили под стражу за двойное убийство

Лица Сибири

Загерсон Виктор

Брилка Иван

Киреев Владимир

Тарабан Наталья

Салацкая Диана

Свиркина Светлана

Давыдов Алексей

Выговский Евгений

Шишкин Сергей

Лабунский Илья