Проект IMPACT (Improving access to text) – подобряване на достъпа до текста

IMPACT е проект, финансиран от Европейската комисия, който има за цел да подобри значително достъпа до исторически текст и да премахне пречките, които стоят на пътя на масовата дигитализация на европейското културно наследство.

Това е проект с участници от различни европейски страни, обединени в консорциум. В него участват представители на:

  • университети (в Мюнхен, Инсбрук, Салфорд, Бат, Карловия университет в Прага);
  • научни институти и центрове (Иститут по холандска лексикология, Национален център за научни изследвания (Гърция), Институтът „Йозеф Стефан” (Словения)
  • национални и държавни библиотеки (Австрия, Великобритания, Германия, Франция, Холандия, Словения, Чехия)
  • частни фирми – Израел и Русия

Проектът е финансиран по Седма рамimpact_logoкова програма на Европейската комисия. Страните-участнички са: Австрия, България, Великобритания, Германия, Гърция, Израел, Русия, Словения, Франция, Холандия, Чехия. Координатор на проекта е Националната библиотека на Холандия. От повечето страни има по две институции-участнички: институция, разработваща проекта и партньор, осигуряващ ресурси. От българска страна към проекта се присъединяват Институтът по паралелна обработка на информацията при БАН и Националната библиотека “Св. св. Кирил и Методий”.
Целта на въздействието на проекта е да се преодолеят пречките за създаването на Европейска дигитална библиотека и възникнали проблеми при досегашната дигитализация в Европа. В рамките на визията си за i2010 на Европейската дигитална библиотека, ЕС предложи амбициозен план за проекти, свързани с масова дигитализация с цел трансформация на европейското печатно наследство в достъпни дигитални ресурси. Процесите обаче бяха забавени от следните фактори:

  • Текущите OCR техники (техники за разпознаване на символи) могат да бъдат използвани само в ограничена степен за разчитането на ценни исторически материали. Припознаването на стари шрифтове с големи вариации в правописа или сложни оформления във вестниците дава незадоволителни резултати. Същото се отнася за микрофилми или непубликувани текстове, написани на пишеща машина;
  • Съвременната лексика не е достатъчна за разпознаването на излезли от употреба думи, окончания и правописни варианти на историческите текстове.

Като изследователски акценти на проекта са определени:

  • Осигуряване на разпознаваемост на всички печатни текстове, създадени преди 1900 г.;
  • Една от най-обещаващите линии на изследване в рамките на проекта е приемането от OCR софтуера на исторически (излезли от употреба) букви. Проектът ще разшири това изследване и ще създаде огромен лексикален ресурс с различни форми на спрягане и окончания на остарели и отпаднали от езика думи и връзката им със съвременната форма на думата;
  • Този подход ще бъде тестван за 9 европейски езици от 3 основни езикови групи (немска, славянска и романска).

Идеята на проекта е:

  • Осъществяване на многопланов езиков поглед върху достъпността и повишаване използването на дигиталния текст;
  • Осъществяване и адаптиране на езикови инструменти и създаване на лексикални ресурси за все още невключени в проекта езици, включително български, словенски, чешки, а също възможност още 3 национални библиотеки да предоставят бази данни, да представят резултатите от проекта и да изградят дигитална компетентност в техните езикови области.

Цели на IMPACT

Основната цел на IMPACT е да се развиват нововъведенията в OCR технологията и езиковата технология за описване и обработване на историческите текстове. Двата водещи индустриални партньора, IBM (Израел) и ABBYY (Русия), са включени в разработването на системата за разпознаване на текстове. IMPACT изследва новите методи в увеличаването на изображението и неговата сегментация, както и в употребата на езиковата технология и историческа лексика в обработването на OCR.
Развити са инструменти за изграждане на речник (тезаурус) и употребата на лексиката в OCR и съхранението на дигиталните копия, както и инструменти за структуриране на документа.
Втората цел на проекта е да спомогне за подобряване на процеса на масова дигитализация чрез споделен опит и чрез най-добри практики, както и в изграждането на компетентност за дигитализацията в цяла Европа. За тази цел ще бъдат изградени уебсайт, help desk и инструменти, подпомагащи процеса за вземане на решения, тренировъчна програма, както и постоянен Център за компетентност, където могат да се посрещат изискванията на притежателите на електронно съдържание от цяла Европа и изследователските интереси на партньорите вътре и извън проекта.

Фази на проекта

Първа фаза – 2008-2009 г. – ударението е поставено върху разработването на инструменти и съдържание, натрупване на бази данни и изграждане на приложима рамка с платформа за демонстриране на резултати. Развити са  ресурси за 3 езика от германската езикова група – английски, немски и холандски.

Във втората фаза – 2010-2011 г. IMPACT консорциумът привлича нови партньори, които да използват езиковите инструменти, да създадат езикови ресурси за езици, които не са били използвани в проекта по-рано и да действат като места за тестване, демонстрация и придобиване на опит в техните езикови области. Приобщени са партньори от различни езикови групи от Южна и Източна Европа, включително България. Разширени са и целите на проекта. Предвижда се:

  • Демонстриране на IMPACT инструментите за ефикасно изграждане на речник (тезаурус) за словенски, български и чешки език. За целта Департаментът за технологии на знанието в Иститута “Йозеф Стефан” от Любляна, Институтът за паралелна обработка на информацията към БАН и Институтът за Чешка национална литература ще работят върху подобряването на OCR софтуера чрез използването на специална лексика за историческия език. Освен това БАН ще въведе исторически кирилски букви (букви излезли от употреба) в OCR софтуера заедно с ABBYY. Националната библиотека на Словения, Националната библиотека на България и Чешката национална библиотека ще доставят и събират бази данни за развитието, оценката и демонстрацията на резултатите;
  • Представяне и разпространение на резултатите от проекта в Словения, България и Чехия;
  • Изграждане на постоянен Център за компетентност. Добавянето на още езици и библиотечни партньори в разширения проект представя операционният модел на IMPACT като Център за компететност (Centre of Competence) в Европа.

Участието на Националната библиотека по проекта IMPACT

Националната библиотека е партньор във втората фаза на проекта и се задължава да осигури дигитални ресурси за тестване на изследователските разработки от българска страна, а именно:

  • Да предостави бази данни за развитие, оценка и демострация на OCR софтуера – по-конкретно да участва със своята база данни от дигитализирани български списания и вестници за периода 1882-1944 г.
  • Да представи и разпространи резултатите от проекта и да подкрепи изграждането на дигитална компетентност в България.

Досега по проекта

За целите на проекта, трябваше да бъдат подбрани голям брой дигитални изображения (до 5000), които да преминат така наречения GT процес. GT процесът представлява създаване на метаданни към всяко изображение, съдържащи описание на символите, позициите на сегментите от изображението и т.н.
За първия етап бяха подбрани около 3700 дигитални изображения (продължаващи издания и 2 сборника), заснети с помощта на фотоапарат, които преминаха OCR тестове на партньорите ни по проекта от БАН. Те показаха добри резултати, но имаше проблеми с някои символи (п, н, и), което доведе до необходимостта от нов подбор на сканирани документи и нови тестове.
На втория етап бяха подбрани около 3000 изображения (само продължаващи издания), с качество над 300 dpi, сканирани с новите скенери на дигиталния център на Националната библиотека. Те преминаха през OCR тестовете на БАН доста успешно, с много малко забележки – петна по някои от страниците, които пречат на разпознаваемостта, драсканици по някои от страниците, рисунки и др.
Към момента очакваме старта на обработка на изображенията от специализирана фирма. Тя ще създаде PAGE XML метаданните, които ще бъдат впоследствие коригирани.
Допълнителната работа на Националната библиотека, отнасяща се към бъдещо развитие на проекта IMPACT, беше свързана с неколкократното подбиране на старопечатни книги, сканиране на части от тях и предоставянето им на партньорите ни от БАН с цел разпознаване на символи, излезли от употреба.