ЕЛЕКТРОНЕН АРХИВ НА
БЪЛГАРСКИТЕ ДИАЛЕКТИ
(по фолклорни източници)
Цел на прокета.
Цел на проекта е създаването на
електронен архив от български диалектни
текстове от фолклорни източници. Този архив ще се
използва за проучването на диалектното
богатство на българския език със средствата на
компютърната лингвистика на различни езикови
равнища - фонетично, морфологично, синтактично и
лексикално. Работата по създаването на подобни
архиви в България е започнала отскоро и засега
обхваща само книжовния език. Материалът от
българските диалекти поради своята специфика
(спонтанно развитие на диалектната система при
липса на съзнателна стандартизация) отразява в
по-голяма степен типичните за историческия
развой на българския език явления: следите от
балкански субстрат, връзката със
старобългарския език, близостта и отликите от
другите славянски езици, резултатите от
междуезикови контакти на Балканския полуостров.
Това важи особено за езика на фолклора, който е
съхранен от книжовно влияние в по-силна степен в
сравнение с обиходната реч. Затова, макар че
езикът на фолклора има наддиалектен характер
дотолкова, доколкото отразява особености на
по-широки диалектни райони, на определени
наречия, а не тясно специфичните говорни
особености на диалекта на отделни селища, той
представлява важен източник за езикови
изследвания ( вж. Кочев Ив. Многоаспектност на
проблема за диалектното. – Език и литература, 1979,
кн. 1, 55-60). Във фолклора се отразяват онези
особености на народната реч, които са свързани с
народното мито-поетично съзнание. Като
последствие в езика народното творчество и
особено на народната поезия се откриват думи и
форми, възникнали при процесите на народната
етимология. По пътя на фонетичното и
семантичното сближаване на думи и форми в
текстовете се съхраняват старинни облици,
непознати за обиходната реч, както и специфични
варианти, чието проследяване може да даде ценни
сведения за културната история на народа.
В резултат на изследванията на
диалектния материал със средствата на
компютърната лингвистика ще се предоставят нови
данни за основните въпроси на българското
езикознание - развитието към аналитизъм,
промяната на словореда и синтактичната
структура на езика, развитието на категорията
определеност, развитието на семантичните
категории в системата на българския глагол.
Архивът ще може да се използва и за изследвания в
етнолингвистичен план, както и за фолклорни
проучвания. За тази цел той ще съдържа освен
традиционните за компютърната лингвистика
изследвания и изследвания в исторически и
етимологичен план, които ще бъдат привличани при
интерпретацията на специфично диалектните
форми.
Методи на работа.
За съхраняването и обработката на
електронния архив на българските диалекти са
използвани последните разработки в областта на
копютърната корпусна лингвистика. В работата са
използвани два типа програмни продукти:
1. Пакет програми за лингвистична
обработка на елекронни корпуси “Работно място
на лингвиста”, който разполага със следните
програми:
Програма SORT списъчни речници на
словоформи, честотни речници.; Програма за
индексиране BUILD, която подава информация за
общата дължина на текста в думите; за броя на
различните словоформи; за средната дължина на
абзаците в изречения или думи; за средната
дължина на изреченията в думи.; Програма за
машинно подпомагната лематизация - LEM/POS.;
Програма CONC за установяване на моделите на
съчетаемост на словоформи и лексеми.; Програма TREE
за създаване на банка синтактични дървета към
текста и извличане на формални граматики. тези
програми работят с текстове txt - формат под Windows.
2. CLaRK – XML – базирана система за обработка на
корпуси
CLaRK е XML – базиран софтуерна система за
обработка на корпуси. Тя обединява няколко
технологии : 1) XML технология; 2)
Unicode; 3) Регулярни каскадни граматики; 4)
Ограничения (Constraints) върху
документи.
За управление, съхраняване и
проверка на документите ние избрахме XML технологията, защото е популярна и
лесна за възприемане. Основата на CLaRK е XML
редактор, който е осигурява основния интерфейс
за системата. В допълнение на XML технологията ,
ние имплементирахме XPath език за навигиране и XSLT
език за трансформации на XML документи.
За да бъде използвана за
обработка на документи на различни езици, CLaRK е базирана на Unicode кодиране на информацията. Основен
за системата е инструмент за създаване на
йерархия от токанизатори. Те могат да се свържат
с различни елементи от DTD-то, като по този
начин могат да се използват различни
токанизатори за различните части на документа.
Основният механизъм за
лингвистична обработка на текстов корпус в CLaRK
e модулът за компилиране и
изпълнение на каскадни регулярни граматики.
Основното предизвикателство за граматиките е
въпросът как те да бъдат приложени върху XML
кодирана лингвистична информация. Системата
позволява конструиране на
входни думи за автомата чрез използването на
XPath, както и маркиране на
резултати с XML анотация.
Системата предлага и няколко
механизма за прилагане на ограничения върху XML
документи, които не могат да бъдат дефинирани
чрез стандарната XML – технология.
В системата CLaRK са въведени следните типове
ограничения: 1) ограничения използващи крайни
автомати - допълнителни ограничения върху
съдържанието на дадените елементи базирани на
контекста на документа. 2)ограничения свързани с броя
на определени елементи в документа – основни ограничения върху
съдържанието на документ; 3) ограничения върху
стойности – ограничение на
съдържанието или родителя на даден елемент в
зависимост от контекста, в който се намира
елемента. Ограниченията се използват в два
режима: 1. валидиране на документа,което е
свързано с прилагането на
ограничения ; 2 .подпомагане
на работата на лингвиста по време на
изграждането на корпус. Първият режим позволява
създаването на ограничения за проверка на
корпуса във връзка с определени изисквания.
Вторият режим допринася за подобряване и
минимизиране на човешкия труд.
Материалът от елекронния архив ще
бъде постепенно увеличаван и разширяван, като в
него ще бъдат включвани текстове от различни
диалектни области на българското езиково
землище.
При създаването на електрониия архив
на българските говори ще бъде извършено и
изследване в исторически и етимологичен план.
Това се налага от спецификата на диалектния
материал, представляващ териториален вариант на
националния език, развил определени езикови
особености, които могат да бъдат съпоставени със
системата на СБКЕ само на базата на
етимологичното изследване и на открояването на
настъпилите фонетични, морфологични и др. типове
промени.
Спонсори и участници в
проекта.
Проектът се осъществява със
средствата на Фондация “Отворено общество”. Той
е дело на колектив от Института за български език
и Централна Лаборатория за Паралелна Обработка
при БАН: ст. н. с. д-р Лучия Антонова – Василева
(ИБЕ); ст. н. с. д-р Мария Стамболиева (ИБЕ); н.
с.Кирил Иванов Симов Централна Лаборатория за
Паралелна Обработка при БАН. Под ръководството
на К. Симов в проекта работят и магистрите по
информатика Александър Димитров Симов и Милен
Огнянов Куйлеков от Факултета по математика и
информатика при СУ “Климент Охридски”.
Етапи на проекта.
През 2001 г. работата по Електлонния
архив на българските диалекти ще бъде
съсредоточена върху компютърна обработка на
текстовете от сборника “Веда Словена” - сборник,
написан на диалект от райно на Гоцеделчевско и
Драмско. Изданието се появява за първи път през
1874 г.: Веда Словена. Български народни песни от
предисторична и предхристиянска доба. Открил в
Тракия и македония и издал Стефан И. Веркович. кн.
I, 1874, Београд; кн. II, 1881, С. Петербург. Макар че е бил
обект на особен интерес от страна на научната и
културна общественост този сборник, съдържащ
български епични песни с историческа и обредна
тематика, които са близки по своя характер и
облик до фолклора, е преиздаден в България едва
през 1997 г. от Фондация “Отворено общество”.
История на Сборника
Ресурси
Анализи |