О проекте «Корпус пулар»

Сведения о языке
Сведения о корпусе
Что такое глоссирование?
Как пользоваться поиском


«Корпус пулар» – это проект разработки корпуса текстов на языке пулар.

Сведения о языке

Пулар фута-джаллон, является, по сути, одним из диалектов языка (или, если считать пулар отдельным языком, макроязыка) пулар-фульфульде, также известного в литературе как фула. Название «пулар-фульфульде» – это сочетание двух самоназваний языка, использующихся в разных диалектных зонах, пулар – самоназвание западных диалектов, в частности диалекта фута-джаллон, а фульфульде – самоназвание диалектов центральной и восточной зон.

Фула – это один из самых известных языков Африки. Он относится к западно-атлантической (или атлантической) языковой семье, но территориально выходит далеко за пределы её ареала. Номадное скотоводство, которое традиционно являлось (и до сих пор частично остаётся) основным ремеслом носителей языка – фульбе, обусловило распространение фула на весьма обширной территории к югу от Сахары, ограниченной Атлантическим океаном с запада и долиной Голубого Нила с востока. Особенностью языка является то, что он расположен в своём ареале не континуально, а дисперсно, занимая кое-где обширные области, а где-то образуя небольшие фулаязычные анклавы (см. рис.1). В настоящее время в языке пулар-фульфульде «лингвистические факты <…> позволяют производить следующее глобальное диалектное членение:

·                   западные диалекты: фута-торо (Сенегал), фута-джаллон (Гвинея);

·                   центральные диалекты: масина (Мали), диалекты среднего течения р. Нигер (Буркина-Фасо, Нигер);

·                   восточные диалекты: нигерийский (центральные районы северной Нигерии), адамауа (Северный Камерун, прилегающие районы Нигерии)» [Коваль, Зубко 1986:13].

 

Description: Overall_f

Рис. 1. Географическое распределение диалектов языка фула;
 диалект пулар фута-джаллон обозначен как Pular

(источник: http://www-01.sil.org/silesr/2003/silesr2003-009.html)

Многие диалекты фула были описаны и изучены, однако, несмотря на значимость этого языка для африканистики и лингвистики в целом, корпусные разработки этого языка пока не проводились. Полидиалектные корпусные исследования пулар-фульфульде интересны отчасти из-за сложности происходивших в течение многих веков миграций фульбе и сложной системы взаимоотношений между разными группами фульбе и другими народами, получившейся в результате, а отчасти из-за того, что фульбе от Сенегала, Гамбии и Гвинеи до Нигера и Камеруна говорят на одном языке, в чём единодушно уверены исследователи.

Причины такого удивительного для дисперсно расположенного языка полидиалектного единства кроются в историко-культурном контексте. В предколониальный период на социально-политическую жизнь народа фульбе, а следовательно, и на язык, оказал сильное влияние ислам, ведь он распространялся по территориям южнее Сахары не с помощью арабского, а именно с помощью таких «лингва франка», как фула, сонгай, хауса. Многочисленные источники указывают, что в XVII веке мусульмане-кочевники фульбе успешно провели на территории субсахарского региона Африки джихад, в результате которого многие народности оказались в зависимости от этого народа и были вынуждены принять ислам. Это значительно упрочило позиции фульбе в регионе, на многие годы сделало фула одним из основных языков межэтнического общения в регионе, а также закрепило их языковое единство.

Фула таким образом стал языком с высоким социальным статусом. Это обусловило его стабильность и относительно небольшую подверженность внешним контактным изменениям на всём пространстве ареала. Наконец, фульбе имели, и имеют до сих пор, давнюю устную традицию, включающую в себя многочисленные и разножанровые произведения (сказания, поэзию и пр.), распространяемые и передаваемые из поколения в поколение на всём ареале расселения фульбе гриотами – профессиональными сказителями, «ремесленниками слова» (термин А.И. Коваль [Коваль 2010: 368]).  Речь гриота более традиционна и менее подвержена влиянию других языков, неологизмов и новейших перестроений языка (например, реклассификация существительных), чем речь обычных носителей языка (см. [Косогорова 2012]), что является дополнительным фактором, сохраняющим языковую общность.

Полидиалектная общность также издавна поддерживалась общей для всего ареала пулар-фульфульде письменной традицией. Старая письменность фульбе, аджами, – на основе арабской графики для неарабских языков – появилась в эпоху исламизации Африки южнее Сахары с основной целью распространения и фиксации коранического знания. Позднее появились и первые литературные произведения, записанные с помощью аджами. Этот вид письменности также использовали другие африканские языки – например, язык хауса. Аджами сохранял повсеместное распространение до прихода европейцев, которые ввели письменность на основе латиницы. В настоящее время носители пулар Фута-Джаллона в более или менее равной степени владеют двумя видами письменности – на основе арабской графики и на основе латиницы, хотя официально пулар в Гвинее использует латиницу.

Аджами не смог удержать своих позиций в качестве основной письменности фульбе и уступил их латинице по нескольким причинам. Во-первых, и главным образом, причиной послужила приверженность европейских колонизаторов к латинской письменности. Но арабское письмо в принципе не до конца приспособлено к реалиям фонетики и фонологии пулар-фульфульде: при использовании аджами для записи текстов на пулар никак нельзя отразить смыслоразличительных долгот, геминаций, а также ряда звуков, для которых нет символов в арабской вязи. Для носителей языка это не представляет непреодолимой проблемы, но, строго говоря, такая письменность не может считаться полноценной.

Однако и на основе латиницы разработать адекватную письменность для языка пулар-фульфульде оказалось проблематичным. Если сравнить ранние публикации по языку с более современными, то можно заметить ряд существенных различий, во многих случаях затрудняющих понимание текстов, особенно для не-носителей языка. Эти различия, также как и проблемы отображения фула с помощью аджами, связаны с невозможностью изображения некоторых звуков (преглоттализованные, преназализованные согласные и др.) средствами стандартного латинского алфавита.

Эта проблема была успешно решена дважды: в 30-х годах ХХ века были внесены ключевые изменения в международный фонетический алфавит, делающие его пригодным для отображения большинства звуков, существующих в языках мира. И во-вторых, в 1966 году на конференции ООН в Бамако были приняты конвенции для записи текстов на пулар-фульфульде, учитывающие как уже частично сформировавшуюся на тот момент традицию записи, так и стандарты МФА. В число принятых решений, отличающихся от конвенций МФА, вошло, в частности, обозначение преназализованных согласных диграфом в противовес диакритике, и некоторые другие решения. Из МФА же были позаимствованы, в числе прочих, обозначения для преглоттализованных («имплозивных») согласных. Таким образом, пулар-фульфульде, несмотря на определённый исторический опыт письма, можно считать младописьменным языком, поскольку до приведения письменности к общему образцу письменная традиция языка находилась в зачаточном состоянии и не могла обслужить все сферы жизни. Можно надеяться, что, получив кодифицированную письменность, пулар-фульфульде сохранит свою целостность и высокий уровень взаимопонимаемости, несмотря на большую диалектную раздробленность и обширнейший ареал распространения.

Литература:

Коваль А.И., Зубко Г.В. Язык фула. М.: Наука, 1986. (Серия Языки народов Азии и Африки).

Коваль А.И. Согласование в именной группе пулар-фульфульде. // Основы африканского языкознания. Синтаксис именных и глагольных групп. Под ред. В.А. Виноградова. М.: Academia 2010. Сс. 211-384.

 

Сведения о корпусе

Корпус представляет собой ряд текстов, имеющих устное происхождение. В основном, это сказки и былички, но также встречаются истории из жизни рассказчика. В настоящей версии тексты имеют монодиалектную природу. Они были собраны в ходе экспедиции в Гвинею в 2010 году М.А. Косогоровой, расшифрованы и аннотированы А.И. Коваль и М.А. Косогоровой. Ответственный за техническую реализацию проекта – В.Н. Косогоров. Отдельную благодарность коллектив выражает носителям-фульбе Мамаду Джалло и Бубакару Бари.

В ходе работы над корпусом были впервые разработаны конвенции глоссирования для языка фула (в настоящее время в корпусе представлен только пулар, но в перспективе корпус будет дополнен данными других говоров и диалектов). Глоссирование текстов осуществлялось с помощью созданной специально для этого программы LightParser. Программа продолжает развиваться: конечной целью работы над ней является максимально автоматизированное глоссирование текстов на разных диалектах пулар-фульфульде.

В начале ноября 2013 года корпус достиг 25 тысяч словоупотреблений.

Что такое глоссирование?

Глоссирование, или поморфемное аннотирование, – это метод представления текста (в данном случае – на иностранном языке), предполагающий наличие поморфемного разбиения каждого слова и комментария к каждой морфеме. Этот способ удобен тем, что даже не знающий текста человек может извлечь из него грамматическую и семантическую информацию, что удобно для исследователей и изучающих язык. Существует система оформления глоссирования (Лейпцигские правила глоссирования, Leipzig Glossing Rules). Ниже представлен пример глоссирования:

(12)

ko

debbo

on

waɗi

woo

barehun

kun

no

anndi

(12)

ko

debb-

o

on

waɗ-

i

woo

bare-

hun

kun

no

annd-

i

(12)

Rel

женщина-

sgO

Def.sgO

делать-

Act.Pfv.w

всё

собака-

sgKUN

Def.sgKUN

Cop*

знать-

Act.Pfv*{St}

Всё, что женщина делала, собачка знает.

Однако не для всех языков Лейпцигские правила работают безотказно: язык пулар, например, имеет ряд грамматических категорий и явлений, которые невозможно отразить с помощью этих правил. Поэтому при создании аннотированного корпуса пулар мы опирались на Лейпцигские правила, но также существенно их дополняли и изменяли.

Также нужно отметить, что не во всех языках словоформы легко разбиваются на морфемы из-за разнообразных процессов, происходящих на стыках морфем. Такое происходит и в пулар, поэтому там, где по разным причинам невозможно разделить словоформу, мы, согласно Лейпцигским правилам, аннотировали её целиком, указывая значения морфем-составляющих через точку.

Как пользоваться поиском

Для осуществления простого поиска введите запрос в соответствующее поле. Искать можно в исходном тексте на пулар, в строке поморфемного разбиения и в строке глосс. Язык перевода – русский. Список глосс и условных обозначений находится во вкладке «Список глосс». Введя запрос, Вы можете уточнить, в какой именно строке следует искать. Необходимо также уточнить длину результирующего контекста (в словоформах), которую Вы бы хотели получить. В случае если длина контекста превышает длину предложения, контекст будет обрезан. Из-за несоответствия синтаксических структур перевод каждого контекста дать невозможно, поэтому для каждого контекста будет приведён перевод всего исходного предложения. К сожалению, на момент начала ноября перевод доступен не для всех предложений, но эта сторона корпуса активно развивается, и мы надеемся, что к 2014 году перевод будет повсеместным.

Чтобы произвести поиск по сочетаемости, необходимо ввести два запроса аналогичных простому, а затем указать расстояние (в словоформах) между искомыми запросами. Также следует указать длину контекста.

 

Web hosting by Somee.com