Новости

12.10.2014 В эвенкийский корпус добавлены библейские рассказы для детей

12.10.2014 Обновление ненецкого корпуса

19.08.2014 В ненецкий корпус добавлены тексты восьми нормативных правовых актов Российской Федерации и Ямало-Ненецкого автономного округа

06.06.2014 В ненецкий корпус добавлены четыре текста на ямальском говоре

05.06.2014 В шорский корпус добавлен текст на нижнемрасском говоре

18.05.2014 К шорскому корпусу подключен экпериментальный морфологический анализатор

18.02.2014 В фольклорный подкорпус ненецкого корпуса добавлена сказка «Сихиртя»

31.01.2014 В ненецкий корпус добавлены десять текстов на ямальском говоре

Сотрудничество

На базе корпуса выполняются проекты:

Файлы для загрузки

Морфологические анализаторы:

Все представленные файлы упакованы в Linux как tar.gz, для распаковки в Windows или MacOS X вам может потребоваться установить дополнительное ПО, напр., бесплатный архиватор 7-zip.

Проект «Развитие и пополнение электронного корпуса текстов на языках малочисленных народов Сибири (на материалах ненецкого, телеутского, шорского и эвенкийского языков)» выполняется в рамках программы Президиума РАН «Корпусная лингвистика» (2012—2014 гг.) сотрудниками и аспирантами отдела Севера и Сибири Института этнологии и антропологии РАН.

Основной целью проекта является создание общедоступного электронного корпуса фольклорных материалов с возможностью:

  1. одновременного хранения как исходного (сохраняющего особенности фиксации), включая рукописи, аудио- и видеозаписи, так и нормализованного варианта записи текстов;
  2. поисковой работы с корпусом текстов, позволяющей осуществлять выборку важнейших сопряженностей для каждого слова, левых и правых соседей каждого слова (с дополнительным представлением в виде графов), сбор статистики употребления лексем/словоформ, анализ контекста словоупотребления в заданном тексте и во всем корпусе, сравнение списков словоформ из всех представленных в корпусе текстов с заданным ограничением поиска — по текстам, сказителям, или, на языке лингвистики, по говорам, диалектам и языкам.

Созданный уникальный ресурс может быть использован в процессе преподавания аборигенных языков в школах и ВУЗах, а также для научно-исследовательской работы лингвистов, фольклористов и этнологов, владеющих данными языками.

Состав и объем корпусов

Согласно проектной заявке 2011 года корпус должен был включать фольклорные материалы лишь на двух языках: шорском и эвенкийском. Объем шорского и эвенкийского подкорпусов к концу 2011 года предполагалось довести до примерно 120.000 и 6.000 словоупотреблений соответственно. С целью демонстрации возможностей корпуса в плане включения материалов на других языках, в нем дополнительно размещены фольклорные тексты на телеутском языке.

В настоящий момент «корпусная машина» обслуживает следующие корпусы:

Подробную текущую статистику по каждому корпусу можно посмотреть на странице «Статистика».