Корпусы ИЭА РАН

30.01.2019 В шорский корпус добавлен текст «Салғын четпес сарыг сараттыг Сарыг-Қан» в самозаписи В.Е. Таннагашева

30.07.2018 В шорский корпус добавлен текст «Керсе ай қарат» в самозаписи В.Е. Таннагашева

08.05.2017 В шорский корпус добавлены четыре текста, записанные Г.Ф. Бабушкиным в 1930-х гг.

12.10.2014 В эвенкийский корпус добавлены библейские рассказы для детей

Сотрудничество

На базе корпуса выполняются проекты:

«Контент-анализ фольклорных текстов на языках коренных малочисленных народов Севера (эвенкийский и ненецкий)», грант РГНФ № 12-31-01355; руководитель — Н.А. Мамонтова;
«Расшифровка и включение в Корпусы ИЭА РАН аудиозаписей шорского героического эпоса начала 1980-х годов», грант ФФЛИ № А-16-2013; руководитель — Д.А. Функ;

Файлы для загрузки

Морфологические анализаторы:

для шорского языка;
для эвенкийского языка.

Все представленные файлы упакованы в Linux как tar.gz, для распаковки в Windows или MacOS X вам может потребоваться установить дополнительное ПО, напр., бесплатный архиватор 7-zip.

Проект создания корпуса текстов на языках малочисленных народов Сибири реализуется с 2011 года. В 2011—2014 годах он выполнялся в рамках программы Президиума РАН «Корпусная лингвистика» сотрудниками и аспирантами отдела Севера и Сибири Института этнологии и антропологии РАН. С 2017 года реализация проекта продолжена в рамках проекта «Языковое и этнокультурное разнообразие Южной Сибири в синхронии и диахронии: взаимодействие языков и культур», выполняемого на базе Томского государственного университета (грант Правительства РФ № 14.Y26.31.0014) сотрудниками кафедры этнологии МГУ, отдела Севера и Сибири ИЭА РАН и Лаборатории лингвистической антропологии ТГУ.

Основной целью проекта является создание общедоступного электронного корпуса фольклорных материалов с возможностью:

одновременного хранения как исходного (сохраняющего особенности фиксации), включая рукописи, аудио- и видеозаписи, так и нормализованного варианта записи текстов;
поисковой работы с корпусом текстов, позволяющей осуществлять выборку важнейших сопряженностей для каждого слова, левых и правых соседей каждого слова (с дополнительным представлением в виде графов), сбор статистики употребления лексем/словоформ, анализ контекста словоупотребления в заданном тексте и во всем корпусе, сравнение списков словоформ из всех представленных в корпусе текстов с заданным ограничением поиска — по текстам, сказителям, или, на языке лингвистики, по говорам, диалектам и языкам.

Созданный уникальный ресурс может быть использован в процессе преподавания аборигенных языков в школах и ВУЗах, а также для научно-исследовательской работы лингвистов, фольклористов и этнологов, владеющих данными языками.

Состав и объем корпусов

Согласно проектной заявке 2011 года корпус должен был включать фольклорные материалы лишь на двух языках: шорском и эвенкийском. Объем шорского и эвенкийского подкорпусов к концу 2011 года предполагалось довести до примерно 120.000 и 6.000 словоупотреблений соответственно. С целью демонстрации возможностей корпуса в плане включения материалов на других языках, в нем дополнительно размещены фольклорные тексты на телеутском языке.

В настоящий момент «корпусная машина» обслуживает следующие корпусы:

ненецкий;
телеутский;
шорский;
эвенкийский;

Подробную текущую статистику по каждому корпусу можно посмотреть на странице «Статистика».

Условия использования

Вы можете свободно использовать небольшие (как правило, 1—3 предложения) отрывки из представленных в корпусе текстов в качестве примеров или иллюстраций.

Если вы хотите воспроизвести в какой-либо форме более крупные фрагменты либо полные тексты, вам необходимо обратиться к руководителю проекта для согласования условий.

При любом использовании материалов сайта обязательна ссылка на «Корпусы ИЭА РАН», при цитировании текстов обязательно указывать название и имя исполнителя.

Авторы

Шаховцов Кирилл Геннадиевич, руководитель проекта (с 2012 г.), к.и.н., научный сотрудник отдела Севера и Сибири ИЭА РАН;
Функ Дмитрий Анатольевич, д.и.н., профессор, заведующий кафедрой этнологии Исторического факультета МГУ (до ноября 2013 г. — заведующий отделом Севера и Сибири Института этнологии и антропологии РАН), в 2011 г. — руководитель проекта;
Мамонтова Надежда Александровна, к.и.н., ;
Терехина Александра Николаевна (с 2012 г.), аспирантка отдела Севера и Сибири ИЭА РАН.

Мы искренне благодарим

Б.И. Токмашова (г. Новокузнецк Кемеровской области) за предоставление компьютерного набора шорского эпоса «Қан-Оолақ» и расшифровку эпоса «Кӧк-Торчуқ» в самозаписи С.С. Торбокова;
к.филол.н. Л.Н. Арбачакову (г. Междуреченск Кемеровской области) за первичную расшифровку аудиозаписей шорского эпоса;
Д.А. Щапову, методиста эвенкийского языка Этнопедагогического центра повышения квалификации (п. Тура Эвенкийского муниципального района), за помощь в редактировании текстов на эвенкийском языке;
Брайана Донахо за перевод эвенкийских текстов на английский язык;
Т.Н. Лар за помощь в подготовке текстов на ненецком языке.

Корпусы ИЭА РАН

Новости

04.10.2020 В шорский корпус добавлены два текста в самозаписи В.Е. Таннагашева

30.03.2020 В шорский корпус добавлены три текста в самозаписи В.Е. Таннагашева

19.11.2019 В шорский корпус добавлено сказание в самозаписи В.Е. Таннагашева

27.09.2019 В шорский корпус добавлены два текста в самозаписи В.Е. Таннагашева