muzruno.com

Какво представлява корпусната лингвистика?

Преди няколко десетилетия учените можеха само да сънуват за автоматизирането на езиковите изследвания. Работата беше извършена ръчно, в него участваха голям брой студенти, имаше значителна вероятност за грешка "от невнимание" и най-важното - всичко това отне много, много време.

С разработването на компютърни технологии стана възможно изследванията да станат по-бързи и днес една от най-обещаващите области в изучаването на езика е корпусната лингвистика. Основната му характеристика е използването на големи количества текстова информация, комбинирани в една единствена база данни, специално маркирана и наречена тялото.

Към днешна дата има много сгради, създадени за различни цели, на базата на различни езикови материали, обхващащи от милиони до десетки милиарди лексикални единици. Тази посока се признава за обещаваща и показва значителен напредък в постигането на приложни и изследователски цели. Специалисти, които по някакъв начин се справят с естествения език, се препоръчва да се запознаете с корпуса на текстове, поне на основно ниво.

История на корпусната лингвистика

Образуването на тази посока е свързано с създаването в САЩ на Браун корпус в началото на 60-те години на миналия век. Събирането на текстове съдържа само 1 милион дума, а днес корпус с такъв размер би бил напълно неконкурентен. До голяма степен това се дължи на скоростта на развитие на компютърните технологии, както и на нарастващите изисквания за нови ресурси за научни изследвания.

През 90-те години корпусната лингвистика се оформя като пълноценна и независима дисциплина, събирания на текстове са съставени и етикетирани за няколко десетки езици. През този период например Британския национален корпус е създаден за 100 милиона употреба.

корпусна лингвистика

Тъй като се развива тази лингвистика, темите на текстовете стават все повече и повече (и достигат до милиарди лексикални единици), а оформлението става все по-разнообразно. Досега в интернет пространството можете да намерите случаи на писмено и говоримо слово, многоезично и преподаване, ориентирано към художествена или академична литература, както и много други сортове.

Какви са телата

Типовете случаи в кабинетната лингвистика могат да бъдат представени по няколко причини. Интуитивно е ясно, че основата за класификация може да бъде езикът на текстовете (руски, немски), начинът на достъп (с отворен код, затворен, търговски), жанр на изходния материал (художествена, документална, академична, журналистика).

методите на корпусната лингвистика

Интересен е и генерирането на материали, представляващи устно слово. Тъй като умишленото записване на такава реч би създало изкуствени условия за респондентите и полученият материал не може да бъде наречен "спонтанен", съвременната корпусна лингвистика пое различен път. Доброволците са оборудвани с микрофон, а през деня се записват всички разговори, в които той участва. Около хората, разбира се, не могат да знаят, че по време на разговор с домакинството те допринасят за развитието на науката.

По-късно получените аудио записи се запазват в базата данни и се придружават от отпечатан текст според типа на препина. По този начин става възможно маркрупът, необходим за създаване на тяло на устната ежедневна реч.

приложение

Когато е възможно използването на езика, е възможно да се използват текстови полета. Целта на прилагането на методите на корпуса в лингвистиката може да бъде:

  • Създаване на програми за определяне на тона, които се използват активно в политиката и бизнеса, за да се проследяват положителните и отрицателните отговори на гласоподавателите и съответно на потребителите.
  • Свързване на информационната система с речниците и преводачите, за да се подобри тяхната ефективност.
  • Разнообразие от изследователски задачи, които допринасят за разбирането на структурата на езика, историята на неговото развитие и прогнозите за неговата промяна в близко бъдеще.
  • Разработване на системи за извличане на информация въз основа на морфологични, синтактични, семантични и други характеристики.
  • Оптимизиране на работата на различни езикови системи и други.

Използване на корпуси

Ресурсният интерфейс е подобен на типичната търсачка и подканва потребителя да въведе дума или комбинация от думи, за да търси в информационната база. В допълнение към формуляра за точна заявка можете да използвате разширената версия, която ви позволява да намерите текстова информация за почти всякакви езикови критерии.

компютърна и казусионна лингвистика

Основата за търсенето може да бъде:

  • принадлежащи към определена група от реч;
  • граматични знаци;
  • семантика;
  • стилистично и емоционално оцветяване.

Освен това можете да комбинирате критериите за търсене за последователност от думи: например, за да намерите всички появявания на глагол в настоящото напрежение, първият човек, единственият, последван от предлог "c" и съществителното в случай на обвинение. Решението на такава проста задача отнема няколко секунди за потребителя и изисква само няколко кликвания в посочените полета.

Процес на създаване

Самото търсене може да се извърши както на всички подкорки, така и на един, специално избран, в зависимост от нуждите от постигане на конкретна цел:

  1. На първо място, се определя кои текстове ще формират основата на делото. За практически цели често се използват журналистически материали, вестници, интернет коментари. В изследователските проекти се използват различни видове заграждения, но текстовете трябва да се избират според някои общи основания.
  2. Полученият набор от текстове се подлага на предварителна обработка, грешките се коригират, ако има такива, се изготвя библиографско и извънлингвистично описание на текста.
  3. Цялата нетекстова информация се изчиства: графиките, снимките и таблиците се изтриват.
  4. Има поредица от символи, обикновено представляващи думи, за тяхната по-нататъшна обработка.
  5. Накрая се реализира морфологичното, синтактичното и друго маркиране на получения набор от елементи.

Резултатът от всички изпълнени операции е синтактична структура с набор от елементи, разпределени върху нея, за всеки от които е дефинирана част от речта, граматически и в някои случаи семантични черти.

Трудности при създаването на сгради

Важно е да се разбере, че не е достатъчно да се съберат много думи или изречения, за да се докаже случаят. От една страна, събирането на текстове трябва да бъде балансирано, т.е. да се представят различни видове текстове в определени пропорции. От друга страна, съдържанието на кутията трябва да е специално маркирано.

Захаровата корпусна лингвистика

Първият проблем е решен чрез споразумение: например, в колекцията включва 60% от литературни текстове, като 20% от документални филми, определен процент се дава писмено изявление на говоримия език, законодателство, научната работа и т.н. перфектна рецепта базирана тяло днес не съществува ...

Вторият въпрос относно маркирането на съдържанието е по-труден за решаване. Има специални програми и алгоритми, използвани за автоматично маркиране, но те не дават 100% резултат, могат да причинят повреди и да изискват ръчна ревизия. Възможностите и проблемите при решаването на този проблем са описани подробно в работата на Захаров за корпусната лингвистика.

Маркирането на текста се извършва на няколко нива, които ще посочим по-долу.

Морфологична маркировка

От училищната пейка ние помним, че на руски има различни части на речта и всеки от тях има своите особености. Например глаголът има категории на настроение и време, които съществителното не притежава. Родителят не се колебае да се поклони на съществителните и да събере глаголите, но ръчният труд няма да работи, за да отбележи случая в 100 милиона думи. Всички необходими операции могат да се извършват от компютър, но за това е необходимо да преподавате.



Морфологичната маркировка е необходима, за да може компютърът "да разбере" всяка дума като определена част от речта, която има определени граматически характеристики. Тъй като редица редовни правила действат на руски език (както на всеки друг език), възможно е да се изгради автоматична процедура за морфологичен анализ чрез инвестиране на редица алгоритми в машината. Съществуват обаче изключения от правилата, както и различни усложняващи фактори. В резултат на това чист компютърен анализ днес далеч не е идеален и дори 4% от грешките дават 4 милиона думи на казус на 100 милиона единици, което изисква ръчна редакция.

В детайли този проблем е описан от Захаров VP "Corpus linguistics".

Синтактично маркиране

Разработването или анализирането е процедурата, която определя връзката на думите в едно изречение. С помощта на набор от алгоритми става възможно да се дефинират в текста субектът, предикатът, допълненията, различните завои на речта. Намирането на кои думи в последователността са основните и които са зависими, можем ефективно да извлечем информация от текста и да обучим машината да издава само информацията, която ни интересува в отговор на заявката за търсене.

Лаборатория по корпусна лингвистика в руски университети

Между другото, модерните търсачки използват това, за да дадат конкретни цифри вместо продължителни текстове в отговор на съответните заявки като "колко калории в една ябълка" или "разстоянието от Москва до Петербург". За да разберете дори основните принципи на описания процес, ще трябва да се запознаете с "Въведение в корпус лингвистиката" или друга основна учебна помощ.

Семантично маркиране

Семантиката на една дума е, разбира се, нейното значение. Широко приложим подход в семантичния анализ е приписването на думите, отразяващи принадлежността му към набор от семантични категории и подкатегории. Тази информация е ценна за оптимизирането на алгоритми за анализ на тоналността на текста, автоматичното абстрактно и други задачи, използвайки методите на корпусната лингвистика.

Има редица "корени" на дървото, които са абстрактни думи, имащи много широка семантика. Тъй като това дърво клони, възли са оформени, които съдържат все по-специфични лексикални елементи. Например, думата "битие" може да бъде свързана с понятия като "човек" и "животно". Първата дума ще бъде по-нататък разделена на различни професии, понятия за родство, националност, а втората - на класове и видове животни.

Прилагане на системи за извличане на информация

Областите на използване на корпусната лингвистика обхващат широк кръг от области на дейност. Случаите се използват за съставяне и поправяне на речници, създаване на автоматични системи за превод, абстрактно, извличане на факти, определяне на ключовете и друга текстообработка.

корпусни лингвистични типове

Освен това такива ресурси се използват активно в изучаването на световните езици и механизмите на функциониране на езика като цяло. Достъп до големи обеми от предварително подготвена информация улеснява бързото и цялостно проучване на тенденциите на развитие на езика, както и промяна на стабилни образуване на неологизми скорост реч стойности лексикални единици и др.

Тъй като работата с такива големи обеми данни изисква автоматизация, днес има тясно взаимодействие между компютърната и корпусната лингвистика.

Национална сграда на руския език

Тази сграда (съкратена на NKRN) включва редица подкорки, които позволяват използването на ресурса за решаване на голямо разнообразие от задачи.

Материалите в основата на NKRN са подразделени:

  • относно публикуването в медиите на 90-те и 2000-те години както на местни, така и на чуждестранни;
  • записи на устно слово;
  • подчертани текстове (т.е. със знаци за стреса);
  • диалект реч;
  • поетични произведения;
  • материали със синтаксична маркировка и др.

Информационната система включва също подкорки с успоредни преводи на произведения от руски на английски, немски, френски и много други езици (и обратно).

Също така в базата данни има част от историческите текстове, представящи писмено слово на руски език в различни периоди на неговото развитие. Има и образователна сграда, която може да бъде полезна за чуждестранните граждани при усвояването на руския език.

Националният корпус на руския език включва 400 милиона лексикални единици и в много отношения изпреварва значителна част от езиковите сгради на Европа.

перспективи

Фактът, че лабораторните лаборатории по корпусна лингвистика в руските университети, както и в чужди, обещава, е факт в полза на признаването на тази посока. С приложението и изследванията в рамките на разглежданите ресурси за информация и търсене се занимава развитието на определени области в областта на високите технологии, системи за въпроси-отговор, но това е обсъдено по-горе.

история на корпусната лингвистика

По-нататъшното развитие на корпусна лингвистика се прогнозира на всички нива, като се започне от техническа и по отношение на прилагането на нови алгоритми, които оптимизират процесите на търсене и обработка на информация, овластяване на компютри, повече RAM, както и за потребителите, тъй като потребителите са все повече и повече начини за използване на този вид ресурс в тяхната ежедневна живот и работа.

В заключение

В средата на миналия век 2017 е далечно бъдеще, в което космическите кораби орязват пространствата на вселената, а роботите правят цялата работа за хората. Всъщност, науката изобилства от "бели петна" и прави отчаяни опити да отговори на въпроси, които са разтревожили човечеството от векове. Въпросите за функционирането на езика тук заемат почетно място, а корпускулната и компютърна лингвистика може да ни помогне да им отговорим.

Обработката на големи набори от данни ви позволява да откривате модели, които не са налични по-рано, да предскажете развитието на някои езикови функции, да наблюдавате формирането на думи в реално време.

На практическо ниво, глобалните приложенията могат да се видят, например, като потенциален инструмент за оценка на общественото настроение - Интернет е постоянно се обновява ежедневно различни текстове, създадени от потребителите: Този коментари и мнения, както и статии, както и много други форма на речта.

В допълнение, работата с органи, допринася за развитието на един и същ хардуер, които са замесени в извличане на информация, ние сме запознати с услугата "Google" или "Яндекс", машинен превод, електронни речници.

Може да се твърди уверено, че корпусната лингвистика прави само първите стъпки и в близко бъдеще ще се развива бързо.

Споделяне в социалните мрежи:

сроден