Intellectual Partner
INTELPART: Інтэлектуальныя тэхналёгіі ў бізнэсе
• прадукты • артыкулы • мэтадалёгія • праекты • ссп • спампаваць • навіны • кантакт • пошук
Па-беларуску Па-расейску Па-ангельску


Прадмова

Частка 1. Тыпавая машына асэнсаванага пошуку інфармацыі на аснове модулю элемэнтарнага сэнсу

Частка 2. Тыпавая машына пошуку з кантэкстам

Частка 3. Машына пошуку з кантэкстам па часе

Частка 4. Машына катэгорыяў. Узаемадзеяньне дзьвюх машынаў

Выснова

Праекты. Асэнсаваная апрацоўка інфармацыі

Частка 1. Тыпавая машына асэнсаванага пошуку інфармацыі
на аснове модулю элемэнтарнага сэнсу

Структуру тыпавога працэсу пошуку інфармацыі можна ўмоўна падаць у гэткім выглядзе:

Карыстальнік з сваімі патрэбамі ў інфармацыі -- Запыт на неабходную інфармацыю -- Трансфармацыя пошукавай машынай запыту карыстальніка -- Уласна пошукавы мэханізм машыны -- Інфармацыйная прастора -- Знойдзеная для карыстальніка інфармацыя
1   2   3   4   5   6

Дзе:

  1. Карыстальнік з сваімі патрэбамі ў інфармацыі.
  2. У пэўнай форме пададзены карыстальнікам запыт на неабходную яму інфармацыю (падача карыстальнікам сваіх патрэбаў у інфармацыі ў выглядзе запыту).
  3. Трансфармацыя пошукавай машынай запыту карыстальніка і стварэньне пошукавай матрыцы.
  4. Уласна пошукавы мэханізм машыны, які ідэнтыфікуе пошукавую матрыцу ў інфармацыйнай прасторы.
  5. Інфармацыйная прастора - прастора, у якой ажыцьцяўляецца пошук.
  6. Знойдзеная для карыстальніка інфармацыя.

Ёсьць два палярныя прынцыпы работы пошукавай машыны. Першы - пошук інфармацыі па ключавых словах, другі - пошук па аналёгіях у тым ці іншым выглядзе.

Прынцыповым недахопам тыпавой пошукавай машыны зьяўляецца вось якая супярэчнасьць (супярэчнасьць запыту):

  • калі для пошуку інфармацыі скарыстаны ключавыя словы, то пошукавая машына не знаходзіць інфармацыйныя крыніцы, зьвязаныя з запытам паводле сэнсу;
  • калі для пошуку інфармацыі скарыстаны аналёгіі, то ў выніку неабмежавана павялічваецца ў працэсе пошуку колькасьць знойдзеных інфармацыйных крыніцаў.

Праблема асэнсаванага пошуку па аналёгіях ёсьць у тым, што ў агульным выпадку колькасьць магчымых аналёгіяў (адносінаў) для любога паняцьця (у прыватнасьці, адбітым у слове) бязь ліку. Напрыклад, прамыя аналёгіі; асацыяцыі; сыстэмныя адносіны; часавыя сувязі ды падабенствы; сувязі ды падабенствы па ўласьцівасьцях; функцыянальныя падабенствы; прафэсійныя, дысцыплінарныя падабенствы і г.д.

Праблема множнасьці аналёгіяў зручна разьвязваецца коштам выкарыстаньня

аналёгіяў, уласьцівых натуральнай мове
(суб'ектава-арыентаваныя аналёгіі).

Напрыклад, тлумачальны слоўнік натуральнае мовы апісвае аналёгіі, якія найбольш верагодна чалавек мае на ўвазе. Для паняцьця, абазначанага словам, тлумачальны слоўнік дае досыць пэўны, уласьцівы гэтаму паняцьцю, набор аналёгіяў.

Дзеля таго каб у пошуку інфармацыі можна было карыстацца суб'ектава-арыентаванымі аналёгіямі, неабходна мець:

  • Аналёгіі, уласьцівыя паняцьцям (словам натуральнае мовы).
  • Прынцыпы сувязі ды ўзаемадзеяньня розных аналёгіяў паміж сабою.
  • Структуру паказу паняцьця мовы ў выглядзе сыстэмы аналёгіяў.

Паняцьці натуральнае мовы зручна паказаць у выглядзе модуляў элемэнтарнага сэнсу. Модуль элемэнтарнага сэнсу - гэта структура, якая адбівае прадметы і зьявы праз фіксацыю іх істотных уласьцівасьцяў і аналёгіяў. Модуль элемэнтарнага сэнсу падрабязна разгледжаны ў Дадатку 1.1. Модуль элемэнтарнага сэнсу.

Модуль элемэнтарнага сэнсу дазваляе арганізаваць пошук інфармацыі па тых паняцьцях, якія цікавяць карыстальніка або якія ён мае на ўвазе.

Акрамя таго, унівэрсальная структура модулю элемэнтарнага сэнсу дае магчымасьць:

  • Аб'яднаць некалькі паняцьцяў у больш агульнае паняцьце.
  • Раскладаць адно паняцьце на паняцьці, якія яго складаюць.
  • Трансфармаваць паняцьці, іманэнтава ўласьцівыя мове, у форму, неабходную карыстальніку.

Аб'яднаньне-разьяднаньне паняцьцяў дазваляе працаваць з паняцьцямі на роўні асэнсаваных групаў словаў - сказаў, бо сам сказ - гэта таксама паняцьце. Канкрэтныя мэханізмы аб'яднаньня-разьяднаньня паняцьцяў і канкрэтныя мэханізмы падачы сказаў натуральнае мовы ў выглядзе модуляў элемэнтарнага сэнсу падрабязна разглядаюцца ў Дадатку 1.2. Апэраваньне модулем элемэнтарнага сэнсу.

Мэханізмы, пададзеныя ў Дадатку 1.2, дазваляюць будаваць пошукавую машыну з наступнымі ўласьцівасьцямі:
1) Запыт карыстальніка на пошук інфармацыі можа быць пададзены на натуральнай мове.
2) Машына можа ажыцьцяўляць пошук складаных паняцьцяў.

Агульны альгарытм работы такой машыны разглядаецца ў Дадатку 1.3. Машына пошуку інфармацыі на аснове модулю элемэнтарнага сэнсу.

Выкарыстаньне пошукавай машыны, якая апэруе паняцьцямі, дазваляе, напрыклад:

  • Арганізаваць пошук зададзенага паняцьця ў інфармацыйнай прасторы (вызначэньне, дзе знаходзіцца паняцьце; што зь ім зьвязана; выдача фрагмэнту тэксту ці поўнага дакумэнту, дзе пра гэта ідзе гаворка або дзе прысутнічае шукаемы сэнс).
  • Арганізаваць пошук таго, што ёсьць у інфармацыйнай прасторы з паняцьця, якое цікавіць (пошукавая машына фармуе прыярытэтныя цэнтры ў інфармацыйнай прасторы з пункту гледжаньня зададзенага паняцьця).
  • Вызначаць прыярытэтныя цэнтры сэнсу ў інфармацыйнай прасторы (напрыклад, вызначэньне, пра што паведамляе аналізуемы тэкст).
  • Разглядаць запыты карыстальніка як каманды кіраваньня і шукаць у іх сэнс, суадносячы яго з тымі ці іншымі працэдурамі выкананьня. Макет такой сыстэмы дазволіў аддаваць загады кампутару на натуральнай мове.

Дадатак 1.1. Модуль элемэнтарнага сэнсу

Разгледзім суб'ектава-арыентаваныя аналёгіі ў межах простага сказу натуралёвае мовы. Граматычная структура сказу натуралёвае мовы ў агульным выпадку (тут і далей пададзена канкрэтыка для беларускае мовы) зьмяшчае наступныя элемэнты [Ул.А.Карпаў, Мова як сыстэма. Мінск: Вышэйшая школа, 1992]:

  • S -- суб'ект,
  • A -- дзеяньне,
  • O -- аб'ект,
  • Adr -- адрасат,
  • In -- інструмэнт,
  • Topic -- тэма,
  • Loc -- месца,
  • G -- прыналежнасьць,
  • Adv -- прыкмета дзеяньня,
  • Atr -- прыкмета прадмета,
  • Cause -- прычына,
  • Goal -- мэта,
  • Time -- час,
  • Condition -- умова,
  • Number -- лік,
  • Prep -- прыназоўнік,
  • Modal -- мадальнасьць ды інш.

Па сутнасьці, пералічанае вышэй - гэта рознага роду і віду аналёгіі. Але ж у якасьці асноўных элемэнтаў сказу зручна разглядаць аналёгіі, якія адпавядаюць: а) узаемадзеяньню, б) структуры і в) часу.

Тады першай значнай прыкметаю зьявы будзе ўзаемадзеяньне й яго ўласьцівасьці. Любая зьява "дзеяньне" мае як уласьцівасьць суб'ектаў (S), якія выконваюць, ініцыююць гэтае дзеяньне, і аб'екты (O), на якія скіравана гэтае дзеяньне. Аналягічна зьяве "суб'ект-аб'ект" уласьцівыя дзеяньні, якія яна ініцыюе як суб'ект (As) і дзеяньні, якія на яе скіраваныя як на аб'ект (Ao) [В.Ул.Мартынаў, Унівэрсальны сэмантычны код. Граматыка. Слоўнік. Тэксты. Мінск: Навука і Тэхніка, 1977].

Другой значнай прыкметаю зьявы ёсьць структурныя ўласьцівасьці - надсыстэмныя (НС) і падсыстэмныя (пС) зьявы. Надсыстэмаю для зьявы "суб'ект-аб'ект" ёсьць зьявы, якія ўключаюць яго ў сябе. Падсыстэма - гэта зьявы, зь якіх "суб'ект-аб'ект" складаецца, і што ён мае ў сабе. Надсыстэмаю для "дзеяньня" ёсьць зьявы, якія паказваюць, формаю чаго зьяўляецца разглядаемае дзеяньне. Падсыстэмаю для "дзеяньня" ёсьць зьявы, якія паказваюць віды дзеяньня.

Трэйцяя значная прыкмета зьявы - час і ўласьцівы зьяве часавы інтэрвал. Для зьявы "дзеяньне" час паказваецца ў выглядзе прычынна-выніковых ланцужкоў, што падаюць, у якія працэсы ўваходзіць дзеяньне (t+) і зь якіх працэсаў яно складаецца (t-). Для зьявы "суб'ект-аб'ект" час паказваецца ў выглядзе асноўных якасных фазаў існаваньня ўнутры ўласьцівага зьяве часавага інтэрвалу (t-intro - унутраны час) і асноўных якасных фазаў, адной зь якіх зьяўляецца сама зьява (T-extro - вонкавы час).

Зьявы ўнутранага часу і зьявы вонкавага часу

Дзе t-intro - зьявы ўнутранага часу, T-extro - зьявы вонкавага часу.

У выніку маем два модулі: зьява "суб'ект-аб'ект" і зьява "дзеяньне" з пералічанымі вышэй сыстэмамі суб'ектава-арыентаваных аналёгіяў. Ключавыя "аналёгіі" любога слова з натуральнае мовы зручна падаць у гэткім выглядзе:

Модуль зьявы "суб'ект-аб'ект S-O".
Зьявы вонкавага часу АБ'ЕКТА Хто ўключае ў сябе АБ'ЕКТ?
Што ўключае ў сябе АБ'ЕКТ?
 
Што робяць з АБ'ЕКТАМ? Модуль зьявы "суб'ект-аб'ект S-O" Што робіць АБ'ЕКТ?
  З чаго складаецца АБ'ЕКТ?
Зь якіх частак складаецца АБ'ЕКТ?
Што ўключае АБ'ЕКТ?
Зьявы ўнутранага часу АБ'ЕКТА

Модуль зьявы "дзеяньне A".
У якія працэсы ўваходзіць ДЗЕЯНЬНЕ? Формай чаго зьяўляецца ДЗЕЯНЬНЕ?  
Хто выконвае ДЗЕЯНЬНЕ? Модуль зьявы "дзеяньне A" На што скіравана ДЗЕЯНЬНЕ?
  Якія віды ДЗЕЯНЬНЯ існуюць? Зь якіх працэсаў складаецца ДЗЕЯНЬНЕ?

Гэтыя модулі выказваюць і апэруюць элемэнтамі граматычнай структуры сказу наступным чынам.

1) Суб'ект (S) і Аб'ект (O) - зьяўляюцца цэнтрамі модулю элемэнтарнага сэнсу "суб'ект-аб'ект S-O".
Суб'ект або Аб'ект

2) Дзеяньне (A) - ёсьць цэнтар модулю элемэнтарнага сэнсу "дзеяньне A".
Дзеяньне

3) Дзеючы суб'ект ("суб'ект S ажыцьцяўляе дзеяньне A") падаецца:
Суб'ектДзеяньне
Для іманэнтавага суб'екта S канкрэтнае дзеяньне A касуе варыянты аналёгіяў яго магчымых дзеяньняў, і гэтым удакладняе і канкрэтызуе гэтага суб'екта. Апрача гэтага, адбываецца ўзаемная карэляцыя і ўдакладненьне іншых восяў узаемадзеючых модуляў. Звыш таго, зьяўляецца магчымасьць згортваньня гэтае пары ў новую зьяву "суб'ект-аб'ект" з новымі ўдакладнёнымі ўласьцівасьцямі або ў новую зьяву "дзеяньне" з новымі ўдакладнёнымі ўласьцівасьцямі. Дзеяньне над аб'ектам O - падаецца аналягічна.
ДзеяньнеАб'ект

4) Інструмэнт (In) можа быць пададзены ў двух варыянтах.
Варыянт А. Інструмэнт (In) падаецца як цэнтар элемэнтарнага модулю, які ідзе за модулем суб'екта.
Суб'ектДзеяньнеІнструмэнт
Дзе A` - спэцыфічнае дзеяньне, якое зьвязвае суб'ект (S) ды інструмэнт (In).

Варыянт Б. Інструмэнт (In) падаецца як спэцыфічны суб'ект "суб'ект, які мае інструмэнт", дзе элемэнт інструмэнт (In) трапляе ў падсыстэму суб'екта S і карэктуе яго астатнія восі.
Суб'ект, які мае інструмэнт

5) Адрасат (Adr) падаецца аналягічна інструмэнту (In).
Варыянт А. Адрасат (Adr) падаецца як цэнтар элемэнтарнага модулю, які ідзе за модулем аб'екта:
Аб'ектДзеяньнеАдрасат
Дзе A` - спэцыфічнае дзеяньне, якое зьвязвае аб'ект (O) ды адрасат (Adr).

Варыянт Б. Адрасат (Adr) падаецца як спэцыфічны аб'ект "аб'ект з адрасатам", дзе элемэнт адрасат (Adr) трапляе ў падсыстэму аб'екта O і карэктуе яго астатнія восі:
Аб'ект з адрасатам

6) Тэма (Topic) - спэцыфічны аб'ект, падаецца аналягічна адрасату (Adr).

7) Мадальнасьць (Modal) - спэцыфічнае дзеяньне, падаецца аналягічна адрасату (Adr) ды інструмэнту (In), толькі мае дачыненьне да зьявы "дзеяньне".

8) Прыналежнасьць (G) - паказвае сувязь любога модулю элемэнтарнага сэнсу з надсыстэмаю і, адпаведна, месьціцца ў надсыстэме.

Для S:
Прыналежнасьць
Суб'ект
Для A:
Прыналежнасьць
Дзеяньне
Для Adr:
Прыналежнасьць
Адрасат

Для астатніх элемэнтаў граматычнае структуры сказу (аб'ект, інструмэнт, тэма, месца і г.д.) прыналежнасьць падаецца аналягічна.

9) Прыкмета дзеяньня (Adv) - працэдура, якая карэктуе падсыстэму ў зьявы "дзеяньне".

10) Прыкмета прадмета (Atr) - гэта працэдура, якая карэктуе падсыстэму ў зьявы "суб'ект-аб'ект". Прыкмета прадмета мае дачыненьне да гэткіх зьяваў: суб'ект (S), аб'ект (O), адрасат (Adr), інструмэнт (In), тэма (Topic), месца (Loc), прыналежнасьць (G).

11) Прычына (Cause) - гэты элемэнт знаходзіцца на восі прычынна-выніковых ланцужкоў. Падтрымліваецца працэдурна.

Для зьявы "дзеяньне": Для зьявы "суб'ект-аб'ект":
Прычына     Дзеяньне  
  Дзеяньне або   Прычына
Прычына     Суб'ект  
  Суб'ект або   Прычына

12) Мэта (Goal) - аналягічна прычыне (Cause), з той асаблівасьцю, што мэта - гэта зьява, якая ідзе па часох за разглядаемай зьявай. З гэтага пункту гледжаньня разглядаемая зьява для мэты (Goal) ператвараецца ў прычыну. Падтрымліваецца працэдурна.

13) Умова (Condition) - падаецца аналягічна прычыне (Cause) і мэце (Goal). Падтрымліваецца працэдурна.

14) Лік (Number) - гэта спэцыфічная зьява "суб'ект-аб'ект", якая адпавядае катэгорыі "колькасьць". Яе спэцыфічнасьць ёсьць у тым, што вось зьяваў вонкавага часу (T-extro) ў ліку выглядае як радок лічбаў, якія вырозьніваюцца адно ад другога на 1.
Лік
Элемэнты колькасьці можна разглядаць на восі вонкавага часу (T-extro) як працэс дабаўленьня новых якасьцяў. Напрыклад:
- колькасьць 1 = якасьць "адзін",
- 1 + 1 = 2, колькасьць 2 = новая якасьць "два",
- 2 + 1 = 3, колькасьць 3 = новая якасьць "тры" (альбо "трэці"...).
Пры ўзаемадзеяньні ліку са зьяваю "суб'ект-аб'ект", лік выступае як катэгорыя і месьціцца адначасова як у надсыстэмных, так і ў падсыстэмных уласьцьвасьцях зьявы "суб'ект-аб'ект".

15) Час (Time) - гэта спэцыфічная зьява "суб'ект-аб'ект", якая адпавядае катэгорыі "час", падаецца аналягічна катэгорыі "колькасьць".

16) Месца (Loc) - падаецца аналягічна ліку (Number) і часу (Time).

Заўвагі.
А) Па гэткім жа прынцыпе можна працаваць з катэгорыямі "адлегласьць", "важнасьць" ды інш.
Б) З катэгорыямі можна працаваць і скарыстаўшы прынцып прывядзеньня да прыметнікаў.
Напрыклад,
- катэгорыя часу "рана" = прыметнік "раньні";
- катэгорыя колькасьці "адзін" = прыметнік "адзіны".
Гэта дазваляе разглядаць катэгорыі як прыкмету прадмета (Atr) або прыкмету дзеяньня (Adv).

17) Прыназоўнік (Prep) - гэты граматычны элемэнт непасрэдна ў модулі элемэнтарнага сэнсу не прысутнічае. Ды ён там і не патрэбны, яго галоўнае прызначэньне - паказаць месца і тып сувязяў модуляў паміж сабою. Падтрымліваецца працэдурна.


Дадатак 1.2. Апэраваньне модулем элемэнтарнага сэнсу

1. Пераклад сказу натуралёвае мовы ў від, які карэлюе з модулем элемэнтарнага сэнсу.
2. Пабудаваньне пошукавай матрыцы.
3. Прыклад работы альгарытму пабудаваньня матрыцы запыту.

1. Пераклад сказу натуралёвае мовы ў від, які карэлюе з модулем элемэнтарнага сэнсу.
Сутнасьць гэтага перакладу ёсьць ў тым, што кожнае слова ў залежнасьці ад сваіх канкрэтных граматычных прыкметаў займае сваё канкрэтнае месца ў граматычнай структуры сказу. Граматычныя прыкметы словаў можна закадаваць і скарыстаць атрыманы код дзеля разбору сказу. Правілы граматычнага кадаваньня па просьбе аўтараў распрацаваў для іх прафэсар Ул.А.Карпаў [Ул.А.Карпаў, Мова як сыстэма. Мінск: Вышэйшая школа, 1992]. Створаны на гэтай базе дзеючы макет праграмы аналізу і разбору сказаў натуралёвае мовы паказаў прыймальныя вынікі.

Заўвагі.
Граматычнае кадаваньне пададзена на прыкладзе беларускае мовы. Але тут варта зазначыць:
А) Пры неабходнасьці, такая праца можа быць хутка выканана для любой іншай мовы (ангельскай, нямецкай, францускай, расейскай ды інш.).
Б) На падставе досыць поўнага слоўніка можна атрымаць прынцыпы ўтварэньня й зьмяненьня словаў. Карыстаючыся гэтымі прынцыпамі, праграма дасьць рады аўтаматычна фармаваць граматычныя коды для незнаёмых словаў і аўтаматычна папаўняць слоўнік.

Структура граматычнага коду выглядае гэткім чынам:

  першя лічба другая лічба трэцяя лічба
0 - -назоўны склон;
-паказвае на стварэньне формаў складанага будучага аналітычнага часу ў дзеясловаў незакончанага трываньня;
-дзеяпрыслоўі закончанага і незакончанага трываньняў;
-прыслоўі колькасьці, якія адказваюць на пытаньне "колькі?"
-прыслоўі;
-інфінітыў дзеясловаў незакончанага трываньня
1 -асабовыя займеньнікі: я, ты, ён, яна, яно, мы, вы, яны -родны склон;
-прыназоўнікі, якія кіруюць толькі родным склонам
-адзіночны лік,1-ая асоба асабовых займеньнікаў;
-дзеяпрыслоўі незакончанага трываньня;
-адзіночны лік, 1-ая асоба дзеясловаў
2 -неадушаўлёныя назоўнікі -давальны склон;
-прыназоўнікі, якія кіруюць толькі давальным склонам
-множны лік, 1-ая асоба асабовых займеньнікаў;
-множны лік, 1-ая асоба дзеясловаў
3 -дзеясловы незакончанага трываньня ("невыніковыя дзеясловы") і дзеяпрыслоўі ад гэтых дзеясловаў -вінавальны склон;
-прыназоўнікі, якія кіруюць толькі вінавальным склонам
-адзіночны лік, 2-ая асоба асабовых займеньнікаў;
-адзіночны лік, 2-ая асоба дзеясловаў
4 -прыслоўі -творны склон;
-прыназоўнікі, якія кіруюць толькі творным склонам
-множны лік, 2-ая асоба асабовых займеньнікаў;
-множны лік, 2-ая асоба дзеясловаў
5 -прыметнікі -месны склон;
-прыназоўнікі, якія кіруюць толькі месным склонам
-мужчынскі род
6 -лічэбнікі -цяперашні час дзеяслова;
-прыслоўе часу, якое адказвае на пытаньне "калі?"
-множны лік
7 -дзеясловы закончанага трываньня ("выніковыя дзеясловы") -прошлы час дзеяслова;
-прыслоўі спосабу дзеяньня, якія адказваюць на пытаньне "як?"
-жаноцкі род
8 -адушаўлёныя назоўнікі;
-уласныя імёны
-будучы просты час дзеяслова і дзеяслоў "быць";
-прыслоўі кірунку, якія адказваюць на пытаньне "куды?"
-пытальныя апэратары (заўсёды зьвязваецца з пытальнымі словамі, якія ўваходзяць у розныя часьціны мовы)
9 -службовыя словы: прыназоўнікі, часьцінкі, злучнікі, выклічнікі -загадны лад дзеяслова;
-прыслоўі, зьвязаныя з пазначэньнем месца, якія адказваюць на пытаньне "адкуль?"
-ніякі род

Граматычны код ёсьць трохлічбавым.

Першая лічба.

Першая лічба ў кодах выкарыстоўваецца толькі для абазначэньня часьцінаў мовы:
1 - займеньнікі,
2 - неадушаўлёныя назоўнікі,
3 - інфінітыў дзеясловаў незакончанага трываньня,
4 - прыслоўі,
5 - прыметнікі,
6 - лічэбнікі,
7 - інфінітыў дзеясловаў закончанага трываньня,
8 - адушаўлёныя назоўнікі,
9 - службовыя часьціны мовы (прыназоўнікі, злучнікі, выклічнікі).

Другая лічба.

Другая лічба ў кодах займеньнікаў, назоўнікаў, прыметнікаў, лічэбнікаў выкарыстоўваецца дзеля абазначэньня склону:
0 - назоўны,
1 - родны,
2 - давальны,
3 - вінавальны,
4 - творны,
5 - месны.

Другая лічба ў кодах дзеясловаў выкарыстоўваецца дзеля абазначэньня катэгорыі часу:
0 - у інфінітыве паказвае на стварэньне формаў складанага будучага часу, які ўжываецца толькі зь дзеясловам-зьвязкаю "быць",
6 - цяперашні час,
7 - прошлы час,
8 - будучы просты час.
А таксама паказвае на катэгорыю ладу:
9 - загадны лад.

Другая лічба ў кодах прыслоўяў абазначае аднясеньне іх да тога ці іншага сэмантычнага разраду. Прычым, другія лічбы ў кодах прыслоўяў і ў кодах адпаведных ім пытальных словаў супадаюць.

Прыслоўі:
400 - прыслоўі колькасьці,
460 - прыслоўі часу,
470 - прыслоўі спосабу дзеяньня,
480 - прыслоўі кірунку,
490 - прыслоўі месца,
Пытальныя словы:
колькі? - 408;
калі? - 468;
як? - 478;
куды? - 488;
адкуль? - 498.

Другая лічба ў кодах службовых словаў разьдзяляе іх на:
910 - прыназоўнікі, якія ўжываюцца з родным склонам,
920 - прыназоўнікі, якія ўжываюцца з давальным склонам,
930 - прыназоўнікі, якія ўжываюцца зь вінавальным склонам,
940 - прыназоўнікі, якія ўжываюцца з творным склонам,
950 - прыназоўнікі, якія ўжываюцца зь месным склонам,
960 і 970 - злучнікі,
980 - выклічнікі.

Трэцяя лічба.

Трэцяя лічба ў кодах займеньнікаў і дзеясловаў выкарыстоўваецца дзеля абазначэньня асобы:
1 - першая асоба адзіночнага ліку,
2 - другая асоба адзіночнага ліку,
3 - першая асоба множнага ліку,
4 - другая асоба множнага ліку.

Трэцяя лічба ў кодах назоўнікаў, прыметнікаў, займеньнікаў у трэцяй асобе адзіночнага ліку і дзеясловаў у прошлым часе выкарыстоўваецца дзеля абазначэньня катэгорыі роду:
5 - мужчынскі род,
7 - жаноцкі род,
9 - ніякі род.

Акрамя таго, трэцяя лічба "6" ў кодах назоўнікаў, прыметнікаў, займеньнікаў у трэцяй асобе множнага ліку, дзеясловаў прошлага часу і лічэбнікаў абазначае толькі множны лік.

Трэцяя лічба "8" абазначае толькі пытальныя словы. Напрыклад,

хто? - 108,
каго? - 118,
каму? - 128,
каго? - 138,
кім? - 148,
аб/пры кім? - 158,
калі? - 468 і г.д.
што? - 208;
чаго? - 218;
чаму? - 228;
што? - 238;
чым? - 248;
аб/пры чым? - 258;

Заўвагі.
А) Магчыма далейшая распрацоўка прыслоўяў па іншых сэмантычных разрадах, для якіх можна выкарыстоўваць коды 410, 420, 430, 440, 450.
Б) Для дэталізацыі злучнікаў і часьцінак магчыма далейшая распрацоўка іх сэмантычных разрадаў.

2. Пабудаваньне пошукавай матрыцы.
Мэханізмы, што прыведзены ў Дадатку 1.1 дазваляюць падаць сказ у выглядзе зьвязанай структуры модуляў элемэнтарных сэнсаў (суб'ектава-арыентаванай карціны сьвету сказу). У выніку атрымліваем матрыцу запыту з суб'ектава-арыентаванымі аналёгіямі. Ніжэй пададзена апісаньне магчымага альгарытму пабудаваньня матрыцы запыту.

Альгарытм пабудаваньня матрыцы запыту.
1) У сказе-запыце вызначаем граматычныя коды кожнага слова. Граматычныя коды вызначаюцца:
а) Паводле слоўніка.
б) Паводле сыстэмы канчаткаў, калі слова ў слоўніку адсутнічае.

2) Знаходзім слова, якое мае код дзеяньня. Будуем модуль элемэнтарнага сэнсу для дзеяньня.

3) Модуль элемэнтарнага сэнсу па п. 2) зьяўляецца асновай для пабудаваньня матрыцы запыту. У агульным выпадку матрыца запыту для простага сказу натуралёвае мовы ўяўляе зь сябе тры зьвязаныя модулі зьяваў - суб'ект (S), дзеяньне (A) і аб'ект (O), кожны са сваімі комплексамі залежных словаў.

4) Вызначаем у сказе групу суб'екта і групу аб'екта. Група суб'екта - гэта ўсе словы, якія залежаць ад суб'екта (S). Група аб'екта - гэта ўсе словы, якія залежаць ад аб'екта (O).

Правілы:
- словы, якія стаяць у сказе да дзеяньня, лічацца групай суб'екта;
- словы, якія стаяць у сказе пасьля дзеяньня, лічацца групай аб'екта.

5) Апрацоўваем групу суб'екта.

Вось некаторыя асноўныя правілы для беларускае мовы:
- у любой пары словаў ёсьць галоўнае слова і залежнае слова;
- дапасаваньне залежнага слова да галоўнага слова ідзе па граматычных кодах;
- галоўнае слова, у сваю чаргу можа быць залежным ад іншага слова;
- у прыназоўніка і назоўніка мае быць аднолькавы код склону (другая лічба);
- прыназоўнік заўсёды стаіць перад назоўнікам, якім кіруе;
- калі назоўнік апынуўся ў групе суб'екта, то коды аб'екта ў яго можна скасаваць, бо ён адначасова ня можа быць і ў групе суб'екта, і ў групе аб'екта;
- калі назоўнік апынуўся ў групе аб'екта, то коды суб'екта ў яго можна скасаваць, бо ён адначасова ня можа быць і ў групе аб'екта, і ў групе суб'екта;
- слова ў родным склоне паказвае на прыналежнасьць, на надсыстэму;
- калі дзеяслоў стаіць у множным ліку, то суб'ект мае таксама множны лік.
Поўны сьпіс правілаў для любой натуралёвае мовы вызначаецца яе граматыкай.

а) Шукаем у групе суб'екта слова, якое мае код суб'екта.
б) Будуем модуль элемэнтарнага сэнсу для суб'екта.
в) Удакладняем матрыцу запыту. Дзеля гэтага стыкуем модуль элемэнтарнага сэнсу суб'екта з модулем элемэнтарнага сэнсу дзеяньня. Затым узаемна карэктуем восі аналёгіяў кожнага з модуляў.
г) Вызначаем словы, залежныя ад суб'екта.
д) Для кожнага залежнага слова будуем модуль элемэнтарнага сэнсу з убудаваньнем у карціну сьвету сказу аналягічна п. 5в).

6) Апрацоўваем групу аб'екта. Асноўныя правілы і альгарытм апрацоўкі падобныя да правілаў апрацоўкі групы суб'екта (гл. п. 5).

7) Уточваем "страчаныя" словы. "Страчаныя" альбо "згубленыя" - гэта словы, якія не ўвайшлі (не зьвязаліся) у матрыцу запыту. "Губляньне" словаў можа адбывацца во зь якіх прычынаў:
- няпоўны сьпіс правілаў (гл. п. 5);
- правілы (п. 5) супярэчлівыя;
- правіла сувязі ня можа быць сфармулявана, бо сувязь "страчанага" слова з астатнімі ёсьць не граматычная, а сэмантычная (напрыклад, злучэньне словаў з дапамогай прымыканьня).
У дадзеным выпадку паўстае неабходнасьць работы з сэнсам слова. Тут мэтазгодна выкарыстоўваць слоўнік, у якім любое слова пададзена ў выглядзе модулю элемэнтарнага сэнсу.

Тады "страчанае" слова зьвязваецца з матрыцай запыту гэткім чынам:
а) Калі "страчанае" слова ёсьць ў слоўніку.
- знаходзім у слоўніку модуль элемэнтарнага сэнсу "страчанага" слова;
- вызначаем перасячэньні аналёгіяў паміж "страчаным" словам і пабудаванай матрыцай запыту;
- на аснове ўсталяваных перасячэньняў вызначаем месца "страчанага" слова ў матрыцы запыту.
б) Калі "страчанага" слова ў слоўніку няма.
- папаўняем слоўнік зьяваў і потым заносім слова ў матрыцу запыту;
- калі запыт карыстальніка пададзены ў выглядзе тэксту, то трэба адкласьці "страчанае" слова да далейшага яго ўдакладненьня ў іншым сказе тэксту.

Магчымыя спосабы папаўненьня слоўніка.
- Кантрольныя пытаньні (удакладніць у карыстальніка, што маецца на ўвазе).
- Пошук слова ў тлумачальным слоўніку і пабудаваньне модулю элемэнтарнага сэнсу на аснове інфармацыі гэтага слоўніка.

Заўвага.
Магчымая праблема - ручное папаўненьне слоўніка. Аднак гэтая праблема не актуальная, бо можна скарыстаць працэдуру аўтаматычнага папаўненьня слоўніка. Калі слова няма ў слоўніку, але яно пазыцыянуецца па правілах у матрыцы запыту, то элемэнты матрыцы запыту ёсьць аналёгіямі для гэтага слова. Яны і фармуюць модуль элемэнтарнага сэнсу незнаёмага слова з наступным аўтаматычным папаўненьнем слоўніка. Інакш кажучы, праблема ручнога складаньня слоўніка мае быць толькі на пачатковых этапах работы пошукавай машыны. Неабходна стартавае стварэньне мінімальнага слоўніка з наступным навучаньнем пошукавай машыны па тэкстах, складанасьць якіх узрастае паступова.

8) У выніку маем матрыцу запыту, якая адпавядае зыходнаму сказу.

Заўвага.
Пасьля складаньня матрыцы запыту зьяўляецца магчымасьць асэнсавана ўдакладніць у карыстальніка, што яму, зрэшты, трэба. Удакладненьні карыстальніка і будуць касаваць аналёгіі, якія ня маюць адносінаў да тэмы пошуку.

3. Прыклад работы альгарытму пабудаваньня матрыцы запыту.
Разгледзім сказ "У сям'і Барадуліных любяць спорт".

1) У сказе для кожнага слова вызначаем граматычныя коды (граматычныя коды вызначаюцца па слоўніку, а калі слова ў слоўніку ня знойдзена - па сыстэме канчаткаў).

У = 930, 950
сям'і = 227, 257
Барадуліных = 816, 836, 216, 236
любяць = 366
спорт = 205, 235

2) Знаходзім слова з кодам дзеяньня.

любяць = 366

3) Дзеяньне "любяць" заносім у модуль элемэнтарнага сэнсу зьявы "дзеяньне".

Дзеяньне "любяць" заносім у модуль элемэнтарнага сэнсу зьявы "дзеяньне"

4) Знаходзім у сказе, якія словы стаяць да дзеяньня, а якія - пасьля. Тыя словы, што стаяць да дзеяньня, лічым групай суб'екта, а тыя, што стаяць пасьля - лічым групай аб'екта.

Група суб'екта (S) У = 930, 950
сям'і = 227, 257
Барадуліных = 816, 836, 216, 236
Дзеяньне (A) любяць = 366
Група аб'екта (O) спорт = 205, 235

5) Шукаем у групе суб'екта словы, якія маюць код суб'екта (назоўнікі ў назоўным склоне). Разглядаем словы:

У = 930, 950
сям'і = 227, 257
Барадуліных = 816, 836, 216, 236

Такіх словаў няма, значыць, суб'ект невыразны. Абазначым яго "X".

Суб'ект невыразны, абазначым яго "X"

6) Апрацоўваем групу суб'екта. Разглядаем словы:

У = 930, 950
сям'і = 227, 257
Барадуліных = 816, 836, 216, 236

Выкарыстоўваем правілы:
- У любой пары словаў ёсьць галоўнае слова і залежнае, прычым галоўнае, ў сваю чаргу можа быць залежным ад іншага слова.
- У прыназоўніка і назоўніка мае быць аднолькавы код склону.
- Прыназоўнік стаіць перад назоўнікам, якім ён кіруе.

Словазлучэньне "у сям'і" дапасоўваецца па пары кодаў 950+257.

Выкарыстоўваем правіла:
- Прыназоўнік "у" ў месным склоне паказвае на сувязь з надсыстэмнаю зьяваю.

На падставе гэтага правіла месьцім слова "сям'я":

Месьцім слова "сям'я"

Разглядаем слова:

Барадуліных = 816, 836, 216, 236

Выкарыстоўваем правіла:
- Калі назоўнік трапіў у групу суб'екта, коды аб'екта можна скасаваць, бо аб'ектам яно быць ня можа.

Разглядаем слова:

Барадуліных = 816, 216

Выкарыстоўваем правіла:
- Слова ў родным склоне паказвае на прыналежнасьць, на надсыстэмную зьяву.

Слова ў родным склоне паказвае на прыналежнасьць, на надсыстэмную зьяву

Выкарыстоўваем правіла:
- Дзеяслоў "любяць" стаіць у множным ліку, адсюль вынікае, што суб'ект "X" мае таксама множны лік.

Цяпер можам часткова аднавіць код суб'екта "X" = _06

7) Апрацоўваем групу аб'екта. Разглядаем слова:

спорт = 205, 235

Выкарыстоўваем правіла:
- Калі назоўнік трапіў у групу аб'екта, то коды суб'екта можна скасаваць.

Разглядаем слова:

спорт = 235

У выніку пры слове "спорт" застаўся толькі адзін код.

Атрымліваем матрыцу запыту з суб'ектава-арыентаванымі аналёгіямі, пабудаваную на сказе "У сям'і Барадуліных любяць спорт":

Атрымліваем матрыцу запыту з суб'ектава-арыентаванымі аналёгіямі, пабудаваную на сказе "У сям'і Барадуліных любяць спорт"

Як бачна з разгледжанага прыкладу, апрача аналёгіяў, уласьцівых асобным элемэнтам, маем комплексныя аналёгіі кшалту: "X любіць спорт"; "сям'я любіць спорт"; "Барадуліны любяць спорт" і г.д. Тут зьяўляецца магчымасьць асэнсавана ўдакладніць у карыстальніка, што яму трэба й якія з праекцыяў сэнсаў яго цікавяць.

Вынік.
Паколькі зьявы мовы -- гэта тое істотнае, што паўтараецца ў сувязях, адносінах і ў руху элемэнтаў (сэнс), то на гэтай падставе можна пабудаваць суб'ектава-арыентаваную карціну сьвету сказу і выкарыстоўваць яе для пошуку інфармацыі.


Дадатак 1.3. Машына пошуку інфармацыі на аснове модулю элемэнтарнага сэнсу

Агульны альгарытм.

1) Аналізуецца сказ-запыт.
а) Вызначаецца склад сказу.
б) Будуецца структура сказу.

2) Будуецца пошукавая матрыца і падаецца карыстальніку дзеля карэкцыі сэнсу. Вось агульны выгляд пошукавай матрыцы:
Суб'ектДзеяньнеАб'ект

3) Арганізуецца пошук неабходнай інфармацыі. Пошукавая матрыца запыту ёсьць цэнтрам "крышталізацыі", зь якім пачынаюць зьвязвацца сказы ў аналізуемай інфармацыйнай прасторы:
а) Калі сказ зьвязаўся з запытам, то гэта значыць, што ён зьмяшчае элемэнты шукаемага сэнсу. А парадак сувязі апісвае, якім чынам запыт суадносіцца са знойдзеным сэнсам.
б) Калі сказ ня зьвязваецца з запытам, то гэта значыць, што ён шукаемых сэнсаў не зьмяшчае.

Вынікі.
1) Выкладзены альгарытм дазваляе ўвесьці "роўні" пошуку інфармацыі ў залежнасьці ад таго, па якіх паняцьцях ідзе пошук:
- аналёгіі першага парадку - гэта пошук па паняцьцях, якія складаюць сам запыт;
- аналёгіі другога парадку - гэта пошук па найбліжэйшых да запыту паняцьцяў;
- і г.д.
2) Вернемся да разгляду структуры працэсу пошуку інфармацыі. Пры выкарыстаньні ў машыне пошуку інфармацыі элемэнтарных сэнсаў працэс пошуку зьмяняецца:
На кроку 2: Запыт карыстальніка на неабходную яму інфармацыю падаецца ў выглядзе звычайнага сказу на натуралёвай мове.
На кроку 3: Стварэньне пошукавай матрыцы зводзіцца да пабудовы карціны сьвету сказу-запыта на падставе выкарыстаньня суб'ектава-арыентаваных аналёгіяў (грунтам ёсьць модуль элемэнтарнага сэнсу).
На кроку 4: Аснову пошукавага мэханізму складае прынцып "крышталізацыі". Сутнасьць гэтага прынцыпу ёсьць у тым, што пошукавая матрыца запыту зьвязваецца (ідэнтыфікуецца) толькі з тымі сказамі ў аналізуемай інфармацыйнай прасторы, якія выяўляюць беспасярэдне шукаемы сэнс ці блізкі па суб'ектава-арыентаваных аналёгіях.

Далей: Частка 2.Тыпавая машына пошуку з кантэкстам Далей



Угару Аўтарскае права (C) 2000 С.Аляксандраў, П.Фадзееў. Усе правы абароненыя.
Аўтарскае права (C) 2001-2024 INTELLECTUAL PARTNER. Усе правы абароненыя.