جستجو بر اساس زبان طبيعی و زبان كنترل شده



رابطه نمایه سازی و جستجو
تطابق نمادی یا ساختاری
رمزها برای ماشین دال بر بافت هستند
کثرت در زبان دلیلی برای کنترل آن
زبان نمایه سازی
انواع زبان های نمایه سازی ( زبان نمایه سازی طبیعی؛ زبان نمایه سازی آزاد؛ زبان نمایه سازی كنترل شده )
سیر تحول نظام های بازیابی اطلاعات
نکاتی پیرامون جستجو به زبان طبیعی و کنترل شده
منابع و مآخذ
منابع برای مطالعه بیشتر


رابطه نمايه سازی و جستجو

بازنمون اطلاعات آن جنبه از بازيابی اطلاعات است كه در آن فايل اصلی مدارك ‌‍[مجموعه ای از محتويات اطلاعاتی] با مجموعه ای از برچسب ها يا جايگزين هايی نظير چكيده ها يا اصطلاح های نمايه ای بازنموده می شود [2]. نقطه تماس (ارتباط) ميان خواسته اطلاعاتی يك كاربر و اطلاعات مورد نياز او، بازنمون خواسته اطلاعاتی كاربر و بازنمون اطلاعات مورد نيازش می باشد. بازنمون اطلاعات به هنگام نمايه سازی به وسیله نمایه ساز تعيين می شود و بازنمون خواسته اطلاعاتی كاربر به هنگام جستجو نمايان می گردد.
اگر شما سؤال را نشناسيد، يافتن پاسخ آن مشكل خواهد بود. نمايه سازی خوب با مرحله جستجو برای بازيابی اطلاعات در ارتباط نزديك قرار دارد. هنگامی كه استفاده كننده پرسشی را به نظام عرضه می كند، بايد آن را به همان زبان نمايه سازی كه سند اصلی با آن نمايه شده است تبديل نمود. برای مثال اگر استفاده كننده اطلاعاتی راجع به گربه ها بخواهد و سند با اصطلاح گربه سانان نمايه شده باشد، در اين صورت نظام اطلاعاتي هيچ مدركي را بازيابي نخواهد كرد مگر اينكه زبان نمايه به جای اولی، دومی را مورد جستجو قرار دهد. اين مفهوم در مورد تمام نمايه ها از جمله نمايه كتاب صادق است. اين كار با استفاده از نوعی ارجاع متقابل صورت می گيرد. بنابراين نمايه سازی و جستجو در هر نظام بازيابی اطلاعات بايد با هم مورد توجه قرار گيرند. اين مسأله را بايد روشن نمود كه نمايه سازی و جستجو را چه از نظر ذهنی و چه عملی نمی توان از هم جدا نمود. هنگامی كه يك پرسش جستجو را فرمول بندی می كنيم، يك سؤال يا مسأله اطلاعاتی را نمايه می كنيم [10].
رابطه میان نمایه سازی و جستجو را به گونه ای دیگر نیز می توان بیان نمود. هنگام ايجاد پرونده، ركوردها در محل هايی قرار می گيرند كه توسط الگوريتم تعيين می شود و سپس هنگام دسترسی به پرونده، مجدداً با استفاده از همان الگوريتم، محل ركورد بر روی پرونده مشخص می شود [4] بنابراین شاید بتوان گفت هنگام نمايه سازی يك مدرك واژگانی به عنوان عبارت های نمايه ای آن مدرك تعيين می شوند و سپس هنگام دسترسی به آن مدرك، مجدداً استفاده از همان عبارت های نمايه ای است كه سبب بازيابی آن مدرك می شود.


تطابق نمادی يا ساختاری

یک موجود هنگامی از خود واکنش نشان می دهد که از موجود دیگر یا یک موقعیت، کنشی را دریافت کرده باشد. در هر کنش و یا واکنش پیامی در قالب نماد از فرستنده (کنش گر) به گیرنده (کنش گیر یا واکنش گر) به وسیله یک کانال و با کمک مقداری انرژی انتقال می یابد. کانال، بستر مورد نیاز به منظور جایگاه اسکان نمادها را فراهم می کند و انرژی، مقدار نیروی لازم برای انتقال نمادها در بستر مورد نظر را تأمین می نماید.
رمزگذاری و رمزگشایی، دو عمل در فرایند ارتباط می باشند؛ و چنانچه می دانیم پیام ها از طریق رمزها (نمادها) انتقال می یابند. چنانچه گیرنده پیام نتواند در همان گام نخست کوچکترین واحد رمز (برای مثال حروف الفبا) را بشناسد، ارتباط برقرار نخواهد شد و هر چه میزان تطابق ساختمان پیام فرستنده با توان نمادشناختی و ساختارشناختی گیرنده کمتر باشد، از کیفیت ارتباط کاسته خواهد شد. از این رو، به منظور تفکیک این پدیده (که شاید بتوان گفت نخستین قابلیت مورد نیاز برای برقراری ارتباط است) یعنی همپوشانی ظاهری، بیرونی و یا ساختاری نمادهای ارسال شده از فرستنده با نمادهای قبلاً شناخته شده به وسیله گیرنده، را به عنوان تطابق نمادی یا ساختاری نامگذاری می کنیم. چون ارسال کننده پیام قصد دارد پیام مورد نظرش را به گیرنده پيام انتقال دهد می بایست شناخت نسبتاً کاملی از توان شناختی گیرنده پیام داشته باشد. یعنی باید بداند توان بافت شناختی و پدیدارشناختی (وجود بیرونی)، معنا شناختی (وجود ذهنی)، و نمادشناختی (وجود لفظی) گیرنده پیام چگونه است. اگرچه شاید بتوان گفت هر یک از انواع توانایی های شناختی به صورت موازی بر هم مؤثر و از هم متأثرند. بنابراین، به منظور اینکه فرستنده ای بتواند پیامی را به گیرنده ای ارسال کند، در ابتدا باید توانایی های شناختی گیرنده را بشناسد.
در مورد نظام های ماشینی ذخیره و بازیابی اطلاعات، توان شناختی ماشین از محدوده وجود لفظی (نمادها و ساختار حاکم بر آن ها) فراتر نمی رود. ماشین نه از واقعیت بیرونی یک نماد آگاه است و نه مفهومی (تصور یا تصدیق) از آن نماد را در خود دارد. بنابراین، اگر انسانی بخواهد با یک نظام ماشینی بازیابی اطلاعات تعامل کند، لازم است تا گفتار آن را بشناسد. اینکه گفتار نظام به لحاظ نمادی و ساختار حاکم بر آن ها چگونه است؟ گفتار نظام چگونه شکل گرفته است؟ آیا ماشین این گفتار را از متون درونداد خود، بر اساس یک الگوریتم مشخص، استخراج و ایجاد کرده و یا نیروی انسانی به صورت مستقیم آن ها را وارد نظام نموده است؟ اگر حالت اول اتفاق افتد، یعنی ماشین گفتار خود را از متون درونداد خود و بر اساس یک الگوریتم مشخص استخراج کرده و شکل داده باشد، گویند نمایه سازی به زبان طبیعی یا متن آزاد انجام گرفته است؛ به این نوع از نظام های نمایه سازی نظام های اصطلاح مشتق نیز می گویند. اما اگر حالت دوم رخ دهد، یعنی نیروی انسانی به صورت مستقیم گفتار نظام را ایجاد نماید، گویند نمایه سازی به زبان کنترل شده می باشد؛ به این نوع از نظام های نمایه سازی، نظام های اصطلاح تعیین شده نیز اطلاق می گردد [10].
بدیهی است هر چه گفتار گیرنده پیام (به لحاظ ساختارشناسی صرفی [نماد شناسي] و نحوي و معناشناسی) به گفتار فرستنده پیام نزدیکتر باشد، از میزان تلاش فرستنده برای شناخت گفتار گیرنده کاسته می شود و هر چه گفتار گیرنده پیام از ديدگاه نمادشناختي، نحوي و معناشناختي انطباق كمتري با گفتار فرستنده پیام داشته باشد، فرستنده برای شناخت گفتار گیرنده پیام زحمت بیشتری را متقبل خواهد شد.
به نظر مي رسد در هنگام تعامل انسان با نظام های ماشینی بازیابی اطلاعات اولین چیزی که او باید بداند این است که پایه و اساس بازیابی اطلاعات توسط ماشین تطابق نمادی يا ساختاری است. تطابق نمادی يا ساختاری در نظام های ماشینی ذخیره و بازیابی اطلاعات سبب می شود که جایگاه نویسه نیز معنادار شود. به این معنا که وجود یک جایگاه خالی میان دو جایگاه نویسه دار در هنگام ذخیره، به این معنی است که در هنگام بازیابی سندی که به این صورت نمایه شده است، بایست به همین صورت نویسه ها را وارد نظام کرد. برای مثال فرض کنید هنگام ذخیره عنوان یک کتاب در فیلد عنوان، کلمه "بازیابی" را به صورت "باز یابی" وارد کرده ایم يعنی ميان حرف "ز" و حرف "ی" يك فاصله (جايگاه بدون نويسه) قرار گرفته است. برای دسترسی به این مدرک از طریق عنوان باید کلمه "بازیابی" را به همان صورت ذخیره شده یعنی "باز یابی" وارد فيلد جستجو كنيم.
با توجه به وجود کلمات چند املاء، کلمات چند معنا، کلمات هم معنا و ساختارهای دستوری متفاوت برای ترکیب چند کلمه، تطابق نمادی مشکلاتی را در بازیابی ماشینی اطلاعات به وجود آورده است. از این رو، ابزارهایی چون سرعنوان های موضوعی، اصطلاحنامه ها، هستی شناسی ها و ... با هدف کنترل زبان و به عنوان ابزاری کمکی در بازیابی اطلاعات به وجود آمده اند.


رمزها برای ماشین دال بر بافت هستند

در هر جستجو مقصد نهایی طیفی از معانی است و آنچه در راه رسیدن به این طیف به کار برده می شود، ابزار است. این ابزارها باید به گونه ای ساخت یافته باشند که بتوانند میان دو طیف معنایی ارتباط برقرار کنند. در اینجا، ارتباط به این معناست که ابزارها میان دو طیف معنایی نقش حائل را ایفا نکنند. یک طیف معنایی، دامنه معنا شناختی کاربر و دیگری، معنای نهفته شده در متن می باشد. ابزارهایی که کاربر بایستی از آن ها استفاده کند تا به طیف معنایی مورد نظر خود دست یابد عبارتند از ابزارهای جستجو (ماشین) و زبان.
می دانیم که مفاهیم از طریق زبان دریافت می شوند و معانی نیز از طریق زبان انتقال می یابند. از طرف دیگر برای اینکه بتوانیم نخستین گام های ارتباط با یک موجود را برداریم، باید ساختمان زبان (رمزها و ساختار آن ها) او را بشناسیم. از این رو کاربر برای جستجو در یک نظام بازیابی اطلاعات باید نوع رمزها (به لحاظ شکل) و ساختار مسلط بر آن ها (صرف و نحو) را شناسایی کند. چنانچه در بالا نیز بیان گردید، مخزن واژگان نمایه ای و ساختارهای صرفی و نحوی حاکم بر آن ها در یک نظام بازیابی اطلاعات، گفتار نظام را شکل می دهند. گفتار نظام، حاصل جمع کلیه واژگان نمایه ای است که یا به صورت خودکار از متون درونداد نظام استخراج شده و یا به وسیله نیروی انسانی به صورت مستقیم به عنوان اصطلاحات نمایه ای وارد نظام شده اند. همان طور که می دانیم چگونگی نمایه سازی ماشینی و یا انسانی اطلاعات به الگوریتم نمایه سازی وابسته است و تفاوت در الگوریتم های نمایه سازی از یک نظام بازیابی اطلاعات به نظام دیگر سبب تفاوت گفتار یک نظام با گفتار نظام دیگر می گردد. گفتار نظام، به علت وجود کلمات چند املاء، کلمات چند معنا، کلمات هم معنا و ساختارهای متفاوت برای ترکیب چند کلمه و ...، یک گفتار پراکنده و ناهمگون است. اگرچه شاید بتوان گفت گفتار هر انسان، خود نیز در موقعیت های نسبتاً همسان و در زمان های متفاوت، احتمالاً متفاوت است.
چنانچه در بالا نیز اشاره شد، امروزه بيشتر فناوری های جستجوی وبی (از جمله نظام های بازیابی اطلاعات)، از معنا و محتوای اطلاعاتی كه خود جستجو می كنند بی خبرند. آن ها اين كار را از طريق مطابقت دادن رشته هايی از حروف (كلمات) در پرسش با اسناد موجود در پايگاه [عبارات یا اصطلاحات نمایه ای که از متون درونداد نظام بر اساس یک الگوریتم مشخص استخراج شده است] به انجام مي رسانند تا از اين طريق بتوانند بهترين يا دقيق ترين اطلاعات را بازيابی كنند [8]. از آنجا كه نظام های بازيابی داير، عمدتاً بر پايه تطابق ميان اصطلاح های به كار رفته در جستجو و اصطلاح هايی استوار است كه در نمايه ها يافت مي شود، بروز عدم تطابق به دليل كاربرد اصطلاح های متفاوت (با آنكه احتمال دارد مفاهيم مشابهی را برسانند)، امری اساسي است. ساراسويك و ديگران دريافته اند كه برای موضوعی واحد و مشابه، جستجوگران مختلف، مجموعه اسناد متفاوتی را بازيابی كرده اند كه بيانگر كاربرد اصطلاح های متفاوت در باب يك موضوع است [2].
هنگامی كه بحث ربط * به ميان می آيد، بسته به محمل ارتباطی (ديداری، شنيداری و ...)، بايد ميان توانايی های شناختی فرستنده و گيرنده در اين فرايند، به نوعی انطباق وجود داشته باشد. بنابراين، در ارتباط انسان با نظام های بازیابی اطلاعات، برای يافتن اطلاعات مرتبط بايد ميان پنج توانايی شناختی ذيل ارتباط برقرار شود: 1) رمز شناسی؛ 2) ساختار شناسی؛ 3) گونه شناسی بافتی (برای مثال شناخت بافت حوزه ای، رده ای يا موضوعی)؛ 4) معنا شناسی در بافتی؛ 5) نوع شناسی گونه ای (برای مثال رويكردی كه برای بيان يك موضوع دارد؛ سطح يا عمق توضيح و تشريح يك موضوع؛ سطح نگارشی استفاده شده برای بيان يك موضوع).
دلالت بودن چيزی است به گونه ای كه از علم بدان، علم به چيز ديگر حاصل آيد. آن چيزی كه بر مقصود خاصی دلالت می كند را دال، و آنچه را از اين طريق بدان علم حاصل شده است، مدلول می گويند. به عبارت ديگر، مقصود حاصل شده را مدلول می گويند [1]. در ارتباط زبانی انسان، رمزها دال بر معنا و واقعیت (وجود ذهنی و وجود بیرونی) هستند. دلالت معنايی رمزها به بافتی وابسته است كه در آن قرار گرفته اند. در اين ارتباط، رمزهای ساختار يافته در بافت تنيده شده اند و اگر طرفين درگير در فرايند ارتباط دارای انطباق (نه صد در صد) در پيشداشته های شناختی (رمز شناسی، ساختار شناسی، گونه شناسی بافتی، معنا شناسی در گونه ای، نوع شناسی گونه ای) باشند، ارتباط ميان آن ها برقرار مي شود.
اما، رمزها برای ماشين (نظام بازیابی اطلاعات) دال بر بافت هستند. رمزها، بر بافت هايی (همه گونه های بافتی) دلالت می كنند كه در آن ها قرار گرفته اند. در واقع رمزها، نشانگر (آدرس يا نشانه) بافت هايی هستند كه در آن ها وجود دارند بدون توجه به معنايی كه در هرگونه بافتی از خود آشكار می كنند و بدون توجه به سطوح متفاوت معنايی هر گونه بافتی (نمونه های هر گونه بافتی). بنابراين، اگر رمز در بافت های بسياری موجود باشد، تمامی آن بافت ها (مدارك) بازيافت می شوند و زحمت كاربر برای گزينش بافت های مورد نظرش افزايش می يابد؛ و در واقع گونه شناسي بافتي، معناشناسي در بافتي و نوع شناسي گونه اي پس از بازيابي بافت ها رخ مي دهد.
در ارتباط كاربر (انسان) با نظام بازیابی اطلاعات (ماشين)، كاربر عبارت جستجویش (رمز) را با يك ترتیب مشخص (ساختارهای صرفی و نحوی) وارد نظام می كند. نظام، مدارک (بافت ها) حاوی آن عبارت ساختار يافته (مجموعه ای از کلمات که بر اساس دستور زبان و دستور مورد فهم ماشین مرتب شده اند) را استخراج می كند. سپس، كاربر با در نظر گرفتن گونه بافت ها (گونه شناسی بافتی؛ مانند حوزه های علمی، رده های علمی و ...)، معنای حقيقی عبارت جستجویش را كشف می كند (معنا شناسی در گونه ای) و مدارک مرتبط را گزینش می کند. در مرحله بعد، کاربر سطح معنايی مدارک گزینش شده را مورد توجه قرار مي دهد‌‌‌ (نوع شناسی گونه ای) و از ميان آن ها بلیغ ترین و متناسب ترین مدارك با توجه به سطح شناختی و نیاز اطلاعاتی اش را انتخاب می نماید. چنانچه می بينيم نظام بازیابی اطلاعات فقط دارای دو توانايی شناختی- رمز شناسی و ساختار شناسی- می باشد. در ارتباط كاربر و نظام بازیابی اطلاعات، كاربر ناتوانايی های شناختی نظام (گونه شناسی بافتی، معنا شناسی در گونه ای، نوع شناسی گونه ای) را به دوش می كشد.


کثرت در زبان دلیلی برای کنترل آن

زبان و گفتار به یکدیگر وابسته اند. زبان، نظام زیربنایی ذهنی مشترک میان سخنگویان را شامل می گردد که بر پایه آن ممکن است جمله های بی شماری تولید و درک شود [12]؛ و گفتارهای یک زبان نمودهای عینی آن زبان اند. به نظر فردینان دوسوسور، زبان استعداد زبانی مشترک بین همه سخنگویان یک زبان است و می توان به آن زبان بالقوه گفت اما گفتار، فقط قسمت محدودی از زبان است که به وسیله فردی بیان می شود و می توان به آن زبان بالفعل گفت [6]. شاید بتوان تصور کرد زبان به عنوان یک کل (وحدت)، هنگامیکه از واسط انسانی گذر می کند به تکثر می گراید و این تکثر حاصل تفاوت در قوای شناختی انسان هاست. زبان به عنوان یک درونداد از طریق قوای شناختی انسان پردازش می شود و چون قوای شناختی انسان ها با هم متفاوت است، برونداد ها نیز متفاوت است. از این رو گفتارهای حاصل از یک زبان متفاوتند. از طریق کنترل زبان می خواهیم پراکندگی و ناهمگونی (کثرت) موجود در گفتارهای یک زبان را به تراکم و همگونی (وحدت) تبدیل نماییم. برای اینکه بخواهیم واژگان یک زبان را کنترل نماییم ابتدا بایست بتوانیم گونه بافتی یا به عبارتی ساختمان روابط میان واژگان را ترسیم کنیم. ترسیم ساختمان روابط میان واژگان از طریق مطالعه نمونه های عینی (بالفعل) آن حاصل می شود. از طریق مطالعه نمونه های عینی یک گونه، ساختار یا ساختارهای مشترک میان نمونه ها را انتزاع می نماییم؛ و آنگاه که محصول انتزاعی (ساختارهای مشترک میان نمونه ها) در ظروف زمان و مکان در بستر نمونه ها مکرراً پدیدار گردید، آن محصول انتزاعی را می توان استقراء نمود. سپس، مقادیر (عناصر) موجود در هر نمونه را بر اساس همان ساختار مشترک شکل می دهیم. و بعد، باید وضعیت دلالت را برای مقادیر موجود در نمونه ها کنترل کنیم؛ یعنی دال های چند مدلولی و مدلول های چند دالی را مورد توجه قرار دهیم. بنابراین شاید بتوان گفت واژگان را کنترل می کنیم تا به نتایج زیر دست یابیم:
1) وحدت گونه ای: شناسایی رابطه های موجود در هر بافت معنایی و ساخت دهی مقادیر (عناصر) موجود در هر نمونه از آن گونه بافتی بر اساس همان رابطه ها (البته بايد توجه كرد كه يك بافت معنايي متعلق به يك گونه معنايي ممكن است فقط نوعي از آن گونه باشد).
2) وحدت نمونه ای: رسیدن از پراکندگی معنایی به تراکم معنایی (گردآوری واژگان وابسته در یک جایگاه و ایجاد یک طیف (بافت) معنایی متمرکز)
3) وحدت ساختاری (صرفی و نحوی): کنترل تغییر پذیری ساختارهای صرفی و نحوی عبارت ها (واژگان) و تک ساختاری شدن آن ها
4) وحدت معنایی: تک معنایی کردن واژگان چند معنایی از طریق افزودن توضیحگر به آن
5) وحدت واژه ای (وحدت عبارتی): تک واژه ای (تک عبارتی) شدن یک معنا از طریق پذیرفتن یکی از واژه ها به عنوان واژه مرجح



زبان نمایه سازی

زبان نمایه سازی، فهرستی است از عبارات یا علائم که ممکن است برای مدخل های دسترسی در یک نمایه به کار برده شود [3]. برگر یورلند [14] در وب سایت خود نوشته است: یک زبان نمایه سازی، زبانی است که برای رده بندی موضوعی یا نمایه سازی مدارک استفاده می شود. زبان های نمایه سازی ممکن است به نظام های رده بندی و زبان های نمایه سازی کلامی تقسیم شوند. اگرچه این تمایز، یک تمایز سطحی است. لنکستر می گوید، نباید تعیین کدهای رده بندی را رده بندی خواند و تعیین اصطلاحات نمایه ای را نمایه سازی. این تمایزات اصطلاحی، کاملاً بی معنی هستند و فقط به سر در گمی می انجامند. زبان های نمایه سازی نوعی فراداده اند. نقش آن ها فراهم آوری نقاط دسترسی موضوعی یا تکمیل انواع دیگر نقاط دسترسی موضوعی است. نمودار (الف)، نگاه سنتی و نمودار (ب)، نگاه مبتنی بر نظریه (تئوری) را نسبت به انواع زبان های نمایه سازی نشان می دهند.

(الف) زبان های نمایه سازی
1. زبان های نمایه سازی کلامی
1-1. نظام های متن آزاد
1-2. نظام های کنترل شده
1-2-1. نظام های پیش همارا
1-2-2. نظام های پس همارا
2. نظام های رده بندی
2-1. نظام های شمارشی
2-2. نظام های چهریزه ای

(ب) زبان های نمایه سازی
1. نظام های کنترل نشده
2. نظام های کنترل شده


انواع زبان های نمایه سازی

زبان نمایه سازی طبیعی:

در نمایه سازی به زبان طبیعی می توان اصطلاح زبان طبیعی را با گفتار روزمره مترادف دانست؛ یعنی، زبانی که به طور مشترک برای نگارش و مکالمه مورد استفاده قرار می گیرد و متضاد اصطلاح واژگان کنترل شده است. در بافت بازیابی اطلاعات، اصطلاح "زبان طبیعی" به واژگانی اشاره دارد که در متون چاپی ارائه شده اند. در نتیجه اصطلاح متن آزاد را می توان به عنوان مترادفی برای آن در نظر گرفت. متن آزاد می تواند هر یک از موارد ذیل باشد: 1) عنوان؛ 2) چکیده؛ 3) متن استخراج شده؛ 4) همه یک متن.
گرچه اصطلاح متن آزاد عموماً به بخش های دست نخورده ای از یک متن اشاره دارد، اما می توان از آن برای اشاره به کلمات یا عباراتی استفاده کرد که نمایه سازان انسانی (یا از طریق برنامه های رایانه ای) از متن استخراج کرده و به یک رکورد کتابشناختی متنی افزوده اند [12]. در چنان زبانی، کلیه اصطلاحات و عبارات تا هنگامی که دسته ای دیگر از مدارک به نظام اضافه نشده، روزآمد است. از سوی دیگر، چون هر نظام با مجموعه مدارک متفاوتی سر و کار دارد و واژه های طبیعی موجود در همین مدارک (واژه های عنوان، چکیده یا برگرفته از تمام متن یا استنادها) برای نمایه سازی به کار می رود، بنابراین هر نظام دارای زبان نمایه سازی متفاوت است.
به یقین یکی از ویژگی های منحصر به فرد نمایه سازی به زبان طبیعی عدم به کارگیری واژگان کنترل شده در آن است. این امر اجازه می دهد تا انواع متفاوت کلمات موجود در زبان طبیعی در نمایه منعکس شود. در اصل نقاط قوت و ضعف این گونه نمایه سازی نیز به همین خاصیت عدم اعمال کنترل در واژگان زبان نمایه سازی مربوط است. البته زبان طبیعی محدودیت هایی دارد. نمایه سازی بر اساس کلمات متن یعنی نمایه سازی هر کلمه معنی دار و بی معنی مانند حروف اضافه، حروف ربط، حروف تعریف و ... . بیشتر نظام هایی که به زبان نمایه سازی طبیعی روی می آورند فهرستی از واژه های غیرمجاز فراهم می آورند و در نظام ذخیره می کنند که مانع نمایه سازی واژه های ناخواسته می شود. البته، تعیین کلمه های غیرمجاز کار راحتی نیست؛ چون هر واژه ممکن است در نظامی مجاز و در نظامی دیگر غیرمجاز تلقی شود. مثلاً "به" در رشته زبان و ادبیات ممکن است موضوع مقاله یا مقالات زیادی باشد در حالی که "به" در رشته های دیگر فاقد معنی و موضوع می تواند باشد.
در نمایه سازی به زبان طبیعی که فقط از فهرست غیرمجاز استفاده می کند، زبان نمایه سازی باز است و نمایه سازی به تدریج و طی زمان با تحول زبان طبیعی مدارکی که به نظام راه می یابد، تغییر می یابد. روش دیگر این است که همراه با واژه های غیرمجاز واژه های مجاز به رایانه داده می شود. واژگان مجاز شامل تمام کلمات یا عباراتی می شود که مدخل های سودمندی در آن حوزه موضوعی هستند که نمایه سازی در آن موضوع انجام می گیرد. بنابراین، واژگان مجاز باید قبلاً در رایانه ذخیره شده باشد. فهرست واژگان مجاز گاه اصطلاحنامه نامیده می شود و در واقع نوعی اصطلاحنامه زبان طبیعی است. در فرایند نمایه سازی گاه به گاه اصطلاحاتی جدید در مدارک وجود دارد که در فهرست واژگان مجاز و فهرست واژگان غیرمجاز وجود ندارد. در این موارد نمایه ساز درباره افزودن واژه به هر یک از این دو فهرست یا نادیده گرفتن واژه تصمیم می گیرد. این امکان نوعی کنترل انسان را درباره اختصاص واژه های موضوعی میسر می سازد. به این دلیل، تا آنجا که انسان نمایه ساز عبارات را برای حضور در فهرست واژگان مجاز برگزیند، زبان نمایه سازی کنترل شده است، اما با امکان حضور انواع واژه های نمایه و انواع شکل هایی از مفاهیم و اسامی در نمایه، نمایه کنترل نشده است.
زبان های نمایه سازی طبیعی یا نظام های اصطلاح – مشتق، در واقع زبان مجزایی جز زبان طبیعی یا معمولی مدرکی که نمایه می شود، نیست. زبان نمایه سازی طبیعی مبتنی بر کل مدرک گاه ممکن است باعث پرداختن بیش از حد به جزئیات شود. راه دیگر این است که درباره بهترین واژه هایی که نماینده محتوا هستند تصمیم گرفته شود. در نمایه سازی رایانه ای، این عمل با تحلیل فراوانی نسبی رخداد واژه ها انجام می گیرد [3]. این روش ها صرفاً بر ماهیت چگونگی کاربرد واژه ها مبتنی است. در هر زمینه خاصی، واژه های آمده در متن که ارتباط ویژه ای با مدرک دارد، بیش از سایر واژه ها تکرار می شود. به عنوان زمینه ای مطالعاتی، بررسی آماری ویژگی های زبان های طبیعی به زبانشناسی شمارشی معروف است. چهار نوع رایج این روش ها عبارتند از:
الف) تعداد دفعاتی (فراوانی) که واژه های منحصر به فرد در یک متن آمده مشخص می شود. برای این کار سیاهه ای به وجود آورده می شود که در آن واژه ها به ترتیب فراوانی، از زیاد به کم، قرار می گیرد. فراوانی های واژه ها به درصد تبدیل می شوند. درصد مربوط به هر واژه با درصد کاربرد همان واژه در متون معیارین استاندارد مانند (American Heritage Words Frequency Book) مقایسه می شود. کلماتی که درصد فراوانی آن ها بیش از درصد فراوانی در زبان رایج است به عنوان واژه های نمایه انتخاب می شود.
ب) با حذف حروف اضافه و کلمات بدون بار معنایی، پنج درصد از کلمات پرفراوانی انتخاب می شود.
پ) کلمات معنی داری که حداقل دو بار در یک پاراگراف متن آمده است به عنوان واژه های نمایه ای برگزیده می شوند [3].
ت) قانون زیف: جورج زیف به ضابطه مندی دو قاعده پرداخت که غالباً در نمایه سازی خودکار مورد توجه قرار گرفته است [2]. قانون وی از اصل کمترین کوشش بهره گرفته است. طبق اصل کمترین کوشش، خصلت طبیعی رفتار انسان به گونه ای است که از میان راه های متفاوت حل هر مسأله، ساده ترین راه را بر می گزیند.
زیف با مطالعه فراوانی واژه هایی که در هر متن انگلیسی زبان به کار می رود به مصادیقی برای اصل کمترین کوشش دست یافت. وی مشاهده کرد که بین طول واژه و تعداد دفعاتی که واژه ها در هر متن به کار می روند، رابطه معکوس ثابتی وجود دارد.
طبق قانون زیف (1) چنانچه متنی انگلیسی زبان، با هر طولی، برگزیده شود، (2) فراوانی هر واژه موجود در داخل همان متن شمارش شود، (3) این فراوانی ها از زیاد به کم مرتب شوند و (4) رتبه هر واژه در فراوانی همان واژه ضرب شود، نتیجه این حاصلضرب عدد ثابتی است. این رابطه در فرمول ذیل خلاصه شده است. در این فرمول " r" رتبه هر واژه و "k" عدد ثابت است. ( r . f = k )
مثلاً اگر واژه ای که 2653 بار تکرار شده است در مرتبه دهم قرار داشته باشد؛ واژه ای که 256 بار تکرار شده است در مرتبه یکصدم قرار داشته و واژه ای که 133 بار تکرار شده است در رتبه دویستم قرار گرفته است [6].
زیف دومین قاعده واژه ای با بسامد پائین را هم ارائه کرد. این قاعده می گوید نسبت تعداد واژه های یک مرتبه در متن آمده به n دفعه، نسبتی پیش بینی پذیر است که با فرمول زیر محاسبه می شود:
ال یک تقسیم بر ال ان = ([چهار ضربدر n به توان 2] منهای 1) تقسیم بر 3
در این فرمول، ال یک، تعداد واژه هایی است که یک مرتبه در متن می آید؛ ال ان، تعداد واژه هایی است که n مرتبه در متن می آید.
این قاعده را مندلبروت و بوث تعدیل کرده اند. روایت بازنگری شده قاعده دوم، به ظاهر پیش بینی بهتری می کند:
ال یک تقسیم بر ال ان = [(n(n + 1] تقسیم بر 2
در این فرمول، ال یک، تعداد واژه های مختلفی است که یک مرتبه در متن می آید؛ ال ان، تعداد واژه هایی است که n مرتبه در متن می آید؛ و n، بسامد واژه در متن است [2].


زبان نمايه سازي آزاد

اين نوع از زبان نمايه سازي شامل فهرستي از اصطلاحات يا واژه هاي مشخص از مفاهيم توصيف شده در يك حوزه موضوعي نيست. زيرا محدوديتي براي واژه هايي كه مي تواند در فرايند نمايه سازي به كار رود وجود ندارد. تفاوت زبان نمايه سازي آزاد با زبان نمايه سازي طبيعي در اين است كه زبان نمايه سازي طبيعي محدود به زبان مدرك در دست نمايه سازي است، در حالي كه زبان نمايه سازي آزاد از اين محدوديت رهاست. نمايه سازي آزاد مي تواند توسط انسان يا رايانه انجام گيرد. هنگامي كه اين عمل توسط انساني صاحبنظر در موضوع و واژگان موضوع مورد نظر انجام مي گيرد، به نمايه اي منجر مي شود كه هم در اختصاص عبارات نمايه يكدستي حاكم است و هم منطبق با ديدگاه نمايه ساز است. با وجود اين، موفقيت نمايه سازي با زبان آزاد به مقدار زيادي به مهارت هاي نمايه ساز وابسته است. نمايه سازي با زبان آزاد در رايانه همانند نمايه سازي بر اساس زبان طبيعي است. زيرا رايانه بايد چيزي براي گزينش در اختيار داشته باشد و اين چيز همان واژه هاي مندرج در عنوان، چكيده يا متن مدرك است. هم زبان نمايه سازي طبيعي و هم زبان نمايه سازي آزاد به مقدار زياد در توليد نمايه ها و دستيابي به پايگاه هاي اطلاعاتي به كار برده مي شوند. بسياري از پايگاه هاي اطلاعاتي واژه هايي از متن مدرك و واژه هايي از زبان نمايه سازي كنترل شده را براي نمايه سازي به كار مي برند و نمايه اي كه مي تواند به عنوان گزينش بهترين ها از دو حوزه تلقي شود، ارائه مي دهند [3].


زبان نمايه سازي كنترل شده

زباني است كه يك فرد هم بر اصطلاحاتي كه براي ارائه موضوعات به كار مي رود و هم بر فرايندي كه اصطلاحات به مدركي خاص نسبت داده مي شود، نظارت مي كند. در اين گونه نمايه سازي معمولاً فهرستي مستند مشخص كننده اصطلاحاتي است كه ممكن است به موضوعات نسبت داده شود. به بياني ديگر، در نمايه سازي كنترل شده، شخص اصطلاحات يا واژه هايي از يك فهرست واژگان را بر اساس تفسير ذهني كه از مفاهيم مندرج در مدرك دارد به مدرك اختصاص مي دهد. در اين عمل، نمايه ساز به نوعي تفكيك بين محتواي دانش موجود در مدارك مي پردازد [3].



سیرتحول نظام های بازیابی اطلاعات

نظام های بازیابی اطلاعات، در ابتدا به زبان و منطق ماشین (رایانه) و توانایی آن در پردازش متن متکی بودند. واژگان موجود در مدارک درونداد نظام به همراه چگونگی ساختمان صرفی و نحوی آن ها، عناصر گفتار نظام را می ساختند. سپس مشکلات این نوع نظام ها، از جمله ناهمگونی در کاربرد واژگان و ناهمگونی در شکل ارائه یک مفهوم (که یکی از نشانه های زایایی زبان می باشد)، آشکار شد و تصمیم گرفته شد تا بر روی واژگانی که از متون استخراج شده و از آن ها به عنوان نقاط بازیابی استفاده می شود، کنترل صورت گیرد. در این مرحله نیز ارتباط زبانی کاربر و نظام مستلزم آگاهی از منطق حاکم بر نظام و شناخت شکل صحیح واژگان کنترل شده (ساختار صرفی و نحوی) درباره موضوعی خاص بود. فرایند جستجو به زبان طبیعی بر پایه پردازش به زبان طبیعی بنا شده است. این فرایند بر این مبنا بنا شده است که کاربران نهایی در درک اصول استفاده از اپراتورهای بولین دچار مشکل هستند و بنابراین اگر آن ها به همان گونه که به صورت طبیعی سؤالی را مطرح می کنند، بتوانند سؤال خود را در یک نظام وارد کنند، احتمالاً می توانند نتایج بهتری را کسب نمایند [8]. نظام های امروزی سعی دارند تا خود را به گفتار انسان نزدیک کنند. دیگر نیازی نیست برای برقراری ارتباط با نظام، زبان آن را شناخت. بلکه کاربر از نظام به همان گونه سؤال می کند که انگار مخاطب او انسانی است همزبان او. اگرچه جستجو به زبان طبیعی یک گام دیگر ماشین را به انسان نزدیک کرده است اما آیا می توان روزی را تصور کرد که انسان بتواند با ماشین همانند یک انسان تعامل کند؟!


نکاتی پیرامون جستجو به زبان طبیعی و کنترل شده

هر چه نظام ماشینی بتواند هوشمندانه تر رفتار کند از یک جهت به این معنی است که از میزان تلاش انسان به منظور درک زبان و منطق حاکم بر ماشین به هنگام ارتباط با آن کاسته می شود. بنابراین، میزان هوشمندی نظام و نوع زبان جستجو (طبیعی یا کنترل شده) با هم مرتبط می باشند. باید اشاره کرد که در اینجا هوشمندی نظام، به میزان درک آن از زبان طبیعی اطلاق شده است. از این رو، هرچه نظام ماشینی هوشمندانه تر رفتار کند زبان جستجوی کاربر به زبان طبیعی نزدیک تر می شود و هرچه از هوشمندی رفتار نظام ماشینی کاسته شود زبان جستجوی کاربر به زبان کنترل شده می گراید.
اگر کاربر مجبور باشد تا با زبانی کنترل شده با نظام ماشینی بازیابی اطلاعات تعامل کند بهتر است نکاتی را مورد توجه قرار دهد:
1. در ابتدا، کاربر بایست بداند که اساس بازیابی اطلاعات در نظام های ماشینی، تطابق نمادی است؛ و چنانچه پیش از این بیان گردید، تطابق نمادی سبب می شود تا جایگاه نویسه ها نیز معنادار شوند. از این رو کاربر باید در املاء صحیح کلمات دقت نماید و فاصله میان کلمات را کنترل کند.
2. کاربر باید بداند که ماشین از کدامیک از انواع نظام های نمایه سازی استفاده می کند؛ اصطلاح تعیین شده یا اصطلاح مشتق.
3. در صورتی که ماشین از نظام های نمایه سازی اصطلاح مشتق استفاده می کند در حالی که از ابزارهای کنترل زبان مانند اصطلاحنامه ها و هستی شناسی ها بهره نمی برد، کاربر باید به هنگام جستجو مسائل مربوط به کلمات چند املاء، چند معنا، هم معنا و ساختارهای دستوری متفاوت برای ترکیب چند کلمه را مورد توجه قرار دهد.
4. کاربر باید با منطق بولی که در جستجوهای ترکیبی مورد استفاده قرار می گیرد، آشنا شود.
5. بهتر است کاربر با محدودگرهای زمانی، زبانی، نوع منبع و ... که در برخی از نظام های ماشینی بازیابی اطلاعات طراحی شده اند، نیز آشنایی یابد.

امروزه دانشمندان سعی می کنند تا نظام هایی طراحی کنند که بتواند گفتار انسان را درک کند. جستجو به زبان طبیعی به این معناست که به همان صورتی که از انسانی سؤالی را می پرسیم، بتوانیم از نظام بازیابی اطلاعات سؤال کنیم. اما آیا نظام می تواند درک مناسبی از خواستة ما داشته باشد!؟ امروزه علوم بسیاری همچون ارتباطات، زبان شناسی، علوم رایانه، علوم شناختی و ... در تلاشند تا قوای شناختی ماشین را به انسان نزدیک کنند. اما به دلیل اینکه ماشین توانایی کسب دانش دنیای واقع را ندارد این کار بسیار مشکل می نماید [10]. دکتر حری [5] بیان می کند، هر جایی که انسان از طریق ابزاری کاری را به راحتی انجام می دهد در ورای آن ابزار، دنیایی از دانش، تخصص، فن، مهارت، و ... نهفته است. شاید بتوان این مضمون را بسط داد و گفت، کارهایی که به نظر به سادگی انجام می دهیم، برونداد مجموعه ای از زیرنظام های در هم تنیده و یکپارچه ای می باشند که در وجود ما انسان ها نهفته شده اند.


نويسنده: امير نيك زمان
* برای آگاهی بیشتر در زمینه ربط به مدخل "ربط و جامعیت و مانعیت" در همین ویکی رجوع کنید.

منابع و مآخذ

[1]. اژه ای، محمدعلی (1385). مبانی منطق (ویرایش 2). تهران: سازمان مطالعه و تدوین کتب علوم انسانی دانشگاهها (سمت).
[2]. پائو، میراندا لی (1378). مفاهیم بازیابی اطلاعات (اسدا... آزاد و رحمت ا... فتاحی، مترجمان). مشهد؛ دانشگاه فردوسی (مشهد)، مؤسسه چاپ و انتشارات.
[3]. تیلور، آرلین جی. (1381). سازماندهی اطلاعات (محمد حسین دیانی، مترجم). مشهد: انتشارات کتابخانه رایانه ای.
[4]. جعفرنژاد، آتش (1379). آشنایی با بانکهای اطلاعاتی. تهران: سازمان مطالعه و تدوین کتب علوم انسانی دانشگاهها (سمت).
[5]. حری، عباس (1372). مروري بر اطلاعات و اطلاع رساني. تهران: دبيرخانة هيأت امناي كتابخانه هاي عمومي كشور، نشر كتابخانه.
[6]. دیانی، محمد حسین (1377). مجموعه سازی و فراهم آوری در کتابخانه ها. اهواز: دانشگاه شهید چمران.
[7]. شمسیا، سیروس (1373). معانی. تهران: نشر میترا.
[8]. علیجانی، رحیم؛ دهقانی، لیلا؛ حیاتی، زهیر (1385). بازیابی پیوسته: نظامها و روشها. تهران: چاپار.
[9]. فلدمن، سوزان (1384). پردازش زبان طبیعی در بازیابی اطلاعات. در محمدرضا فلاحتی فومنی (مترجم) و جعفر مهراد (مترجم و مؤلف)، معناشناسی و بازیابی اطلاعات، هفت گفتار (ف 1، ص 1-29). مشهد: کتابخانه رایانه ای؛شیراز: کتابخانه منطقه ای علوم و تکنولوژی.
[10]. کلاوانس، جودیت (1380). زبان شناسی رایانه ای. در علی درزی (مترجم)، درآمدی بر زبان شناسی معاصر (ج. 2، ص 660-710). تهران: سازمان مطالعه و تدوین کتب علوم انسانی دانشگاهها (سمت).
[11]. کلیولند، دونالد بی.؛ کلیولند، آنا دی. (1385). درآمدی بر نمایه سازی و چکیده نویسی (مهدی حسینی، مترجم). تهران: چاپار.
[12]. لنکستر، فردریک (1382). نمایه سازی و چکیده نویسی، مبانی نظری و عملی (عباس گیلوری، مترجم). تهران: چاپار.
[13]. مشکوة الدینی، مهدی (1376). سیر زبانشناسی. مشهد: دانشگاه فردوسی مشهد.
[14]. Hjorland, Birger. 2006. Indexing Language. http://www.db.dk/bh/lifeboat_Ko/CONCEPTS/indexing _languages.htm (accessed Dec. 20, 2008)


منابع برای مطالعه بیشتر

افراشی، آزیتا (1386). ساخت زبان فارسی. تهران: سازمان مطالعه و تدوین کتب علوم انسانی دانشگاهها (سمت).
خندان، علی اصغر (1379). منطق کاربردی. تهران؛ قم: سازمان مطالعه و تدوین کتب علوم انسانی دانشگاهها (سمت)؛ مؤسسه فرهنگی طه.
خوانساري، محمد (1386). منطق صوري. تهران: آگاه.
سروش، عبدالكريم (1379). علم چيست، فلسفه چيست؟. تهران: مؤسسه فرهنگي صراط.
سورین، ورنر جوزف؛ تانکارد، جیمز دبلیو (1381). نظریه های ارتباطات (علیرضا دهقان، مترجم). تهران: دانشگاه تهران، مؤسسة انتشارات و چاپ.
شاهسواري، عباس (1386). تكامل و تطابق گونه اي (چگونگي ظهور و پيدايش موجودات). همدان: انتشارات دانشگاه بوعلي سينا.
شعیری، حمیدرضا (1381). مبانی معناشناسی نوین. تهران: سازمان مطالعه و تدوین کتب علوم انسانی دانشگاهها (سمت).
صفوي، كوروش (1387). درآمدي بر معني شناسي. تهران: شركت انتشارات سوره مهر.
محسنیان راد، مهدی (1369). ارتباط شناسی ارتباطات انسانی (میان فردی، گروهی، جمعی). تهران: سروش (انتشارات صدا و سیما).
يوهان سون، يورگن دنيس؛ لارسن، سوند اريك (1385). نشانه شناسي چيست؟. (علي ميرعمادي، مترجم). تهران: ورجاوند.




XML Revisions of $tag
تاریخچه صفحات :: آخرین نویسنده: amirnik :: مالک صفحه: Admin ::
 

گشتن


جستجو در ویکی




جعبه ابزار


انتخاب زبان
زبان دلخواه:



بخشها

Home Page | About us | Contact us | Site Map 
©2008 Ferdowsi University Of Mashhad.