Метод ранжирования заключается в следующем:  где  границы интервалов по тексту i-ой статьи; границы интервалов по строке ключевых слов i-ой статьи;  границы интервалов по названию i-ой статьи


перейти к полному списку дипломных проектов

Ссылка на скачивания файла в формате .doc находится в конце странички

Метод ранжирования заключается в следующем:  где  границы интервалов по тексту i-ой статьи; границы интервалов по строке ключевых слов i-ой статьи;  границы интервалов по названию i-ой статьи

1 – Таблица «Статьи»

Таблица 3.2 – Таблица «Газета»

Таблица 3.3 – Таблица «Регион»

Таблица 3.4 – Таблица «Отрасль»

Таблица 3.5 – Таблица «Справочник отраслей»

Таблица 3.6 – Таблица «Рубрики»

Таблица 3.7 – Таблица «Классификация»

Таблица 3.8 – Таблица «Рубрикатор 1»

Таблица 3.9 – Таблица «Рубрикатор 2»

Таблица 3.10 – Таблица «Рубрикатор 3»

Таблица 3.11 – Таблица «Рубрикатор 4»

Таблица 3.12 – Таблица «Словарь рубрикатора 3»

Таблица 3.13 – Таблица «Словарь рубрикатора 4»

Данные таблицы объединены в инфологическую модель, схема которой представлена на рисунке 3.4.1.



Рисунок 3.4.1 – Инфологическая модель базы

Иерархия заполнения таблиц базы представлена на рисунке 3.4.2.



Рисунок 3.4.2 – Иерархия заполнения таблиц базы

4 МАТЕМАТИЧЕСКОЕ ОБЕСПЕЧЕНИЕ

4.1 Математическая постановка задачи классификации информационных сообщений СМИ

Пусть дано множество статей Х, множество ключевых слов статьи W и множество названий статей A. Каждое множество описывается своим набором элементов:

X = {x1, x2, …, xc},

где xi – i- я статья;

c – количество статей;

W = {w1, w2, …, wc},

где wi – строка ключевых слов i-ой статьи, ;

A = {a1, a2, … ac},

где ai – название i-ой статьи, .

Имеется рубрикатор, состоящий из четырех уровней:

R1 = {r11, r12, … r1k},

где k – количество элементов рубрикатора 1;

R2 = {r21, r22, … r2l},

где l – количество элементов рубрикатора 2;

R3 = {r31, r32, … r3m},

где m – количество элементов рубрикатора 3;

R4 = {r41, r42, … r4n},

где n – количество элементов рубрикатора 4.

К каждому элементу рубрикаторов 3-го и 4-го уровней привязаны словари со своими множествами:

D3j = {d31j, d32j, … d3yj}, ;

D4j = {d41j, d42j, … d4zj}, ,

где j – индекс элемента рубрики;

y, z – количество элементов в словаре для конкретной рубрики.

Функция нечеткого поиска задается следующим образом:



здесь U = {{X},{W},{A}};

dpqj – ключевое слово,

где j – индекс элемента рубрики,  или ;

p – уровень рубрикатора 3-й или 4-й;

q – индекс элементов в словарях D3j и D4j;

 или ;

pн.п – порог нечеткого поиска.

Далее для каждой статьи применяем функцию нечеткого поиска:



где - общее количество совпадений по i-ой статье из словаря 3-го и 4-го уровней;

  ;

.

Затем для ключевых слов статьи также применяем функцию нечеткого поиска:



где  общее количество совпадений по строке ключевых слов i-ой статьи из словаря 3-го и 4-го уровней;

  ;

.

Для названий статей тоже применяем функцию нечеткого поиска:



где  - общее количество совпадений по названию i-ой статьи из словаря 3-го и 4-го уровней;

  ;

.

Далее для отнесения каждой статьи к той или иной рубрике используется метод ранжирования. Для этого определяются границы трех интервалов:

статью однозначно нельзя отнести к рубрике;

консультант ОТОИ принимает решение о принадлежности статьи к данной рубрике;

статья с заданной вероятностью относится к данной рубрике.

Границей является количество слов, которые должны встретиться в тексте, названии статьи или в списке ключевых слов, относящихся к этой статье.

Метод ранжирования заключается в следующем:



где  границы интервалов по тексту i-ой статьи;

границы интервалов по строке ключевых слов i-ой статьи;

 границы интервалов по названию i-ой статьи.

скачать бесплатно АВТОМАТИЗИРОВАННАЯ ИНТЕЛЛЕКТУАЛЬНАЯ СИСТЕМА КЛАССИФИКАЦИИ ИНФОРМАЦИОННЫХ СООБЩЕНИЙ СРЕДСТВ МАССОВОЙ ИНФОРМАЦИИ

Содержание дипломной работы

3 Описание автоматизируемых функций и схемы функциональной структуры АИС «Классификатор» Используя методологию IDEF0 при проектировании АИС «Классификатор» была получена ее функциональная модель
Под населенным пунктом подразумевается город, село, но не район области, не район города
Если в конце текста статьи имеется ссылка на источник, из которого напечатан текст, то она заносится на первой строке перед текстом
Отчет по обработанным сообщениям СМИ содержит результаты классификации по каждому файлу и включает: дату, название статьи, ключевые слова статьи, автора, текст статьи и сопоставленные рубрики
Метод ранжирования заключается в следующем:  где  границы интервалов по тексту i-ой статьи; границы интервалов по строке ключевых слов i-ой статьи;  границы интервалов по названию i-ой статьи
"+Trim(Str(IIf(IsNull([Индекс_4]),0,[Индекс_4])))+"
[Наименование_3]ASНаименованиерубрики,[Классификация]
Наименование_4 AS Наименование рубрики, Классификация
Код рубрики; Запрос «Обработанные сообщения 3-го уровня» необходим для вывода информации по обработанным сообщениям СМИ, отнесенным к 3-му уровню рубрикатора
Уровень рубрики)=3)); Запрос «Обработанные сообщения 4-го уровня» необходим для вывода информации по обработанным сообщениям СМИ, отнесенным к 4-му уровню рубрикатора
На этапе классификации в первую очередь выполняется поиск записей по различным ключам словаря с помощью алгоритма нечеткого поиска
К работе с ЭВМ допускаются лица, прошедшие инструктаж по технике безопасности при работе с электроустановками напряжением до 1000 В
102-77
Delphi 7
zip 26
Open; try wa
Selection
AsString; wa
lngCountLike; gret
aqDict
AsString); // Классификация по наименованию im:= IndistinctMatching(length(stWord), stWord, AnsiUpperCase(FieldByName('name_publ')
Count = 0 then begin ShowMessage('Не выбрано ни одной записи!'); exit; end; // Удалить все записи из Publ_Rubr для данной статьи dmIAS
atCountObrPublikatsii
atCountObrPublikatsii
AsString = '30
RecordCount+1, // число строк 6, // число столбцов EmptyParam, EmptyParam); tbl1
Text:= dmIAS

заработать

Закачай файл и получай деньги