Обробка зображень та мультимедіа

Модуль 1

Лекція 1 Основні типи та формати зображень, методи їх отримання


ЛЕКЦІЯ 1. ОСНОВНІ ТИПИ ТА ФОРМАТИ ЗОБРАЖЕНЬ, 

МЕТОДИ ЇХ ОТРИМАННЯ

1.1    КЛАСИФІКАЦІЯ (ТАКСОНОМІЯ) ЗОБРАЖЕНЬ

Два фактори (аспекти): 1) за призначенням (зовнішній, функціонал), 2) За структурою (внутрішній, будова)

За призначенням

  1. оптичні зображення (фото, відео, також іч та уф)
  2. інші реальні – за межами оптичного діапазону (електричні, магнітні, емп, емх, нвч, рентген, гамма) та частинки (електронні промені, іонізуючі частинки)
  3. реконструйовані з реальних з метою візуалізації джерел – наприклад томогафія чи розвязання оберненої задачі
  4. похідні, отримані в результаті математичних перетворень (фурє, вейвлет, уолша, хаара, дкп, мнк, мгк, карунена-лоева та інші)
  5. абстрактні – довільні образи в двовимірних просторах чи зрізах багатовимірних просторів, двовимірні функції, простори ознак, фрактали, результати статобробки (скаттерограми та ін.), кластеризація, точкові функції, карти пуанкаре, фазові простори, біфуркаційні діаграми та ін.

За структурою

  1. Формати даних у тому числі файлів, алгоритми стиснення, засоби архівування та передачі, (bmp, gif, tiff, jpeg), cпецформати для певних галузей (scp-ecg, dicom, pacs)

  2. Прості – 1 піксел – 1 число (атрибут) – мат модель – матриця, чорнобілі та інші монохромні, колір та псевдоколір, бінаризовані, більша кількість градацій, контурні

3) складні – 1 піксел – більш ніж 2 атрибути, вектор атрибутів – матмодель – набір матриць або матриця з елементами-векторами, блочна матриця, атрибути – інтенсивність, колір, напрям, швидкість, щільність, тип обєкту

Приклади – псевдо- чи кольорове зображення, сегментоване (тассельоване, триангульоване) зображення, векторне поле (градієнт, ротор-вихор, швидкість),

Поєднання їх – напр кольорове-векторне, тип-щільність, псевдоколір-вихор (карти ргс) та псевдоколір-швидкість (метеорологія)

  1. 4) композитні – утворене як набір простих чи складних - багато- чи мульти- шарові, сректральні, зрізові , мат модель – набір матриць,
  2. 5) набір у просторі чи часі – послідовність, ряд, потік – особливість наявність кореляції, тобто надлишкова інформація
  3. 6) похідні від композитних та послідовностей та різні представлення-узагальнення – комплексні, та на основі Гільберта.
  4. 7) Формати даних у тому числі файлів, алгоритми стиснення, засоби архівування та передачі, (bmp, gif, tiff, jpeg), cпецформати для певних галузей (scp-ecg, dicom, pacs)
  5. 8) Прості – 1 піксел – 1 число (атрибут) – мат модель – матриця, чорнобілі та інші монохромні, колір та псевдоколір, бінаризовані, більша кількість градацій, контурні.
  1. 1.2      ФОРМАТИ РАСТРОВИХ ФАЙЛІВ

Растрові графічні файли стали активно застосовуватися для зберігання і транспортування графічної інформації, в системах обробки даних та підготовки науково-технічної документації, що використовують персональні комп'ютери, а також лазерні та струменеві друкуючі пристрої. Основними характеристиками растрових файлів є метод упаковки (стиснення) інформації і тип підтримуваної колірної моделі.  

Спочатку растрові файли містили тільки статичні зображення. Останнім часом з'явилися проекти по стандартизації форматів динамічних (анімаційних) зображень. Сьогодні використовується вже велика кількість різноманітних форматів растрових файлів. Деякі з них (наприклад, GIF, TIFF, РСХ) отримали широке розповсюдження і підтримку, інші чекають суспільного визнання, треті підтримуються тільки їх розробниками.  

GIF – Compuserve Graphics Interchange Format  

TIFF – Aldus & Microsoft Tag Image File Format  

РСХ – ZSoft РС Paintbrush format  

RLE – Compuserve & Teletext Run Length Encoded  

ВМР – Microsoft Windows BitMaP  

LBM – Deluxe Paint format  

PIC – Pictor/PC Paint forma  

МАС – MacPaint format  

IMG – Gem Paint format  

CUT – Dr. Halo Cut files  

TGA – Targa format  

JPEG – Joint Photographic Experts Group  

MEPG – Moving Pictures Experts Group  

FLC – AutodeskAnimator  

AVI – Microsoft Animation VIdeo GIF формат був розроблений в CompuServe  Incorporation для зберігання і транспортування растрових зображень. Підтримувана колірна модель - індексовані кольорові зображення. Використовує метод кодування LZW (Lempel, Ziv & Welch), що дає високий коефіцієнт стиснення. Дозволяє утримувати в одному файлі кілька зображень, не пов'язаних між собою. Підтримується багатьма розробниками графічних систем.

TIFF розроблений фірмами Aldus і Microsoft головним чином для настільних видавничих систем. Поширеність цього формату обумовлена його гнучкістю в частині підтримуваних способів кодування і кольорових моделей зображення. TIFF підтримує дворівневі (bi-level), монохромні (gray-scale), індексовані кольорові (paletted color), і повні кольорові (full RGB) зображення. Для кодування різних зображень або його частин можуть застосовуватися різні методи, зокрема LZW. Крім того, TIFF містить метричні характеристики зображення - розмір, щільність і пр. Передбачена можливість запису в один файл декількох зображень та / або копій одного зображення з різними метричними характеристиками.

РСХ формат поширений на ПК і підтримується безліччю графічних редакторів і настільних видавничих систем. У РСХ використовується попутне або потокове стиснення на основі врахування повторюваних серій. Цей метод, в порівнянні з LZW, дає більш низький коефіцієнт стиснення, однак час, необхідний для читання / запису упакованого таким способом файлу, практично дорівнює часу читання / запису вихідного файлу. Це дає переваги при використанні РСХ формату в інтерактивних системах з швидкою зміною зображень.  

JPEG – стандарт ISO, орієнтований на цифрове опис (стиснення і кодування) фотозображень. Він передбачає можливість часткової втрати інформації без візуального погіршення якості зображення.  

MPEG – стандарт ISO, призначений для кодування динамічних зображень і пов'язаної з ними звукової інформації.  

ВМР, LBM, PIC, IMG, CUT, FLC і безліч інших форматів є локальними стандартами на подання растрових зображень у рамках відповідних програмних систем.  Розглянуті графічні стандарти відображають процес розвитку машинної графіки від векторних систем до систем генерації реалістичних зображень. Наступне покоління стандартів буде пов'язане вже з розвитком систем мультимедіа, гіпермедіа та віртуальної реальності, в яких графічна інформація поєднується з будь-якої іншої.

  1. 1.3    ЗОРОВІ АНАЛІЗАТОРИ ЖИВИХ ІСТОТ

Зоровий аналізатор ссавців

Сенсорна інформація щодо навколишнього середо­вища сприймається людиною або твариною у вигляді змін таких параметрів як як інтенсивність світла, дов­жина світлової хвилі, форма, розміри й поло­ження об'єкта. Основ­ний елемент зорового аналізатора (сенсорної системи, шо перетворює оптичні стимули в по­слідовність нервових ім­пульсів) є око; його при­значення — фокусуван­ня зображення на сіт­ківку; регуляція кіль­кості світла, шо бере участь у формуванні зо­браження; перетворення зображення фоторецепторною системою ока і передача інформації в мозок.

Будову ока ссавців в горизонтальній площині наве­дено на рис. 2.65. Зовнішній захисний шар, що оточує очне яблуко, називається склерою. На передній частині ока склера переходить в прозору шарувату структуру, що зветься рогівкою. Задні дві третини ока облицьовує пігментований шар — судинна оболонка. Саме в цій оболонці міститься сітківка, шо має фоторецептори. Світло надходить в око крізь рогівку в передню камеру, так само, як і задня камера, вона заповнена прозорою рідиною — водянистою вологою. Між передньою і зад­ньою камерами розташована райдужна оболонка, яка виконує функції діафрагми. Завдяки скороченню або розслабленню мускулатури м'язів змінюється величина діаметра зіниці — отвору, через який світло проходить в задню частину ока. За райдужною оболонкою розмі­щений кришталик, радіус кривизни якого може бути змінений за допомогою війчастого тіла. Простір між кришталиком та сітківкою заповнений скловидним ті­лом — желатиноподібною рідиною. На сітківці, до якої врешті-решт досягає світло, є оптичний диск, до якого сходяться нервові волокна. Там же розташована й центральна ямка, що є місцем найкращого зору.

 

Цікаво розглянути властивості зорового аналізатора деяких живих істот, які в процесі еволюції придбали специфічних рис. До таких істот можна сміливо від­нести коня. Очне яблуко коня асиметричне; рогівка розміщена поблизу верхньої ділянки ока; сітківка зсу­нута відносно оптичної осі ока. Війчасті м'язи віді­грають незначну роль у зміні радіуса кривизни криш­талика.

Здатність коня фокусувати зоровий аналізатор на об'єкти, розташовані на різних відстанях, досяга­ється простим нахилом голови. З кожною зміною по­ложення голови коня змінюється фокусна відстань (рис. 2.66) — від 40 до 45 мм. Ще однією особливістю зорового аналізатора коня є форма зіниці — у молодих коней зіниця кругла, після 5—6 років форма зіниці на­ближається до еліпсоїдальної.

Розміри ока у ссавців варіюють у широких межах. Не завжди зміна розміру ока супроводжується адекват­ною зміною структурних елементів — товщина сітків­ки змінюється не так істотно, як розміри інших еле­ментів.

Зоровий аналізатор птахів

Зоровий аналізатор птахів призначений не тільки для створення зорових зображень; функції його полягають також у формуванні кольорових образів, що важливо з точки зору розпізнавання сексуальних парт­нерів, суперників та ворогів. Більшість птахів прово­дить весь свій час у пошуках корму. Вони можуть вес­ти денний або нічний спосіб життя; деякі з них літа­ють високо над поверхнею землі. Все це накладає від­биток на будову й функції зорового аналізатора, що сформувався протягом еволюції. Можна розрізнити 4 основних типи будови ока у птахів.

Рурчастий (циліндричний) тип ока характеризується грушеподібною формою, значною сітківкою й істотно меншою напівсферичною рогівкою, що виступає впе­ред (рис. 2.67,а). Чотири п'ятих ока сховано в череп­ній коробці птаха. Є чітко виражена склеротична кіс­точка. Такий тип ока у сови.

Плаский тип ока властивий курям (рис. 2.67,6). Кулястий тип ока характерний для птахів-хижаків. Око цього типу має дзвоноподібну форму з опуклою рогівкою (рис. 2.67,е). Діаметр ока у хижаків значно менший, ніж у звичайних птахів. Такий тип ока забез­печує гостре фокусування на великих відстанях. Пласко-сферичний тип ока у співочих птахів. Харак­терними рисами такого ока є ледь приплюснута, але сферична форма рогівки (рис. 2.67,г).

Рис. 2.67. Основні типи будови ока у птахів (пояснення в тексті)

 

Таким чином, птахи відрізняються не лише за формою ока, але й за його внутрішньою структурою. Очні яблука більшості птахів мають два специфічних пристрої для підвищення гостроти зору — центральну ямку і гребінець.

Центральна ямка являє собою надчутливу область, насичену колбочками, розташовану на сітківці. Зазви­чай центральна ямка має форму вузенької смужки. Це особливо доцільно для птахів, які полюють за кома­хами — видовжена форма цього органа дає можливість контролювати комах без додаткових обертань голови. Око хижака обладнане двома центральними ямками, кожна з яких настроєна на різні об'єкти. Те ж саме можна сказати щодо швидких полювальників за кома­хами — ластівок і стрижів. Голуби взагалі не мають центральної ямки.

Гребінець являє собою складчасте пігментоване утворення, насичене кровоносними судинами і з'єдна­не з оптичним нервом (рис. 2.68). Кількість складок у способу життя — у свійської птиці вона становить: 15 у курки, 13-у качки І гуски. Птахи, що літають на великих висотах, ма­ють іншу кількість складок: 24 у галки, 23—26 — у ворони.

Існують гіпотези, згідно з якими гребі­нець: виконує функції стабілізатора тиску всередині ока, зміни якого супроводжують швидкий рух птахів; є органом чуття, здатним відчувати зміни тиску при акомодації та забезпечувати гостроту бачення віддалених об’єктів; послаблює засліплюючи та пошкоджуючу дію сфокусованого кришталиком сонячного випроміню-вання на сітківку; бере участь у навігаційних здатностях птахів орієнтуватися відносно Сонця; відчуває вплив зовнішнього магнітного поля і сонячного випромінювання через участь кровоносної системи гребінця як сукупності струмопровідних вит­ків, розміщених у двох взаємно перпендикулярних площинах, і використовує фотомагнітний ефект для орієнтації у просторі.

 

Рис. 2.69. Будова ока риби

 

Зоровий аналізатор риб

Структуру ока риби наведено на рис. 2.69. Для за­хисту рогівки від великих тисків і піску око обладнане оболонкою — твердим прозорим утворенням. Коефіці­єнти заломлення оболонки, рогівки і води приблизно однакові. Фокусування ока на об'єкт здійснюється за допомогою втягуючого м'яза, що пересуває кришталик вздовж оптичної осі рогівки. Форма ока залежить від способа життя риби — мешканці глибин мають рурчасту форму, причому сітківка розмішена так, щоб за­безпечити фокусування на об'єкти на різних віддалях.

Форма ока інших типів риб нагадує правильний трикутник; вона забезпечує різні фокусні відстані для об'єктів, розташованих вгорі або безпосередньо перед рибою. В акули, наприклад, очі взагалі без оболонки. Крім того, фокусування ока на об'єкт здійснюється за допо­могою м'яза, що наближує кришталика до рогівки (на відміну від інших риб).

Фоторецепція у комах

Реакція на світло у комах здійснюється за допомогою двох складних очей і трьох простих. Просте око являє собою лінзоподібний горбик на хітиновому покриві голови, до якого зсередини підходять нервові клітини. Складається просте око з прозорої лінзи, шару зорових клітин (близько 800) і зорового нерва (рис. 2.70).

На сітківці простого ока не формується зорове зо­браження; в той же час прості очі в змозі сприймати такі па­раметри оптичного випромі­нювання як інтенсивність, пе­ріод І спектральний склад. Вважається, що прості очі здатні реагувати на сутінки або світанок, забезпечуючи орієнтацію комахи в умовах недостатньої освітленості.

Складні очі мають фасеткову структуру, що формує мозаїчну картину (рис. 2.71). Складається складне око з набору оматидіїв, кількість яких становить 25000 у жуків, 8000-10000 у бджіл, 4000 у мух, 100-1000 у мурашок. Основ­ними елементами оматидію є криш­талева лінза (рогівка), кришта­левий конус, пігментні клітини, фоторецептор, рабдом (ретинальна клітина) (рис. 2.72).

У бджоли, на­приклад, до внутрішнього кінця кришталевого конуса приєднано вісім радіальне розташованих зо­рових клітин, завдяки яким комаха здатна сприймати поляризацію від­битого сонячного випромінювання і орієнтуватись у просторі.

Щодо здатності комах сприй­мати колір вважається що мете­лики, мухи і деякі жуки реагують на синій колір, бджоли - на чер­воний, жовтий, зелений і синьо-зелений. Крім того, комахам властива чутливість до ультрафіо­летового випромінювання. Але можливим поясненням відвіду­вання комахами кольорових кві­тів є їх здатність розрізняти ін­тенсивність випромінювання, відбитого від різних частин квітки.

Фоторецепція у мікроорганізмів

Основне призначення фоторецепторної системи мікроорганізмів — забезпечення організму інфор­мацією про стан навколишнього середовища, зокрема, інтенсивність світлового стимулу, просторових і часо­вих характеристик, за допомогою яких мікроорганізм здатний орієнтуватися відносно одного з найважливі­ших зовнішніх факторів — світла. Просторові та часові зміни інтенсивності та напрямки світлового потоку можуть зумовлювати відповідні зміни в рухливій ак­тивності цілих організмів (фототаксиси), їх частин, напри-клад, органів вищих рослин (фотот-ропізму) або органел (фотоорієнтація поропластів). Структура, місце розташування і принципи дії фоторецепторних систем мікро-організмів відзначаються великим різноманіттям. Розглянемо деякі фоторецеп-тори і системи водних мікроорганізмів, в ос­нові яких лежать різні фізичні принципи.

 

Фоторецепторна система дииофіцієвих водоростей має особливу спеціалізовану органелу - оцелоїд, що являє собою фокусуючу систему (рис. 2.73).Цілком можливо, що оцелоїди динофлагелят здатні не тільки реагувати на напрямок світ­лового потоку, але й утво­рювати зорові зображення. Представник евгленофітових водоростей Еuglena gracilis має фоторецептор – параджгутикове тіло, розмі­щене біля основи джгутика.

Збоку, в цитоплазмі, на стінці резервуара міститься стигма, яка виконує функ­ції модулятора світлового потоку, що попадає на фо­торецептор (рис. 2.74). Під час руху вперед, до джерела світла кліти-на евглени оберта-ється навколо поз-довжньої осі. Як тільки клітина відхи-ляється від напрямку світлового потоку, стигма при кожному обертанні періодично затемнює фоторецеп­тор. Сигнал перела­ється на джгутик і ос­танній коригує рух клітини. Якщо рух клітини збігається з напрямком світлового потоку, затінення фо­торецептора стигмою не відбувається і по­треба в корекції руху відпадає.

Своєрідну фоторецепторну систему має зелена водорість Chlamydomonas reinhardtii, стигма якої складається з чотирьох шарів пігментова­них глобул, що виконують функції чверть-хвильової пластини. Якщо світло палає на бокову поверхню клі­тини, де розміщена стигма, фоторецептор отримує сигнал посиленої інтенсивності, що дорівнює сумі ін­тенсивностей падаючого і відбитого світла завдяки інтерференції світлових потоків, які потрапляють на стигму і відбиваються від кожного з шарів (рис. 2.75 ).

Якщо освітлюється протилежний бік, сигнал, що отримує фоторецеп­тор, послаблюється зав­дяки поглинанню світла тілом клітини і стигмою. Таким чином стигма ут­ворює своєрідну антену, що визначає місце розміщення джерела світла

  1. 1.4    МЕХАНІЗМИ ФОТОРЕЦЕПЦІЇ

Заломлююча здатність ока

Світловий потік, що потрапляє в око, зазнає за­ломлення на роговій оболонці (п = 1,376; r = 7,8 мм). Після цього відбувається заломлення під час переходу з рогової оболонки в передню камеру (n = 1,336). По­дальше заломлення відбувається в кришталику, показ­ник заломлення якого поступово зростає від 1,386 до 1,406 б напрямку його ядра. За кришталиком розмі­щена внутрішня камера ока (п = 1,336). Таким чином, структура ока включає чотири сферичних межі роз­поділу середовищ з різними показниками заломлення (рис. 2.76). Розрахунки свідчать, що оптична сила ока становить: 58,64 діоптрій у людини; 61,3 — у овці; 47,7 — у корови; 78,2 — у коня.

Рис. 2.76. Заломлююча здатність ока

Механізми зору

Сітківка ссавців складається з п'яти типів клітин — фоторецепторних, біполярних, горизонтальних, амакринових і гангліозних. Фоторецепторні клітини (палички і колбочки) перебува­ють у контакті з біпо­лярними клітинами, що здійснюють зв'я­зок з ганг-ліозними клітинами (рис. 2.77). Останні передають по­тенціал дії мозку. Го­ризонтальні клітини з'єд-нують – по горизон­талі фоторецепторні і гангліозні клітини; амакринові — по го­ризонталі біполярні й гангліозні клітини. Фоторецепторні клітини (палички і колбочки) містять зо­рові пігменти — ро­допсин у паличках і йодопсин — у колбоч­ках. Родопсин являє собою білок, що скла­дається з білка опсину та хромофорної групи — ретиналю.

Йодопсин також містить ретиналь, але від­різняється від родопсину білковою частиною. Під дією світла молекула ретиналю збуджується, зазнаючи при цьому процесу фотоізомеризації. Потім відбувається серія конформаційних перебудов молекули білка оп­сину, пов'язаних із переміщенням по ній заряду, що утворює ранній рецепторний потенціал, а через 1 мс — пізній рецепторний потенціал. 

Під впливом світла відбувається замикання йонних каналів, що призво­дить до гіпероляризації клітинної мембрани. Очевид­но, аналогічні процеси відбуваються й у колбочках: поглинання кванта світла молекулою йодопсину зу­мовлює ЇЇ збудження та появу раннього рецепторного потенціалу. Таким чином, процеси зору являють со­бою складний ланцюг ініціації світлом у зорових піг­ментах фотохімічних реакцій, ізомеризації молекул фотопігментів, зміни проникності мембрани фоторе­цептора, утворення електричного потенціалу в фоторецепторній мембрані і передачі електричного імпульсу від зорового нерва мозку.

Рис. 2.77. Основні типи клітин сітківки

 

1.5    ЗОРОВИЙ АНАЛІЗАТОР ЛЮДИНИ ЯК ПРОТОТИП СИСТЕМ ТЕХНІЧНОГО ЗОРУ

Зорова система людини вдосконалювалась на протязі мільйонів років і досягла надзвичайно високого рівня організації. Узагальнена модель зорової системи людини є багатофункціональною та складається з декількох десятків, а то й сотні, локальних моделей, які описують цілий ряд структурних, фізичних, геометричних і психофізичних механізмів та процесів. Процес сприйняття візуальної інформації людиною є динамічним, з багатьма параметрами, які змінюються в процесі сприйняття, з багатьма зворотними зв'язками. Ми не тільки бачимо, ми й дивимось, реагуємо, тобто такий процес є активним. Тому феномен зору надає надзвичайно багато різнопланових елегантних рішень для систем технічного зору. А комп'ютерний зір - одна з самих затребуваних галузей на сучасному етапі розвитку цифрових комп'ютерних технологій.

Враховуючи досконалість зорового аналізатора людини, доцільно вивчити і виділити його елементи для використання в сучасних технічних системах. При цьому не обов'язково точно їх копіювати, а, навпаки, розуміючи їх функціонування, реалізовувати їх з врахуванням постановки конкретної технічної задачі та можливостей рівня техніки.

Орган зору людини складається з трьох основних складових: очне яблуко, зорові нерви та зорові центри в мозку. Очне яблуко розміщено в захищеному поглибленні черепа, має сферичну форму з діаметром приблизно 20 мм. Ззовні очне яблуко покрито білою, непрозорою оболонкою (склерою) товщиною близько 1 мм. На передній поверхні ока склера переходить в прозору мембрану (роговицю). Відбите від оточуючих предметів світло попадає в око, переломлюється роговицею та кришталиком і фокусується на задній поверхні очного яблука.

Друга очна оболонка - судинна, зв'язана зі склерою і складається із кровоносних судин (капілярів) і являється основним джерелом живлення ока. Темна судинна оболонка ока сильно пігментована і адсорбує надлишкове світло, яке попало в око, зменшуючи відбиття світлових променів всередині очного яблука та попереджуючи отримання нечіткого зображення. Сама передня частина судинної оболонки (радужка) представляє собою зафарбовану мембрану у вигляді концентричного диску, яка складається із гладких м'язів і розміщена між роговицею та кришталиком. Одна з основних функцій радужки є регулювання кількості світла, яке попадає в око. Внутрішня частина концентричного диску радужки (зіниця) в залежності від рівня освітлення збільшується або зменшується під впливом двох протилежно направлених м'язів радужки. Як правило, зіниця реагує на зміни освітлення рефлекторно із швидкістю 0,25-0,5 с.

Кришталик ділить око на дві нерівні по об'єму камери:

Обидві прозорі субстанції забезпечують утримання кришталика у визначеному положенні та підтримують форму ока. Кривизна кришталика змінюється в залежності від фокусної відстані під впливом війкових м'язів.

Сітківка охоплює біля 200° внутрішньої поверхні очного яблука та представляє собою надзвичайно складну мережу фоторецепторів і нервових клітин, які трансформують світлову енергію в нейрону активність. В багатьох відношеннях поверхня сітківки являється продовженням мозку. Сітківка складається з фоторецепторів двох видів - паличок і колбочок, відповідно циліндричної і конічної форми. На периферії сітківки розміщено 120-130 мільйонів паличок, ширина яких дорівнює приблизно 0,002 мм. Колбочки, у кількості 6-8 мільйонів, переважно сконцентровані в центральній ямці (зона fovea) шириною близько 1 мм і мають діаметр 0,003-0.0.08 мм. На невеликій відстані від центральної ямки в сторону носа розташований диск зорового нерву, з якого виходить зоровий нерв в мозок. На цій ділянці відсутні фоторецептори (сліпа пляма) і відсутня будь яка зорова реакція.

Зовнішня оболонка паличок і колбочок покрита світлопоглинаючим пігментом, що забезпечує умови їх збудження при попаданні на них світла. Сітківка представляє собою складну 10-ти шарову мережу нервових клітин різної спеціалізації, які зв'язані між собою вертикальними і горизонтальними зв'язками.

Базовими елементами нервової системи людини - основними обробниками і передавачами інформації - є нейрони або нервові клітини, яких налічується у людини приблизно 100 мільярдів. Відомі нейрони різних типів, кожен з яких виконує свої специфічні функції. Деякі з них зв'язані з рецепторними клітинами органів чуття (сенсорні нейрони), які сприймають визначені види енергії (світло, звук, тиск, хімічну енергію). Ці клітини перетворюють сприйняту ними енергію в нервові імпульси та передають їх іншим нейронам нервової системи: мотонейронам - для передачі імпульсів м'язам, або інтернейронам - для подальшої обробки сприйнятої інформації. Більшість нейронів незалежно від їх функцій складається з трьох основних частин:

Таким чином дендрити сприймають інформацію від багатьох нейронів і передають її в тіло клітини. Сома, в залежності від сукупності прийнятої інформації (імпульси збудження і гальмування) та її спеціалізації, видає через свої аксони відповідні сигнали іншим нейронам або м'язам для виконання відповідних дій. Розгалужений кінець аксона закінчується кінцевою синоптичною головкою, яка є місцем контакту з дендритом іншого нейрона. В залежності від типа сигналу, що прийшов по аксону (збудження або гальмування), в синоптичний контакт виділяється особлива хімічна речовина - нейротрансміттер, який збуджує або гальмує пов'язаний з цим аксоном нейрон. Використання природою двох типів нейротрансміттерів забезпечує більш точні і скоординовані рухи м'язів.

Групи паличок і колбочок зв'язані по вертикалі з проміжними (біполярними) клітинами, які, в свою чергу, зв'язані з гангліозними клітинами, аксони яких входять до складу зорового нерву. Крім проміжних біполярних і гангліозних клітин існують також два шари горизонтальних зв'язків: перша мережа створюється горизонтальними клітинами між фоторецепторами і біполярними клітинами, друга мережа бокових (латеральних) зв'язків створюється амакри-новими клітинами між біполярними і гангліозними клітинами. Однією з функцій цих бокових зв'язків є створення такої взаємодії між сусідніми клітинами, при якому можлива модифікація сигналів з фоторецепторів (латеральне гальмування).

Нервові клітини не обов'язково передають імпульси сусіднім нейронам всякий раз, коли на них діє подразник. Нейрон має багато дендритів (до тисячі), які пов'язані з багатьма іншими нейронами, і приносять вони не тільки ту інформацію, що збуджує свій нейрон, але й інформацію, що гальмує його роботу. Потенціал дії нейрона і передача від нього імпульсу виникає тоді, коли досягається визначений поріг його стимулювання. Величина потенціалу дії не залежить від інтенсивності подразника, тобто є постійною величиною. Вплив інтенсивності подразника проявляється в кількості потенціалів дії та у часовому інтервалі між ними, тобто в частоті імпульсів потенціалу дії. Ця частота не може перевищувати 1000 імпульсів дії за секунду.

Відчуття постійного по інтенсивності подразника з часом зменшується, тобто має місце адаптація до тривалого подразника. Хоча адаптація, як правило, свідчить про зниження чутливості, вона одночасно приносить і значну користь, допомагаючи сприймати більш слабкі сигнали про зміни в оточуючому середовищі.

Більш детально розглянемо основні функції, структурні та фізичні особливості, механізми та процеси, які мають місце та відбуваються в зоровому аналізаторі нижнього рівня людини [1-6] і які є важливими для грамотного синтезу сімейства проблемно-орієнтованих інтелектуальних технічних систем реального часу.

Фізичним подразником зорової системи є світло: з однієї сторони це електромагнітні коливання у вузькому діапазоні довжин хвиль (приблизно 380 - 760 нм для людини), а з другої сторони це енергія, тобто неперервний потік часток (квантів) енергії, який визначає інтенсивність світла.

Психологічний ефект від сприйняття електромагнітних хвиль різної довжини є кольори або відтінки (від фіолетового до червоного), а ефект від інтенсивності світла, як фізичного подразника, є яскравість. Зміни інтенсивності світла не обов'язково приводять до пропорційної зміни сенсорного сприйняття, тобто яскравості.

Основні функції зорового аналізатора (ЗА)

Структурні (конструктивні) особливості ЗА:

- можливість руху очей автономно і незалежно від положення голови і тіла.

Фізичні особливості ЗА:

Крім того це дозволяє знизити диференційні рівні яскравості на фоторецепторах завдяки її розподілу на більшу площу фоторецепторів [3, 4];

- сприйняття кольору визначається довжиною хвилі світла, яке стимулює зорову систему. Тільки І промені видимого електромагнітного спектра з довжиною хвиль від 380 до 760 нм здатні викликати у людини кольорові відчуття. Тобто відчуття кольору - це суб'єктивний результат дії на нервову систему відбитого від предмета променя з визначеною довжиною хвилі у видимому діапазоні. Самі по ! собі промені світла, фарби, тощо не мають кольору, вони лише результат відбиття або поглинання променевої енергії від оточуючого середовища, який інтерпретується зоровою системою. Навіть в і мережі сітківки і зорової кори кольорів нема, вони з'являються коли відеоінформація отримує кінцеву інтерпретацію в свідомості спостерігача. Тобто колір - продукт діяльності зорової системи, а не невід'ємна властивість видимого спектру;

- між відчуттям кольору і фізичними параметрами світла існує тісна залежність, яка може бути кількісно оцінена трьома атрибутами світла: довжиною хвилі, інтенсивністю та спектральною чистотою. Цим фізичним параметрам відповідають свої психологічні аспекти відчуття кольору: кольоровий тон, яскравість та насиченість. Кольоровий тон або просто колір визначається довжиною хвилі світла, яскравість кольору визначається його інтенсивністю, а насиченість кольору є психологічним параметром, який відображує відносну кількість кольору поверхні предмета і пов'язана з фізичним параметром спектральної чистоти.

Механізми і процеси ЗА:

компенсація девіації чутливості та ефекту осліплення фоторецепторів.

Значна частина попередньої обробки зорової інформації проводиться вже на рівні сітківки. Спеціалізовані нейрони, розміщені в товщі сітківки, виділяють контури об'єктів, реагують на рух (часто лише в одному визначеному напрямку), виділяють інформацію про світ і тіні та деяку іншу інформацію, провести інтерпретацію якої дуже важко. Тобто в мозок посилається ціла серія динамічних образів, кожен з яких відображує лише один аспект загальної зорової картини.

Кожен відеопотік передається по своїй групі волокон зорового нерву у вищі центри мозку, де вони об'єднуються в загальну картину.

Вище в ієрархії йдуть усвідомлені рухи очей, які визначаються когнітивним процесом сприйняття інформації. При цьому мозок містить повну модель сітківки та набутий досвід зображень об'єктів. Отримуючи інформацію з сітківки та порівнюючи її з моделями об'єктів, мозок у відповідності з поставленою ціллю та характеристиками об'єктів визначає високочастотні автоматичні режими управління рухами очей та керує низькочастотними режимами.

Враховуючи дуже велику складність побудови системи технічного зору з можливостями зорового аналізатора людини, велику її вартість, тощо, в більшості випадків більш доцільно створювати проблемно-орієнтовані пристрої або системи для вирішення конкретних прикладних задач промисловості, транспорту, науки, біології, медицини тощо. Такі пристрої або системи будуть ефективно реалізовувати всього декілька структурних особливостей або механізмів зорового аналізатора, але будуть швидко розроблятись та впроваджуватись, враховуючи їх невелику вартість. Синтез проблемно-орієнтованих систем технічного зору починається з визначення умов освітлення (денне світло, люмінесцентне, від ламп розжарювання, тощо), його постійності на протязі доби, розмірів об'єкта (об'єктів) і відстані до нього (них), діапазону зміни відстані до об'єктів, поле зору, необхідність оцінки глибини сцени, монохроматичне або кольорове бачення, завади та їх тип, орієнтовна швидкість руху об'єктів або сцени, інформативні ознаки об'єктів (колір, текстура, форма, орієнтовні розміри об'єктів, тощо), типи примітивів, які необхідно виділити з об'єкту, режими роботи системи (пошук об'єктів, слідкування за ними, розпіз-навання, вимірювання розмірів, морфологічний та морфометричний аналіз), вимоги до часу розпізнавання або вимірювання, вимоги до точності вимірювання, тощо.

Можна виділити дві стратегії розробки систем технічного зору:

- розробка спеціалізованих пристроїв технічного зору різного призначення; а по мірі накопичення досвіду - узагальнення та розробка типових інтерфейсів для можливості їх використання в різних прикладних задачах;

- напрацювання банку різних технічних, алгоритмічних та програмних засобів з арсеналу зорового аналізатора людини із заздалегідь розробленими і узгодженими інтерфейсами, з яких можна було б набирати необхідну комбінацію функцій та якостей системи.

1.6    ІНТЕЛЕКТУАЛЬНЕ ВИБІРКОВЕ СПРИЙНЯТТЯ ВІЗУАЛЬНОЇ ІНФОРМАЦІЇ

Візуальна інформація є найбільш інформативною формою відображення зовнішнього світу. Вона представляється у дво- чи тривимірному просторі, у часі та у трьох кольорових координатах, тобто 6 - 7-вимірному просторі, вимагає сприйняття у реальному часі -100 Мбайт/с та продуктивності ≈10 Гміпс для її обробки.

Незважаючи на значні об'єми інформації в зображенні і особливо у відеопослідовності, зорово-аналізуюча система людини досить ефективно і оперативно справляється з цими задачами за рахунок своєї надзвичайно високої вибірковості. В літературі виділяють десятки структурних (конструктивних) та фізичних особливостей зорового аналізатора людини, десятки механізмів та процесів, які мають місце і діють в ньому. Однак висока вибірковість сприйняття інформації людиною забезпечується, в першу чергу, завдяки структурним особливостям побудови зорового аналізатора (широке поле огляду з малою роздільною здатністю периферійної сітківки та «гострий» зір в зоні ямки - фовеал), механізмам уваги і адаптації та різним типам руху очей.

Основні елементи інтелектуального зорового сприйняття:

- широке поле огляду периферійного зору (сітківки) з невисокою роздільною здатністю, яке реалізує функції збудження та направлення погляду (механізм уваги);

- концентрація роздільної здатності в зоні ямки сітківки ока, яка служить як деякий зонд, з допомогою якого зорова система досліджує світ;

- високорівневе управління рухами ока, яке визначається поставленою перед системою метою (пошук об'єктів, розглядання, слідкування, панорамування тощо).

Система верхнього рівня послідовно формує гіпотези про об'єкти сцени та направляє очі для збору додаткової інформації, щоб підтвердити або відкинути ці гіпотези.

Проблема створення досконалих систем технічного зору, здатних з високою оперативністю і ефективністю вирішувати задачі обробки зображень, пошуку і розпізнавання об'єктів в реальному часі, є актуальною для створення інтелектуальних відеосистем різного призначення. Основними задачами тут є: організація динамічного налагодження зорової системи до сприйняття широкого кола простору, цілеспрямований пошук об'єктів та концентрація уваги на локальних ділянках для їх детального аналізу.

Механізм уваги р одна з центральних складових системи, оскільки вона вибирає інформацію, на якій базуються дії системи. Для більшості задач, які повинні бути розв'язані системою, має місце додаткове знання, яке може бути використане для спрощення системи або алгоритму розв'язання задачі, тобто для спеціалізації системи.

Стратегія «механізмів уваги» базується на швидкому, грубому аналізі статичного або динамічного зображення з метою виділення яких-небудь характерних інформаційних ознак: яскравісних, колірних, динамічних, геометричних (меж областей, горизонтальних та вертикальних ліній, кутів...) тощо, з наступною більш тонкою їх перевіркою. Стратегія «механізмів уваги» враховує, що об'єкт складається з частин з різними властивостями. Стратегія є адаптивною, тобто пристосовується до статистики ознак зображення та дозволяє значно зменшити загальний обсяг обчислень [2].

Фовеальне сприйняття візуальної інформації

Були спроби повторити таку організацію візуального сприйняття з широким пери­ферійним оглядом і детальним розглядуванням в технічних та алгоритмічних моделях. Одним з таких напрямків є створення фовеальних сенсорів. Фовеальні сенсори можна умовно поділити на два класи:

Перший клас сенсорів реалізує логарифмічне полярне перетворення (log-polar mapping), яке забезпечує інваріантність до повороту та зміни масштабу образу. Реалізація таких сенсорів полягає в безпосередньому синтезі пристроїв на сучасній СМOS-технології з нерівномірним розміщенням рецепторів на площині - щільне розміщення елементів в центральній частині і зменшення щільності елементів від центра до периферії матриці. Другий варіант реалізації полягає в тому, що з допомогою спеціальної оптичної системи забезпечується нерівномірне відображення елементів в центральній і периферійних ділянках. Недоліком радіальної організації є необхідність управління «поглядом», тобто напрямом оптичної вісі сенсора, що вимагає використання приводу та системи управління ним.

Сенсори з ієрархічною організацією рецепторного поля реалізують принцип динамічної організації центрального і периферійного полів зору залежно від поточної зони уваги. Ідеологія організації такої обробки випливає з робіт зі створення пірамідальних систем машинного зору і моделюванню механізмів уваги.

Однак реалізація ієрархічного інтелектуального сприйняття, як це здійснюється в пірамідальних системах, не задовольняє умовам реального часу, оскільки в них спочатку зчитується зображенням максимальною роздільною здатністю, а потім, шляхом фільтрації та проріджування, формуються наступні шари піраміди, кожен з яких має в 4 рази менший розмір зображення. Ця процедура вимагає значних витрат часу та пам'яті, що не забезпечує умов реального часу.

Вибіркове сприйняття візуальної інформації

Потрібно наближати принципи побудови систем технічного зору до ін­телектуального сприйняття візуальної інформації зоровою системою людини. Тому пропонується підхід до ієрархічної організації вибіркового сприйняття ві­зуальної інформації, який базується на грубо-точному методі пошуку і полягає в на­ступному. Спочатку зчитується проріджене зображення або послідовно окремі рядки зображення з деяким кроком, який враховує геометричні розміри шуканого об'єкта, шукається об'єкт за заданими ознаками (наприклад за кольором), визначаються його габаритні розміри і в цих габаритах зчитується уточнене зображення об'єкта для розпізнавання.

Такий підхід є значно ефективнішим, особливо в технічних відеосистемах реального часу, оскільки не вимагає зчитування всього зображення з високою роздільністю, не вимагає додаткової обробки інформації для формування піраміди зображень та не вимагає приводу з системою управління «поглядом» (як це має місце в сенсорах з радіальною організацією).

Якщо в зображенні декілька об'єктів, то вони відшукуються за грубим зображенням, а потім зчитується з більшою роздільністю один об'єкт, наприклад з більшим пріоритетом. І наступні для подальшого розпізнавання. Тобто має місце перевернута піраміда. Крім того. технічні можливості сучасних СМOS-відеосенсорів дозволяють легко перепрограм озувати їх в процесі сприйняття відеоінформації на зчитування розрідженого, фізично повного або більш детального (з інтерполяцією між сусідніми пікселами) зображення. , Крім грубо-точного сприйняття візуальної інформації по простору (тобто в координатах X, Y) око людини реагує не на величину яскравості або колірності в зображенні, а на зміни цих величин між значеннями яскравості сусідніх рецепторів. або значеннями яскравості даного рецептора у часі, тобто на динаміку цього параметру.

Залежно від динаміки процесів, які спостерігає зорова система людини, від рівня освітлення, необхідності розглядання великих або дрібних деталей в зображенні, діють адаптаційні механізми, що управляють типами рухів очей, їх швидкістю, чутливістю рецепторів тощо. Тому і в системах технічного зору також доцільно управляти частотою зчитування відеоінформації, коефіцієнтом підсилення та розрядністю її представлення. Таким чином, для реалізації інтелектуального вибіркового сприйняття зображень необхідно забезпечити такі можливості:

- виділення динамічної інформації (в рядку, між стовпчиками матриці зображень або між кадрами);

- управління розрядністю яскравості або колірності;

- управління частотою відеозйомки.

Звичайно в відеосистемах реального часу виникає необхідність реалізації ще деякі: можливостей управління відеокамерою, зокрема управління експозицією, автофокусом врахування типу освітлення тощо, але ці параметри меншою мірою впливають на об'єм інформації з зображення.

Інформаційні аспекти вибірковості

Розглянемо більш детально інформаційні аспекти вибірковості за рахунок зазначених вище можливостей управління параметрами зчитування відеоінформації.

Для визначення об'єму інформації у зображенні звичайно використовується потенційна оцінка на основі амплітудно-просторової роздільності:

(2)


(1)

а для відеопослідовності (динамічного зображення) ще і часової роздільності:

де X і Z - розміри поля зображення; Z - координата яскравості зображення; ∆ х, ∆у, δz, ∆t - дискретність представлення відповідних координат зображення.

Для кольорової відеопослідовності кількість інформації визначиться як

(3)

де R, G, В - кольорові (червона, зелена, синя) складові світла.

Потенційна оцінка використовується для розрахунку необхідної пропускної здатності каналів зв'язку для передачі зображення, об'єму пам'яті для збереження зображення і продуктивності обчислювальних засобів для його обробки. Потенційна оцінка відбиває методи і засоби знімання зображень за допомогою традиційних відеокамер.

У виразах (1) і (2) значення X, Y і Z прийняті фіксованими і рівними максимальному значенню, фіксованими є і значення ∆ х, ∆у, δz, ∆t, тому такий підхід дає оцінку зверху кількості інформації, що є дуже завищеною і не вказує шляхів скорочення надлишковості цифрового представлення зображень.

Такі шляхи з'являються при інтелектуальному вибірковому сприйнятті візуальної інформації за рахунок вказаних вище можливостей управління параметрами зчитування відеоінформації.

Управління роздільною здатністю

  1. Проріджування зображення, тобто збільшення кроку дискретизації простору ∆х та ∆у вдвічі: ∆х'= 2∆х, ∆у' = 2∆у,

приводить до зменшення об'єму інформації в 4 рази.

  1. Сканування зображення окремими рядками або стовпчиками з великим кроком ∆х'=n∆х або ∆y'=m∆у приводить до зменшення об'єму інформації в n або m раз.

Зчитування довільного прямокутника з зображення в межах від Х1 до Х2 та від Y1 до Y2 зменшує кількість інформації в поданні зображення в раз, де ∆Х=Х21, ∆Y= Y2- Y1.

Виділення динамічної інформації. Яскравісна (колірна) картина зображення не. є постійною, а змінюється від піксела до піксела і від кадру до кадру. Тому величина Z у формулі (1) не є константою, а є функцією координат зображення zij=f(xiyi).

В.М. Глушков дав таке містке визначення поняття інформації, що воно не втратило своєї актуальності навіть до теперішнього часу: «Информация в самом общем ее понимании представляет собой меру неоднородности распределения материн й знергии в пространстве й времени, меру изменении, которьіми сопровождаются все протекающие в мире процессьі». При цьому виділяються два різновиди інформації - статична (характеризує поточний стан певної матеріальної чи енергетичної системи) та динамічна (її змінність у часі і просторі). І якщо статичній інформації було приділено сотні робіт у світі і вона стала вже класикою, то динамічній інформації не було надано необхідної уваги практично до кінця XX століття. Однак визначення поняття динамічної інформації виявилося винятково плідним при вивченні інформаційних властивостей фізичних систем та процесів.

Основи динамічної теорії інформації дозволило виділяти й використовувати корисну (динамічну) інформацію з випадкових стаціонарних і нестаціонарних сигналів, зображень, просторових полів, ітераційних процесів, рекурентних процедур тощо, значно зменшивши її надлишковість. У роботі [5] уведено поняття ентропії значення випадкової величини що є мірою невизначеності самого значення випадкової величини і являє собою середню кількість розрядів, що приходиться на одне значення випадкової величини.

Розглядаючи матрицю х п) значень яскравості пікселів як значення випадкової величини, одержимо оцінку ентропії зображення

(4)


Так само як для Шеннонівської ентропії стану, одиницю виміру ентропії значена випадкової величини визначає основа логарифма. При основі логарифма, рівній двом одиницею ентропії значення є біт.

Пронормувавши Н величиною одержимо приведену ентропію яскра-вісної характеристики зображення

(5)

Приведена ентропія яскравісної характеристики зображення характеризує розкид по розрядності представлення яскравості пікселів зображення і змінюється в діапазоні (0 ÷ 1).

Так, при hz →1 всі значення яскравості пікселів зображення вимагають для свого представлення приблизно однакової розрядності. Зображення виглядає монотонне світлим і слабо контрастним. У цьому випадку для скорочення надлишковості цифрової представлення зображення, знаючи середнє значення яскравості, усі значення яскравості пікселів можна представити у виді відхилень від zср . Використовувати змінну розрядність для представлення яскравості пікселів недоцільно.

При hz < 0,5 зображення є досить контрастним. У цьому випадку доцільний перехід на змінну розрядність представлення значень яскравості і кількість розрядів для представлення значень яскравості може бути скорочена більш ніж у 2 рази.

З огляду на необхідність виділення перепадів яскравості між сусідніми елементами в рядку і стовпці матриці зображення, воно може бути представлене у виді матриці різниць між сусідніми елементами (матриці приростів).


При цьому ентропія зображення визначиться як де різниці ∆zij можуть бути визначені як по рядках (∆z'ij), так і по стовпцях матриці (∆z"ij):

(6)


Звичайно, для кодування приростів знадобиться менша кількість розрядів, що також зменшить кількість інформації в зображенні.

З огляду на необхідність сприйняття різниць між відповідними пікселями двох сусідніх кадрів, одержимо матрицю різницевого зображення (матрицю різниць або матрицю приростів) [6]. При цьому ентропія його визначиться як

(7)

де , k - номер кадру відео послідовності. У різницевому зображенні, аналогічно попередньому, також можна виділити корисну інформацію, тобто об'єкт, відсіявши фон, або виділити тільки зміни в об'єкті між кадрами. Аналогічно попередньому, тут також забезпечується зменшення об'єму інформації в зображенні.

Управління розрядністю представлення відеоінформації. Грубе представлення інформації може стосуватись не тільки роздільної здатності просторового представлення, але й точності представлення яскравості (колірності), тобто розрядності. Зменшення розрядності приводить до відповідного зменшення кількості інформації в зображенні, однак використати повною мірою це зменшення в більшості випадків дуже складно.

Умовно можна вважати, що кількість інформації, знятої кольоровою відеокамерою, зростає в 3 рази. Однак у системах реального часу в ряді застосувань можливе використання тільки окремих R, G, В-складових чи перейшовши до моделі НSВ, використовувати, наприклад, тільки колірну чи яскравісну ознаку, які більшою мірою несуть корисну інформацію для даної задачі. Тому для підвищення вибірковості доцільно забезпечити можливість зчитування тільки необхідної в даній задачі інформації.

Управління частотою відеозйомки. Зменшення частоти відеозйомки, тобто збільшення кроку дискретизації по часу ∆t, приводить до пропорційного зменшення об'єму інформації у відеопослідовності.

Практичне використання можливостей управління параметрами зчитування інформації з відеосенсора

Крім забезпечення можливості управління параметрами зчитування інформації вкрай важливим для систем технічного зору є суміщення процесів уведення зображення з його обробкою у часі, що не дуже складно реалізується з допомогою каналів прямого доступу до пам'яті сучасних процесорів цифрової обробки сигналів. Суміщення процесів дозволяє після закінчення уводу зображення з мінімальною затримкою у часі визначити параметри управління відеосенсором на наступний кадр зображення, тобто значно зменшити затримку інформації в контурі, зворотного зв'язку. Вказані можливості варіювання параметрами зчитування відеоінформації та суміщення забезпечують вибірковість та значне зменшення інформації (без втрати корисної інформації) для обробки, тобто підвищення ефективності і оперативності подання зображення.

Наведемо приклади використання цих можливостей в практичних задачах. Залежно від поставленої перед системою технічного зору задачею можна виділити ряд типових режимів або етапів, які по аналогії пов'язані з рухами очей та особливостями сприйняття відеоінформації зоровим аналізатором людини:

- пошук об'єкта за ознаками;

-розглядання (розпізнавання, порівняння, вимірювання) об'єкта;

Можливість управління параметрами зчитування інформації з відеосенсора може бути ефективно використана при реалізації стратегії «механізмів уваги»:

У ряді випадків обробка зображення на цьому завершується, в інших випадках, впев­нившись, що знайдений об'єкт є шуканим, продовжується процедура слідкування за ним.

У режимі слідкування за об'єктом чи просто при необхідності зчитування тільки частини відеокадру, яка цікавить, із зображення вирізується і зчитується тільки відповідна частина відеокадру, що дає скорочення необхідної кількості інформації як співвідношення площ повного кадру і частини кадру. Крім того, у цьому випадку також можливе представлення частини зображення, що зчитується, у виді приростів, як описано вище, із прив'язкою до значення відповідної яскравості (чи колірності) у попередньому кадрі чи в кутовій точці кадру, що зчитується. При спостереженні одночасно за декількома об'єктами в оцінці ентропії враховується сумарна площа виділених прямокутників з об'єктами.

Залежно від абсолютного значення приросту яскравості (колірності) між кадрами, від інтегральної величини змін чи від швидкості переміщення зображення в кадрі, а також від величини експозиції, можлива зміна в процесі відеозйомки частоти кадрів (тобто кроку дискретизації за часом ∆t), а отже, і ентропії відеопослідовності, без істотної зміни якості системи технічного зору.

При зйомці поворотною відеокамерою (із секторним чи круговим оглядом) чи зйомці відеокамерою, установленою на транспортному засобі, традиційно зйомка здійснюється з постійною частотою кадрів і з перекриттям зображень у сусідніх кадрах, що забезпечує збереження руху у відеопослідовності. За рахунок перекриття кадрів, величина яких залежить від співвідношення швидкості руху чи повороту камери і частоти зйомки кадрів, а також кута огляду відеокамери, виникає деяка надлишковість у цифровому представленні відеопослідовності. Ця надлишковість може бути усунута шляхом зчитування (чи виділення) тільки нової інформації від кадру до кадру.

Її ентропія в кожному кадрі визначиться за однєю з формул:

де , Хі - координата поточного зображення, по якій здійснюється під стиковка його до попереднього зображення. Аналогічно визначається ентропія і для двокоординатного панорамування.

Якщо швидкість руху чи повороту є постійною і дальність до панорами залишається приблизно тією ж, то координата Хі може бути приблизно визначена розрахунком чи експериментально. Тоді для побудови панорамного зображення необхідно тільки її уточнити. При змінній швидкості руху чи повороту доцільне використання датчиків положення відеокамери, тому що математичні методи пошуку зони стикування відеокадрів вимагають великих обчислювальних витрат.

Іншою проблемою, що виникає при панорамуванні, є забезпечення плавного стикування відеокадрів. Залежно від вимог до якості панорамного зображення вико­ристовуються або прості методи фільтрації, або більш складні методи з корекцією геометричних спотворень.

При панорамуванні забезпечується значна компресія зображень, що визначається ступенем перекриття площ кадрів у відеопослідовності. Панорамування в системах кругового огляду, крім значної компресії зображення, створює передумови для автоматичного визначення змін, що відбуваються між оборотами відеокамери. Доцільне використання панорамування і для спрощення монтажу довільних відеопослідовностей, як у функції координат, так і часу. Для цього на статичному панорамному зображенні задається довільна траєкторія координат центра рамки, що виділить і сформує задану відеопослідовність.

Приклади реалізації інтелектуальних відеопристроїв

Деякі з цих принципів вже реалізовані в ряді пристроїв та систем:

- інтелектуальній відеокамері;

- пристрої контролю якості, форми та розмірів продукції, ідентифікації об'єктів за заданими характеристиками;

- цифровому оптичному капіляроскопі для неінвазивного контролю мікроцирку-ляторної ланки кровообігу людини;

- гемодинамічній лабораторії «МікроМакроПотоІо> для контролю системи кровообігу на макро- і макрорівнях та показали значне підвищення оперативності і ефективності систем технічного зору.

Отже, Забезпечення можливості управління параметрами зчитування інформації з відеосенсора та використання різних мір інформації для різних задач і режимів, створює умови інтелектуального сприйняття відеоінформації за рахунок значного підвищення вибірковості та адаптації пристрою під задачі, спрощує обробку та підвищує оперативність і ефективність систем технічного зору.

  1. 1.7    ІНТЕЛЕКТУАЛЬНІ ВІДЕОСИСТЕМИ РЕАЛЬНОГО ЧАСУ

Системи технічного зору, робот комплекси, системи віртуальної реальності, системи охорони та оборонного призначення, ряд систем в медицині та біології тощо являються системами реального часу. В залежності від функцій, які виконуються відеосистемами в реальному часі, можна виділити:

- системи реєстрації відеоінформації (передача, запам’ятовування);

- системи генерації зображень (генерація/синтез зображень, ігри тощо);

- системи із зворотним зв'язком (слідкування за вимірювання геометричних виробничих процесів, якості продукції, робототехнічні комплекси, транспортними засобами тощо), в яких обробки інформації в реальному часі управління процесом або інших дій. Ці системи висувають найбільш високі вимоги до продуктивності обчислювальних засобів і, особливо, до запізнювання інформації в контурі зворотного зв'язку.

В цих умовах, крім виконання основних по уведенню та обробленню відеоінформації повинні мати можливості адаптації до: типу (сонячне, від лами розжарювання, люмінесцентне, світлодіодне тощо), змін яскравості, змін відстані до об'єкта спостереження (тобто автоматичне фокусування) тощо. Але ці процеси адаптації, звичайно, значно повільніші порівняно з досліджуваними сценами або рухомими об'єктами, таму вони здійснюються з меншою дискретністю у часі.

Найбільшої продуктивності вимагає попередня законів розподілу значень яскравості чи колірності, Фур'с-перетворення, сегментація, виділення динамічних змін, контурів і об'єктів із заданими властивостями, визначення параметрів афінних перетворень та нормалізація зображень тощо. Попередня обробка зображень здебільше виконується багаторазово над кожним пікселом, тому й вимагає значно більше часу.

Стан проблеми

Для побудови відеосистем реального часу використовують традиційні (звичайні) відеокамери з фіксованими параметрами зчитування відеоінформації з сенсора, (що зумовлює велику надлишковість подання зображень і відео послідовностей), покадровим уведенням і обробкою інформації, пристосувавши їх конструктивно до виробничих умов. Відеокамера і процесор не інтегруються в одному пристрої, що приводить до передачі значних масивів інформації між ними.

Для визначення об'єму інформації у відеопослідовності звичайно використовується потенційна оцінка на основі амплітудно-просторової та часової роздільності

[TEX]C_{в.п.} = \frac{Х}{\Delta х} \cdot \frac{Y}{\Delta y} \cdot log_{2}(\frac{Z}{\delta z} + 1)\frac{1}{\Delta t}[/TEX]

де X і V - розміри поля зображення; Z - координата яскравості зображення; Δх, Δу, δz, Δt - дискретність представлення відповідних координат зображення.

Значення X, Y і Z у формулі прийняті фіксованими і рівними максимальному значенню, фіксованими є і значення Δх, Δу, δz, Δt , тому такий підхід дає оцінку зверху кількості інформації, що є дуже завищеною і не вказує шляхів скорочення надлишковості цифрового представлення зображень.

Потенційна оцінка відбиває методи і засоби знімання зображень за допомогою традиційних відеокамер і використовується при розрахунку необхідної пропускної здатності каналів зв'язку для передачі зображення, об'єму пам'яті для збереження зображення і продуктивності обчислювальних засобів для його обробки.

Методи компресії статичних і динамічних зображень розроблялись для систем передачі та запам'ятовування інформації, вони зовсім не придатні для систем реального часу із зворотним зв'язком та не забезпечують мінімізації запізнення інформації. Послідовний процес уведення кадру зображення, а потім його оброблення, приводять до затримки інформації в контурі зворотного зв'язку як сума часу виконання цих двох процесів, навіть при виконанні їх у конвеєрі. При розв'язанні практичних задач традиційно використовуються статичні моделі, які не враховують знання, отримані на попередньому кадрі, що приводить до втрати ефективності.

Для швидкого пошуку об'єкта в зображенні використовуються механізми уваги, які базуються на принципах ієрархічної або пірамідальної організації зорового аналізатора людини, для чого найбільш часто використовують піраміди Лапласа або Гаусса, які дійсно забезпечують значне стиснення при передачі зображення і можливість відновлення зображення. Але така процедура не відповідає процесам сприйняття зображень в зоровому аналізаторі людини, а в системах реального часу, вимагаючи значної обробки інформації, приводить до значних затримок інформації в контурі зворотного зв'язку.

Таким чином, традиційні основи і принципи побудови відеосистем реального часу не враховують особливостей роботи в реальному часі та розв'язуваних задач, як в методичному, так і в інформаційному та технічному планах.

Постановка задачі

Проблема сприйняття і обробки зображень в системах реального часу вимагає розробки нових інформаційних основ з мінімальною надлишковістю інформації, нових принципів побудови відеокамер з можливістю зміни параметрів для адаптації їх під вимоги конкретної задачі, нових динамічних моделей і механізмів для швидкого пошуку об'єктів та слідкування за ними, нових архітектур паралельних процесорів для обробки зображень.

Тому завданням є вдосконалення інформаційних основ підвищення вибірковості, розробка динамічних моделей та принципів управління параметрами зчитування відеоінформації, вдосконалення принципів ієрархічного інтелектуального сприйняття та швидких методів пошуку, принципів суміщення уводу з обробкою інформації та паралельної обробки інформації безпосередньо на сенсорі.

Зоровий аналізатор людини як прототип систем технічного зору

Для оптимізації процесів уведення, сприйняття та обробки зображень в якості прототипу розглядається зоровий аналізатор людини, який вдосконалювався на протязі тисячоліть існування людства. Аналіз зорового аналізатора людини дозволив виділити близько 300 його функцій, конструктивних (структурних) та фізичних особливостей будови, механізмів та процесів, які відбуваються в зоровій системі.

Найбільш важливими з них для забезпечення високих вимог реального часу є наступні:

Висока вибірковість зорового аналізатора базується на широкому полі огляду периферійного зору з невисокою роздільною здатністю, яке реалізує функції збудження та спрямування погляду (механізм уваги) і концентрації роздільної здатності а зоні ямки сітківки ока, яка служить як деякий зонд для дослідження зовнішнього світу. Високорівневе управління рухами очей визначається поставленою задачею (пошук, розглядання, стеження, розпізнавання тощо) та забезпечує розв'язання цих задач.

Запропонований метод інтелектуального селективного сприйняття, по аналогії з зоровим аналізатором людини, дозволяє значно зменшити кількість оброблюваної інформації, підвищити продуктивність І ефективність систем технічного зору. При цьому розроблені оригінальні методи швидкого пошуку за ознаками кольору, руху, текстури та форми.

Технічні можливості сучасних відеосенсорів, побудованих по КМОН-технології, дозволяють перепрограмування в процесі сприйняття відеоінформації на зчитування розрідженого, фізично повного або більш детального (з інтерполяцією між сусідніми пікселами) зображення.

У той же час, відеосистеми реального часу при роботі в автоматичному режимі крім адаптації до умов відеознимки для ефективної роботи системи вимагають ще й адаптації до розв'язуваної задачі, що може бути забезпечено шляхом врахування деяких особливостей задачі та за рахунок зміни зазначених параметрів зчитування зображень і відеопослідовностей. Тому така спеціалізація в поданні зображень і відеопослідовностей дозволяє одержати нові шляхи підвищення вибірковості та зменшення надлишковості.

Крім грубо-точного сприйняття візуальної інформації по простору {тобто в координатах X, Y) око людини реагує не на величину яскравості або колірності в зображенні, а на зміни цих величин між значеннями яскравості сусідніх рецепторів, або значеннями яскравості даного рецептора у часі, тобто на динаміку цього параметру.

В залежності від динаміки процесів, які спостерігає зорова система людини, від рівня освітлення, необхідності розглядання великих або мілких деталей в зображенні, діють адаптаційні механізми, що управляють типами рухів очей, їх швидкістю, чутливістю рецепторів тощо. Тому і в системах технічного зору також доцільно управляти частотою зчитування відеоінформації, коефіцієнтом підсилення та розрядністю її подання.

Таким чином, для реалізації інтелектуального вибіркового сприйняття зображень необхідно забезпечити наступні можливості:

В залежності від поставленої перед системою технічного зору задачею можна виділити ряд типових режимів або етапів, які по аналогії пов'язані з рухами очей та особливостями сприйняття відеоінформації зоровим аналізатором людини:

Можливість управління параметрамизч итування інформації з відеосенсора може бути ефективно використана при реалізації стратегії "механізмів уваги", яка базується на швидкому. грубому аналізі статичного або динамічного зображення, з послідуючим детальним аналізом знайденого об'єкта з метою виділення яких-небудь характерних інформаційних ознак: яскравісних, колірних, динамічних, геометричних (меж областей, горизонтальних та вертикальних ліній, кутів тощо). Стратегія є адаптивною, тобто пристосовується до статистики ознак зображення, та дозволяє значно зменшити загальний обсяг обчислень.

Крім забезпечення можливості управління параметрами зчитування інформації край важливим для систем технічного зору є суміщення процесів уведення зображення з його обробкою у часі, що реалізується з допомогою каналів прямого доступу до пам'яті сучасних процесорів цифрової оброби) сигналів. Суміщення процесів дозволяє після закінчення уводу зображення з мінімальною затримкою у часі визначити параметри управління відеосенсором на наступний кадр зображення, тобто значно зменшити затримку інформації в контурі зворотного зв'язку.

Таким чином, забезпечення можливості управління параметрами зчитування інформації з відеосенсора, суміщення уводу інформації з її обробкою та використання різних мір інформації для різних задач і режимів, створює умови інтелектуального сприйняття відеоінформації за рахунок значного підвищення вибірковості та адаптації пристрою під особливості задач, спрощує обробку та підвищує оперативність і ефективність систем технічного зору.

 

 


© 2023 СумДУ
created with Lectur'EDbeta