Перейти к содержимому


Фото
- - - - -

Новый агент


  • Закрыто Тема закрыта
269 ответов в этой теме

#221 ArD

ArD

    Member

  • Posters
  • 102 Сообщений:

Отправлено 08 Апрель 2011 - 20:29

Да .. получается после второй перезагрузки... просто скажем не сразу он просит 2 перезагрузку... не минута не пять... но тем не менее работает: W2k3 Ent SP2 x86.

Это время завит от текущей загруженности сервера и его каналов - чем сильнее все нагружено, тем дольше ждать.
Если во время нормальной работы часто случаются сбои в обновлениях станций, то стот задуматься о переходе на внешнюю базу данных, если используется внутренняя, и/или увеличении ресурсов сервера.

#222 ArD

ArD

    Member

  • Posters
  • 102 Сообщений:

Отправлено 08 Апрель 2011 - 20:44

PS: проблема до сих пор не решена с 5 апреля! Ничего конкретного, окромя предложений покупателям прыгать с бубнами вместе с вами.


В техподдержку обращались? Если да, то сообщите, пожалуйста, номер запроса мне в ЛС. Не верю что ничего конкретного Вам не предложили совсем.

Смысл какой если с самого начала стало понятно, что это ваш косяк? Все варианты исправления выкладывались в этой ветке. Что интересно нового и действенного мне могли там предложить? Сносить и ставить агентов руками? Полагаю, многие потерпевшие с маленькими сетями именно так и сделали. Или я таким образом пропустил раздачу неких утешительных призов?

По мне так было достаточно паники в этой ветке.

Последний релиз утилиты наконец заработал. Прошло ровно трое суток. Мои подчиненные опять проведут бессонную ночь. Большое вам человеческое от них спасибо.

Сносить и ставить агентов руками думаю саппорт не предлагал никому.
В этой ветке писали такие же пользователи как и вы, которые нашли свои решения данной проблемы и делились ими.
Одним из людей, что поднимали панику в этой ветке были вы - большинство конструктивно обсуждали методы решения проблемы, а не флудили понапрасну.
Одно из средств от бессонных ночей ваших подчиненных опубликовано в wiki по ссылке несколькими постами выше - можете прочесть если вас так заботит хороший сон ваших сотрудников.
Мои подчиненные спокойно спали ночами и все уже починили - конечно же если вы и ваши подчиненные не хотите работать головой, тогда да, работайте ногами, и не спите ночами. :P

Сообщение было изменено ArD: 08 Апрель 2011 - 20:46


#223 pfin

pfin

    Newbie

  • Posters
  • 13 Сообщений:

Отправлено 08 Апрель 2011 - 23:41

Сносить и ставить агентов руками думаю саппорт не предлагал никому.
В этой ветке писали такие же пользователи как и вы, которые нашли свои решения данной проблемы и делились ими.
Одним из людей, что поднимали панику в этой ветке были вы - большинство конструктивно обсуждали методы решения проблемы, а не флудили понапрасну.
Одно из средств от бессонных ночей ваших подчиненных опубликовано в wiki по ссылке несколькими постами выше - можете прочесть если вас так заботит хороший сон ваших сотрудников.
Мои подчиненные спокойно спали ночами и все уже починили - конечно же если вы и ваши подчиненные не хотите работать головой, тогда да, работайте ногами, и не спите ночами. :P

И откуда такая уверенность...

Цитата от саппорта:

------------------------

На данный момент после анализа ситуации могу предложить следующее: 

1. Обновить репозиторий сервера до актуального состояния. 
2. В конфигурации сервера, установить режим "Переводить не авторизованных в новички" 
3. Далее самое непростое: 
из каталога агента нужно тем или иным способом удалить файл drwagntd.dbs (что, не тривиально, т.к. служба агента не стартует) 
варианты - загружаться из другой системы или с liveCD. 
--------------------------

Видимо, я просто не понял - liveCD подразумевалось вставлять ногами, а не руками. Если Ваши подчиненные так все быстро починили, то вероятно Вам разрешен какой-то (например, удаленный) доступ к компьютерам и их разрешено в какие-то моменты времени (возможно по согласованию с пользователем) перезагружать. Позвольте полюбопытствовать, - сколько у Вас было пострадавших компьютеров?
Не сомневаюсь, что у Вас очень работающая голова, тем не менее я бы поостерегся так быстро делать выводы. В некоторых компаниях могут быть совсем другие условия. У меня, например, о десятиминутной перезагрузке сервера в 2 часа ночи подается заявка за 7 дней, а чтобы удаленно подключиться к компьютеру пользователя порой приходится ждать два-три дня.


Я очень рад, что все так хорошо разрешилось. Тем не менее считаю, что в корпоративном секторе право на подобного рода ошибки отсутствует и наша  уважаемая компания весьма серьезно подмочила свою репутацию. Но будем надеяться, что она скоро реабилитируется и будет дальше восхищать нас своими передовыми разработками. Всегда хочется верить в лучшее.

#224 ArD

ArD

    Member

  • Posters
  • 102 Сообщений:

Отправлено 09 Апрель 2011 - 01:00

Сносить и ставить агентов руками думаю саппорт не предлагал никому.
В этой ветке писали такие же пользователи как и вы, которые нашли свои решения данной проблемы и делились ими.
Одним из людей, что поднимали панику в этой ветке были вы - большинство конструктивно обсуждали методы решения проблемы, а не флудили понапрасну.
Одно из средств от бессонных ночей ваших подчиненных опубликовано в wiki по ссылке несколькими постами выше - можете прочесть если вас так заботит хороший сон ваших сотрудников.
Мои подчиненные спокойно спали ночами и все уже починили - конечно же если вы и ваши подчиненные не хотите работать головой, тогда да, работайте ногами, и не спите ночами. :P

И откуда такая уверенность...

Цитата от саппорта:

------------------------

На данный момент после анализа ситуации могу предложить следующее: 

1. Обновить репозиторий сервера до актуального состояния. 
2. В конфигурации сервера, установить режим "Переводить не авторизованных в новички" 
3. Далее самое непростое: 
из каталога агента нужно тем или иным способом удалить файл drwagntd.dbs (что, не тривиально, т.к. служба агента не стартует) 
варианты - загружаться из другой системы или с liveCD. 
--------------------------

Видимо, я просто не понял - liveCD подразумевалось вставлять ногами, а не руками. Если Ваши подчиненные так все быстро починили, то вероятно Вам разрешен какой-то (например, удаленный) доступ к компьютерам и их разрешено в какие-то моменты времени (возможно по согласованию с пользователем) перезагружать. Позвольте полюбопытствовать, - сколько у Вас было пострадавших компьютеров?
Не сомневаюсь, что у Вас очень работающая голова, тем не менее я бы поостерегся так быстро делать выводы. В некоторых компаниях могут быть совсем другие условия. У меня, например, о десятиминутной перезагрузке сервера в 2 часа ночи подается заявка за 7 дней, а чтобы удаленно подключиться к компьютеру пользователя порой приходится ждать два-три дня.


Я очень рад, что все так хорошо разрешилось. Тем не менее считаю, что в корпоративном секторе право на подобного рода ошибки отсутствует и наша  уважаемая компания весьма серьезно подмочила свою репутацию. Но будем надеяться, что она скоро реабилитируется и будет дальше восхищать нас своими передовыми разработками. Всегда хочется верить в лучшее.

Уважаемый pfin !
То, что вам ответил саппорт не является предложением удалять и устанавливать (т.е. переустанавливать) агента. Если вы начнете все же внимательно читать, то что вам пишут, то вы заметите, что саппорт вам предлагал удалить один файл, мешающий запуску агента на станциях. Если вы прочтете сообщение Herr Wankel, ответ на который вы процитировали, то увидите, что он писал о переустановке агентов, а не удалении файлов, на что и получил соответствующий ответ. Это во-первых.
Во-вторых, я думаю, что такая рекомендация давалась саппортом до выхода в свет первой версии утилиты, решающей проблему. Первая версия утилиты вышла утром следующего после происшествия дня, поэтому уже на тот момент можно было начать исправлять компьютеры, которые проблема затронула.
В третьих. Удаленный доступ к компьтерам и у нас запрещен, как бы странным вам это не показалось. Перезагружать - да, тогда когда удобно пользователю - а у вас по-другому? И на что здесь в общем-то перезагрузка влияет?
У нас пострадало компьютеров не так много - где-то около сотни из более чем 1000, правда они находятся на нескольких территориях в разных концах города, но не суть.
О том, как работает моя голова и головы моих сотрудников говорит то, что когда другие стонали о том, сколько дней прошло и сколько бессонных ночей они провели в ожиданиях решения проблемы и утверждениях на форуме о том, что раз все автоматически сломалось, то должно и починиться автоматически, и при этом как нарочно игнорировали те подсказки, что им давались, у нас уже все работало и никаких проблем не возникало.
Еще сутки, если не боьше, назад я писал о том, что предложенной утилитой можно воспользоваться из логон скрипта на что, в том числе и вы, не обратили внимание. Это позволит избежать дополнительных перезагрузок, заявок на удаленный доступ и прочей лабуды о которой вы сейчас писали - или у вас и пользовательские машины работают не выключаясь?
Заявка на перезагрузку сервера за 7 дней - хорошо. Каким образом тогда у вас в регламенте прописана процедура обновления антивирусных компонентов на сервере, которая на самом деле сложно предсказуема - вы тоже ждете 7 дней? Я в этом сильно сомневаюсь. Каким образом описаны нештатные ситуации и действия, связанные с необходимостью выключать/перезагружать аппаратное обеспечение? Тоже 7 дней? :P
Если в вашей компании такие высокие требования к доступности сервисов, то объясните мне, каким образом без резервирования в том числе и аппаратного обеспечения вы их осуществляете? У нас все сервисы, которым необходима доступность 99,999% зарезервированы и перезагрузка одного сервера (а обычно и не одного) никаким образом не скажется ни на чем. У вас по-другому? Тогда поверьте мне - доступность ваших важных сервисов непредсказуема. :P
Если вы не можете обеспечить нормальное функционирование ваших сервисов в ситуациях подобных этой, то видимо что-то необходимо менять у вас, а не пенять на других.
Я тоже считаю, что в корпоративном секторе такие ошибки не допустимы, но я уверен что вся корпоративная инфраструктура должна быть подготовлена к таким ошибкам, т.к., как показывает практика, они случаются, и от вендора ПО это не коим образом не зависит. А вот те меры которые предпринимаете вы лично для успешного выхода из подобных ситуаций в вашей организации - это целиком и полностью ваша ответственность, а не чья-то еще.
То, что наша организация смогла быстро решить возникшую проблему - а ваша нет, это показатель того, насколько ваша IT инфраструктура, и все что ее окружает, подготовлена к подобного рода событиям - т.е. грубо говоря она оказалась не готова. И дело не в количестве пострадавших компьютеров - если бы даже у нас отвалились все 1000 с лишним агентов результат был бы таким же. В чем причина ваших проблем - отсутствие нужных программно-аппаратных средств, знаний, регулирующих документов - не важно. Важно то, что вы не смогли подготовить свою IT инфраструктуру к этому - значит не захотели/не смогли во время поработать головой. Поэтому как я уже раньше говорил - кто не хочет работать головой - работает ногами. Выводы делайте сами.

#225 Herr Wankel

Herr Wankel

    Newbie

  • Posters
  • 9 Сообщений:

Отправлено 09 Апрель 2011 - 07:56

это... мериться одним местом конечно можно, но не вижу смысла...
У меня и полагаю у большинства все тоже было и есть под контролем.

Вы только подтвердили мое предположение, что саппорт и рассчитывал, что корпоративщики как-нибудь сами разберутся и зачем тогда торопиться. Я же плачу деньги за продукт не для того, чтобы он прибавлял мне такого рода проблем.

И еще по-поводу переустановки клиентов. Формально предложенное решение совершенно недалеко ушло. Агенты цепляются заново, статистика вся теряется, для возврата работоспособности требуется такое же количество перезагрузок. Руками нужно убивать старых в админке и еще 33 удовольствия.

#226 Herr Wankel

Herr Wankel

    Newbie

  • Posters
  • 9 Сообщений:

Отправлено 09 Апрель 2011 - 08:06

Хорошо могут работать только красивые решения. Они могли бы сделать универсальное централизованное средство для возможных будущих проблем, а сделали одноразовую затычку.

#227 ArD

ArD

    Member

  • Posters
  • 102 Сообщений:

Отправлено 09 Апрель 2011 - 09:29

это... мериться одним местом конечно можно, но не вижу смысла...
У меня и полагаю у большинства все тоже было и есть под контролем.

И я тоже поверьте не собираюсь и не собирался мерятся - меня спросили я ответил. :P

Вы только подтвердили мое предположение, что саппорт и рассчитывал, что корпоративщики как-нибудь сами разберутся и зачем тогда торопиться. Я же плачу деньги за продукт не для того, чтобы он прибавлял мне такого рода проблем.

Совершенно не согласен - я такого не говорил и даже уверен в обратном - была проделана большая работа - это нам она не особо видна. Чтобы выпустить даже такую мелкую утилиту для исправления этого происшествия, нужно провести много тестов, плюс учесть все те варианты, которые выявились в процессе исправления, и при этом ничего не сломать, т.е. не сделать еще хуже. Никто никого бросать не собирался. Кстати, я к саппорту не отношусь, да и Dr.Web'e не работаю... поэтому не совсем понимаю как я мог подтвердить ваши предположения.
Мы все платим деньги за продукт и надеемся что никаких проблем не будет. Реалии же современного софтостроения таковы, что что-нибудь, но обязательно случается. Кстати, на моей памяти это первый масштабный косяк с ЕСом за все время его существования, но ОС на машинах цела и работоспособность сети и служб нарушена не была, так что вредоносность данного события каждый может оценивать по-своему. Мне кажется, что она низкая.

И еще по-поводу переустановки клиентов. Формально предложенное решение совершенно недалеко ушло. Агенты цепляются заново, статистика вся теряется, для возврата работоспособности требуется такое же количество перезагрузок. Руками нужно убивать старых в админке и еще 33 удовольствия.

Ушло достаточно далеко, т.к. не вставая с места все можно починить. Переустановка таких "подбитых" агентов думаю не всегда бы проходила гладко и требовалось бы присутствие рядом с машиной.
Что-то более продвинутое писать и тестировать думаю времени не было. Все, что касается выполнения каких-либо задач на сервере и дополнительной автоматизации потребует его обновления а это отдельная процедура, причем не очень простая, плюс многоплатформенность затягивает процесс тестирования в данном случае.
Агенты цепляются заново - да, но их достаточно быстро можно снова раскидать по группам, плюс последняя версия утилиты пытается восстановить ID там, где это возможно.
Статистика - не особо интересна - да бывает нужна для отчетов, но не более, не знаю как у вас.
С непоследней версией утилиты вроде бы обошлись одной перезагрузкой, добавив ее запуск в логон скрипт. Т.е. формально перезагрузок две - но одна убралась за счет того, что совпала с включением компьютеров.
Старые машины в админке убивать не стоит если нужна статистика. А так, да придется убивать в ручную или настроить расписание на сервере для удаления станций не подключавшихся сколько-то дней.

Хорошо могут работать только красивые решения. Они могли бы сделать универсальное централизованное средство для возможных будущих проблем, а сделали одноразовую затычку.

ИМХО сделают и хорошее и красивое и универсальное. Но на его реализацию нужно время, которого не было. Поэтому сейчас - затычка, потом что-то более продвинутое, т.к. и затычки в авральном режиме выпускать, если что-то случится, тоже никому не хочется.

#228 Dmitry Kirushev

Dmitry Kirushev

    Newbie

  • Posters
  • 44 Сообщений:

Отправлено 09 Апрель 2011 - 10:22

Все варианты исправления выкладывались в этой ветке.

- репосты полученных от техподдержки вариантов и совместный активный обмен информацией для уточнения картины.

Что интересно нового и действенного мне могли там предложить? Сносить и ставить агентов руками? Полагаю, многие потерпевшие с маленькими сетями именно так и сделали. Или я таким образом пропустил раздачу неких утешительных призов?

- саппорт работал и сработал неплохо. Первая же версия утилиты в полученная в ~11 утра уже могла вылечить часть машин.
А основную часть паники мы, например, погасили буквально через час. Анализ ситуации показал, что максимум, что произошло - отсутствие статистики и управления на короткий промежуток времени. Наличие механизмов управления клиентами не ограничивается WEB консолью ES. Нежелание (или неумение?) искать вариант решения параллельно с саппортом - это отмазки.

По мне так было достаточно паники в этой ветке.

- значит наличие оправдания достаточно для вашей инфраструктуры.

Последний релиз утилиты наконец заработал. Прошло ровно трое суток. Мои подчиненные опять проведут бессонную ночь. Большое вам человеческое от них спасибо.

- меняйте подчиненных, раз не умеют автоматизировать очевидные вещи.
Тупое универсальное решение - для некритичных сеток со слабой неквалифицированной поддержкой на местах. Для "эникейщиков". А для таких сеток полное решение за 3 дня - вполне терпимый срок.
Кому было нужно - решили проблему с помощью саппорта в нормальный срок. Без потерь для бизнеса.

#229 Ko6Ra

Ko6Ra

    Supporter

  • Posters
  • 3 308 Сообщений:

Отправлено 09 Апрель 2011 - 11:25

PS: проблема до сих пор не решена с 5 апреля! Ничего конкретного, окромя предложений покупателям прыгать с бубнами вместе с вами.


В техподдержку обращались? Если да, то сообщите, пожалуйста, номер запроса мне в ЛС. Не верю что ничего конкретного Вам не предложили совсем.

Смысл какой если с самого начала стало понятно, что это ваш косяк? Все варианты исправления выкладывались в этой ветке. Что интересно нового и действенного мне могли там предложить? Сносить и ставить агентов руками? Полагаю, многие потерпевшие с маленькими сетями именно так и сделали. Или я таким образом пропустил раздачу неких утешительных призов?

По мне так было достаточно паники в этой ветке.

Последний релиз утилиты наконец заработал. Прошло ровно трое суток. Мои подчиненные опять проведут бессонную ночь. Большое вам человеческое от них спасибо.


Что тут сказать. Лично у меня, как и у других сотрудников техподдержки, не было времени чтобы просто зайти в эту ветку и посмотреть. Вся работа велась в наших интерфейсах.
Могу сказать что решения в виде LiveCD выдавались до того как появилась первая версия утилиты, т.к. других нормальных способов на тот момент не было. Вся информация оперативно выдавалась в том случае, если у обращающихся было желание решить возникшую проблему, а не отметать все варианты со словами "Это нам не подходит. Сделайте так, чтобы я нажал одну кнопку и мне стало хорошо".

В т.ч. в техподдержке выдавались версии утилиты, которые вот только были написаны и до попадания в tools могли пройти часы. И да, паника конечно имеет место быть, но решения были и до последней версии утилиты.

ыЫ


#230 pfin

pfin

    Newbie

  • Posters
  • 13 Сообщений:

Отправлено 09 Апрель 2011 - 11:29

Уважаемый pfin !
То, что вам ответил саппорт не является предложением удалять и устанавливать (т.е. переустанавливать) агента. Если вы начнете все же внимательно читать, то что вам пишут, то вы заметите, что саппорт вам предлагал удалить один файл, мешающий запуску агента на станциях. Если вы прочтете сообщение Herr Wankel, ответ на который вы процитировали, то увидите, что он писал о переустановке агентов, а не удалении файлов, на что и получил соответствующий ответ. Это во-первых.
Во-вторых, я думаю, что такая рекомендация давалась саппортом до выхода в свет первой версии утилиты, решающей проблему. Первая версия утилиты вышла утром следующего после происшествия дня, поэтому уже на тот момент можно было начать исправлять компьютеры, которые проблема затронула.
В третьих. Удаленный доступ к компьтерам и у нас запрещен, как бы странным вам это не показалось. Перезагружать - да, тогда когда удобно пользователю - а у вас по-другому? И на что здесь в общем-то перезагрузка влияет?
У нас пострадало компьютеров не так много - где-то около сотни из более чем 1000, правда они находятся на нескольких территориях в разных концах города, но не суть.
О том, как работает моя голова и головы моих сотрудников говорит то, что когда другие стонали о том, сколько дней прошло и сколько бессонных ночей они провели в ожиданиях решения проблемы и утверждениях на форуме о том, что раз все автоматически сломалось, то должно и починиться автоматически, и при этом как нарочно игнорировали те подсказки, что им давались, у нас уже все работало и никаких проблем не возникало.
Еще сутки, если не боьше, назад я писал о том, что предложенной утилитой можно воспользоваться из логон скрипта на что, в том числе и вы, не обратили внимание. Это позволит избежать дополнительных перезагрузок, заявок на удаленный доступ и прочей лабуды о которой вы сейчас писали - или у вас и пользовательские машины работают не выключаясь?
Заявка на перезагрузку сервера за 7 дней - хорошо. Каким образом тогда у вас в регламенте прописана процедура обновления антивирусных компонентов на сервере, которая на самом деле сложно предсказуема - вы тоже ждете 7 дней? Я в этом сильно сомневаюсь. Каким образом описаны нештатные ситуации и действия, связанные с необходимостью выключать/перезагружать аппаратное обеспечение? Тоже 7 дней? :P
Если в вашей компании такие высокие требования к доступности сервисов, то объясните мне, каким образом без резервирования в том числе и аппаратного обеспечения вы их осуществляете? У нас все сервисы, которым необходима доступность 99,999% зарезервированы и перезагрузка одного сервера (а обычно и не одного) никаким образом не скажется ни на чем. У вас по-другому? Тогда поверьте мне - доступность ваших важных сервисов непредсказуема. :P
Если вы не можете обеспечить нормальное функционирование ваших сервисов в ситуациях подобных этой, то видимо что-то необходимо менять у вас, а не пенять на других.
Я тоже считаю, что в корпоративном секторе такие ошибки не допустимы, но я уверен что вся корпоративная инфраструктура должна быть подготовлена к таким ошибкам, т.к., как показывает практика, они случаются, и от вендора ПО это не коим образом не зависит. А вот те меры которые предпринимаете вы лично для успешного выхода из подобных ситуаций в вашей организации - это целиком и полностью ваша ответственность, а не чья-то еще.
То, что наша организация смогла быстро решить возникшую проблему - а ваша нет, это показатель того, насколько ваша IT инфраструктура, и все что ее окружает, подготовлена к подобного рода событиям - т.е. грубо говоря она оказалась не готова. И дело не в количестве пострадавших компьютеров - если бы даже у нас отвалились все 1000 с лишним агентов результат был бы таким же. В чем причина ваших проблем - отсутствие нужных программно-аппаратных средств, знаний, регулирующих документов - не важно. Важно то, что вы не смогли подготовить свою IT инфраструктуру к этому - значит не захотели/не смогли во время поработать головой. Поэтому как я уже раньше говорил - кто не хочет работать головой - работает ногами. Выводы делайте сами.


Вы опять очень быстро делаете выводы. Еще раз повторю, помимо Вашей организации существуют другие. И в них бизнес-процессы могут существенным образом отличаться от Ваших. 1. Есть компании, особенно среди сертифицированных по ISO9001, которые даже не начнут ремонт своей системы, не получив соответствующих инструкций и рекомендаций (вполне возможно - письменных) от компании-разработчика ПО. А если начнут - то первый отремонтированный компьютер - станет последним. Максимум, что разрешат - последний раз зайти на сайт job.ru. Честь Вам и хвала, что Вы быстро решили проблему, но еще раз напоминаю, не стоит строить умозаключений насчет работоспособности чужих голов. 2. В разных компаниях ИТ-технологии используются для разных целей. Вы очень удивитесь, но есть медицинские клиники, в которых компьютеры подключены к медицинскому оборудованию, которые обслуживают, например, систему микроклимата инкубатора для недоношенных детей, к которым подключены магнито-резонансные томографы, компьютерные томографы, УЗИ, лабораторное оборудование и т.д. Которые работают в операционных, реанимациях, родильных отделениях, лабораториях и т.д. и т.п. И на этих компьютерах также установлен DrWeb. Правило одно - никаких ремонтов, пока к оборудованию подключены люди. Это и есть другие бизнес-процессы. 3. Насчет доступности сервисов Вы абсолютно правы. Все серверы, включая DrWeb, у нас крутятся на много-нодовых кластерах, дисковая подсистема - система хранения подключенная к узлам, посредством SAN'овской сети. Первые блоки питания всех узлов кластера, контроллеров системы хранения, дисковых полок и т.д. подключены к UPS#1 12kVA, вторые к аналогичному UPS#2. Каждый UPS подключен к своему дизель-генератору (выход на мощность 10-12 секунд). Осуществляется мониторинг параметров электропитания, температуры, влажности. При превышении - SMS'ка и ревун с маяком в комнате Секьюрити и т.д. и т.п. Когда два года назад в СПб был обесточен весь центральный район, не работали светофоры и все превратилось в одну большую пробку, мы этого даже не заметили. Только не понимаю причем тут DrWeb? Он не является первоочередным сервисом, не относится к первой категории, никто его резервировать не собирается, точно также, как и ремонтировать, не дождавшись официальных инструкций разработчика. 4.Заявки на удаленный доступ и перезагрузку серверов для Вас может быть и лабуда, но у нас так организованы бизнес-процессы. Я не телепат и не могу знать когда будет свободен МРТ и через сколько дней освободится инкубатор. И то, что я в таких условиях не имею право своевольничать, это тоже особенность наших бизнес-процессов. 5. То что Ваша организация сумела быстро решить проблему может быть для Вас и показатель. Но у нас совсем другая система показателей.

#231 Eugeny Gladkih

Eugeny Gladkih

    the Spirit of the Enlightenment

  • Dr.Web Staff
  • 5 295 Сообщений:

Отправлено 09 Апрель 2011 - 13:51

образом отличаться от Ваших. 1. Есть компании, особенно среди сертифицированных по ISO9001, которые даже не начнут ремонт своей системы, не получив соответствующих инструкций и рекомендаций (вполне возможно - письменных) от компании-разработчика ПО.


если бы так было, Вы бы не пострадали. в таких условиях непроверенные и не обкатанные в тестзоне обновления софта недопустимы. тем более в автоматическом режиме.

#232 ArD

ArD

    Member

  • Posters
  • 102 Сообщений:

Отправлено 09 Апрель 2011 - 14:17

Вы опять очень быстро делаете выводы. Еще раз повторю, помимо Вашей организации существуют другие. И в них бизнес-процессы могут существенным образом отличаться от Ваших. 1. Есть компании, особенно среди сертифицированных по ISO9001, которые даже не начнут ремонт своей системы, не получив соответствующих инструкций и рекомендаций (вполне возможно - письменных) от компании-разработчика ПО. А если начнут - то первый отремонтированный компьютер - станет последним. Максимум, что разрешат - последний раз зайти на сайт job.ru. Честь Вам и хвала, что Вы быстро решили проблему, но еще раз напоминаю, не стоит строить умозаключений насчет работоспособности чужих голов. 2. В разных компаниях ИТ-технологии используются для разных целей. Вы очень удивитесь, но есть медицинские клиники, в которых компьютеры подключены к медицинскому оборудованию, которые обслуживают, например, систему микроклимата инкубатора для недоношенных детей, к которым подключены магнито-резонансные томографы, компьютерные томографы, УЗИ, лабораторное оборудование и т.д. Которые работают в операционных, реанимациях, родильных отделениях, лабораториях и т.д. и т.п. И на этих компьютерах также установлен DrWeb. Правило одно - никаких ремонтов, пока к оборудованию подключены люди. Это и есть другие бизнес-процессы. 3. Насчет доступности сервисов Вы абсолютно правы. Все серверы, включая DrWeb, у нас крутятся на много-нодовых кластерах, дисковая подсистема - система хранения подключенная к узлам, посредством SAN'овской сети. Первые блоки питания всех узлов кластера, контроллеров системы хранения, дисковых полок и т.д. подключены к UPS#1 12kVA, вторые к аналогичному UPS#2. Каждый UPS подключен к своему дизель-генератору (выход на мощность 10-12 секунд). Осуществляется мониторинг параметров электропитания, температуры, влажности. При превышении - SMS'ка и ревун с маяком в комнате Секьюрити и т.д. и т.п. Когда два года назад в СПб был обесточен весь центральный район, не работали светофоры и все превратилось в одну большую пробку, мы этого даже не заметили. Только не понимаю причем тут DrWeb? Он не является первоочередным сервисом, не относится к первой категории, никто его резервировать не собирается, точно также, как и ремонтировать, не дождавшись официальных инструкций разработчика. 4.Заявки на удаленный доступ и перезагрузку серверов для Вас может быть и лабуда, но у нас так организованы бизнес-процессы. Я не телепат и не могу знать когда будет свободен МРТ и через сколько дней освободится инкубатор. И то, что я в таких условиях не имею право своевольничать, это тоже особенность наших бизнес-процессов. 5. То что Ваша организация сумела быстро решить проблему может быть для Вас и показатель. Но у нас совсем другая система показателей.

Что ж отвечу по-порядку.
1. Любая сертификация, и не только ISO9001 подразумевает, помимо всего прочего, описание решения штатных и внештатных ситуаций возникающих на производстве. Я у вас спросил каким образом в вашем случае регламентируются подобные ситуации - какие действия вы можете предпринять для решения сложившейся ситуации. Из ваших слов вытекает, что вы вообще ничего не можете сделать, или же подобная ситуация никоим образом не регламентирована, или вы не хотите отвечать, или не знаете ответа на это вопрос. Я не спрашивал, заметьте, можете ли вы сами ремонтировать аппаратное обеспечение, но почему-то ваш ответ свелся именно к этому. Также я у вас спрашивал каким образом у вас регламентируется штатная процедура обновления модулей антивируса, в тех случаях когда необходима перезагрузка ОС - вы тоже скромно промолчали.
В данной ситуации вы должны следовать тем руководящим документам, которые у вас имеются, а если же их нет, или они не подходят для данной ситуации - то это ваша недоработка, а никак не компании-производителя ПО. Я не призываю вас выключить все, десять раз перезагружать, или делать еще что-то, выходящее за рамки тех норм и правил по которым работают у вас. В нашей организации руководящих документов никак не меньше, чем в вашей и по строгости некоторые из них преышают разумные пределы, но не смотря на это ситуация у нас складывается намного лучше чем у вас.
2. Я уже давно ничему не удивляюсь, но вы действительно меня удивили сказав, что на том оборудовании, которое используется для поддержания жизни человека, хоть и маленького, но человека, у вас используется Windows. Получается, что любой вирус, который может нанести вред ОС этого компьютера может привести к смерти этого человека. Я видел много экстремальных применений этой операционной системы (например попытки использования ее на атомных электростанциях), но такое - первый раз. Я не знаю какой гений закупил такое оборудование, и какая сволочь его сертифицировала, но прошу вас скинуть мне в ЛС адрес и название вашего мед. учреждения, чтобы ни я, ни мои близкие и знакомые никогда туда не попали - это опасно для жизни. Если же говорить по делу, то у вас должны быть описаны процедуры по решению текущих задач\проблем и с таким оборудованием.
Что касается другого оборудования - аппаратов УЗИ, МРТ и пр. то я не думаю, что включив аппарат утром перед приемом пациентов и увидев штатный запрос на перезагрузку от антивируса ваши пользователи (или врачи, лаборанты, как угодно) сильно испугаются - ведь у вас есть штатная процедура установки обновлений антивируса - я не зря о ней спрашивал. Так же в одном из своих предыдущих сообщений вы спрашивали о наличии .msi пакетов для разворачивания исправлений - поэтому у меня возникает еще один вопрос - у вас все оборудование подключено к сети и входит в домен Windows? Если вы планировали разворачивать исправления с помощью .msi пакетов, то схема с разворачиванием исправлнения посредством скрипта входа в систему должна была вам подойти. Вы ее почему-то настойчиво не замечаете.
В случае же если подобные ситуации у вас не регламентированы, то грош цена не только вашей сертификации, но и вам как безответственному человеку, работающему с оборудованием от которого зависит жизнь других людей.
3. Я не говорил о том, что Dr.Web является первоочередным сервисом, тем более, насколько я понимаю с сервером Dr.Web у вас все в порядке. Я спрашивал каким образом у вас осуществляется резервирование тех сервисов, что у вас считаются первоочередными. Вы упомянули кластеры серверов - значит вы можете восстановить работоспособность агентов на этих серверах в любой момент, руководствуясь документами, описывающими ваши действия в стандартной ситуации обновления компонентов антивируса, или регламентирующих ваши действия в ситуации выхода какого-то из серверов из строя. Возвращаясь к аппаратам поддержания микроклимата инкубаторов - они кам-либо образом резервируются? Резервные копии ОС сохраняются? Что будет если ОС зависнет или будет перезагружена/выведена из строя по каким-либо причинам? Ребенок умрет или включится какая-либо резервная система? Это тоже должно быть описано. В зависимости от того, что предусмотрено - есть несколько вариантов дальнейших действий. Если ничего из подобных ситуаций не описано, то я уже писал как это называется и что это такое. Так что Dr.Web тут в общем-то да, ни при чем.
4. Все же интересно вы читаете то, что вам пишут - я не называл ваши бизнес-процессы лабудой. Я говорил о том, что существуют способы решения проблемы без написания запросов на удаленный доступ к чему-либо, ожидания 7 дней и занятия прочей лабудой (ерундой назовите как угодно), не относящейся к решению задачи. Опять же напоминаю вам про ваше желание получить .msi пакет, насколько я понимаю его разворачивание не потребует по вашему мнению таких же бумажных и согласовательных затрат (т.е. той писанины, которую я назвал лабудой), которую вы пытаетесь избежать?
По поводу телепатии и МРТ - человеческое общение никто еще не отменял - плюс это _должно_ быть описано в ваших нормативных документах - что, когда, как, включается, выключается, обновляется. И телепатия тут совершенно ни при чем. Своевольничать вас никто не заставляет - вас просят рассказать как у вас регламентируются такие ситуации, чтобы дать вам решение, наиболее подходяще и соответствующее всем процедурам.
5. Пока что из всей вашей системы показателей я вижу только отсутствие каких-либо документов регламентирующих ваши действия в штатных и нештатных ситуациях и прикрывательство сертификатом ISO9001, который не понятно как был получен при отсутствии таких основополагающих документов для обеспечения нормального функционирования такой серьезной ИТ инфраструктуры, как та о которой вы рассказали.

Наша ИТ инфраструктура не обеспечивает поддержания жизни детей, но подобные ситуации и разрешенные действия при их возникновении у нас регламентированы. Поэтому у меня вызывает глубокое удивление отсутствие подобных документов у вас, или ваше нежелание о них рассказать, так как от этого зависит выбор наиболее оптимальной схемы действий.

Вы обратились на форум Dr.Web - а это сообщество таких же пользователей как и вы. Не путайте форум с тех. поддержкой. Если вы зарегистрировались только для того, чтобы крикнуть о том, что прошла уже куча на ваш взгляд времени, а решение вашей проблемы вам все еще не предоставлено - то это не самое удачное место на самом деле. Вам попытались предложить решения котрые сработали у других, но вы отказались их даже попробовать - какой тогда смысл было писать вообще и отнимать время других, не менее занятых чем вы людей? Если вы считаете, что те решения, которые здесь предлагают не соответствуют вашей ситуации, и вы не хотите или не можете отвечать на вопросы, которые помогут выработать решение наиболее подходящее вам, вы вправе больше не писать сюда, а целиком и полностью сосредоточиться на общении с тех. поддержкой, тем более что она еще никого в беде не бросала.
При обращении в тех. поддержку, будьте настойчивее, но без истерики, подробно опишите вашу ситуацию и все те проблемы с которыми вы можете столкнуться и может столкнуться тех. поддержка при решении именно вашей ситуации. Впрочем смею вас заверить, что большую часть вопросов из тех, что задал вам я будут заданы и ими. Без ответов на эти вопросы будет очень сложно что-либо сделать и разработать оптимальное решение.

#233 Dmitry Kirushev

Dmitry Kirushev

    Newbie

  • Posters
  • 44 Сообщений:

Отправлено 09 Апрель 2011 - 15:02

Есть компании, особенно среди сертифицированных по ISO9001, которые даже не начнут ремонт своей системы, не получив соответствующих инструкций и рекомендаций (вполне возможно - письменных) от компании-разработчика ПО. А если начнут - то первый отремонтированный компьютер - станет последним. Максимум, что разрешат - последний раз зайти на сайт job.ru.

систему микроклимата инкубатора для недоношенных детей, к которым подключены магнито-резонансные томографы, компьютерные томографы, УЗИ, лабораторное оборудование и т.д. Которые работают в операционных, реанимациях, родильных отделениях, лабораториях и т.д. и т.п. И на этих компьютерах также установлен DrWeb.

- это разные компании. Или нет? :P

#234 pfin

pfin

    Newbie

  • Posters
  • 13 Сообщений:

Отправлено 09 Апрель 2011 - 16:18

образом отличаться от Ваших. 1. Есть компании, особенно среди сертифицированных по ISO9001, которые даже не начнут ремонт своей системы, не получив соответствующих инструкций и рекомендаций (вполне возможно - письменных) от компании-разработчика ПО.


если бы так было, Вы бы не пострадали. в таких условиях непроверенные и не обкатанные в тестзоне обновления софта недопустимы. тем более в автоматическом режиме.


Согласен. С этим трудно спорить. Вины с себя не снимаю. Последнее время жили под ВСТЭК'овской сертифицированной пятой версий. Заполняли контрольные суммы в формуляр и т.д. К сожалению, ВСТЭК не спешит сертифицировать шестую. Первая наша ошибка - переход на несертифицированную шестую. Далее расслабились, все хосты первой категории перевели на систему хранения (FiberChannel и iSCSI) с ежедневным бэкапом. Через некоторое время - Вторая ошибка - включили автоматическое обновление. Результат не заставил долго ждать... Все серверы и первую категорию восстановили, практически мгновенно, а компьютеры пользователей - последней утилитой через групповую политику только сегодня. Делаем выводы.

#235 pfin

pfin

    Newbie

  • Posters
  • 13 Сообщений:

Отправлено 09 Апрель 2011 - 17:04

Уважаемый ArD!
Позволю себе не цитировать предыдущее сообщение, чтобы не перегружать форум дублирующейся информацией. Отвечу на Ваши вопросы, согласно сложившейся нумерации. 1. Да у нас есть регламент проведения ремонтно-восстановительных работ. Это регламент предусматривает определенные действия сотрудников отдела ИТ в зависимости от характера аварии и категории оборудования. Все хосты первой категории подключены к системе хранения посредством FiberChannel и iSCSI. Все хосты первой категории имеют ежедневный (для основных баз данных инкрементный - 15-минутный) бэкап. Ежедневные бэкапы хранятся в течение 30 дней, далее на длительное хранение оставляется бэкап за первое число каждого прошедшего месяца. Вся первая категория была восстановлена к 7 утра. Сразу была составлена заявка в саппорт. После получения первой утилиты было произведено ее тестирование на стендовом оборудовании. Все замечания отправлены в саппорт. После получения второй утилиты было произведено тестирование на тестовом оборудовании. Замечания отправлены в саппорт. После получения третьей утилиты было произведено тестирование на тестовом оборудовании. Утилита принята. Работоспособность компьютеров восстановлена через групповую политику. Сообщено в саппорт. 2. Вы еще больше удивитесь, когда узнаете, что более 80% существующего медицинского ПО, включая ПО, поставляемое c медицинским оборудованием и с вышеназванными системами работает под Windows. Так что найти клинику без Windows Вам будет очень сложно. Я тоже не считаю себя ярым поклонником компании Microsoft, но что поделать. Принимаю Ваше замечание насчет нежелания заметить обсуждаемую схему развертывания утилиты с помощью логон скрипта. Это действительно так. Еще раз повторюсь. Наш регламент в случае подобной (не критической) аварии обязывает меня сделать заявку в компанию-разработчик и далее действовать по ее инструкциям. 3. Немного схема бэкапа указана в п.2., дополню, что бэкап всех сервисов осуществляется с помощью DPM и с помощью встроенных средств системы хранения. Оперативный бэкап хранится на дисковой подсистеме сервера DPM, долговременные на ленточных накопителях. Повторюсь, дисковая подсистема всех хостов первой категории изначально находится на системе хранения. 4. Желание получить .msi пакет у меня было от разработчиков Dr.Web. Я не сомневаюсь, что участники форума могут найти вполне приемлемое решение, но я обязан получить такое решение от разработчика и провести его тестирование на стендовом оборудовании, что и было сделано. 5. Не могу понять про какие показатели идет речь и на основании чего сделан вывод об отсутствии в моей компании регламентирующей документации.
Могу также добавить, что мной действительно был совершен ряд ошибок, основная из которых - это переход на автоматическое обновление компонентов DrWeb. Этот переход был сделан после перевода всей первой категории на систему хранения (после внедрения и освоения iSCSI), о чем я очень жалею...

#236 pfin

pfin

    Newbie

  • Posters
  • 13 Сообщений:

Отправлено 09 Апрель 2011 - 18:14

2. Я уже давно ничему не удивляюсь, но вы действительно меня удивили сказав, что на том оборудовании, которое используется для поддержания жизни человека, хоть и маленького, но человека, у вас используется Windows. Получается, что любой вирус, который может нанести вред ОС этого

Извините, сразу не обратил внимания. Уточните, пожалуйста, в каком посте я сказал, что детский инкубатор работает под Windows? Управление параметрами микроклимата инкубаторов осуществляется с линуксового сервера.

#237 Eugeny Gladkih

Eugeny Gladkih

    the Spirit of the Enlightenment

  • Dr.Web Staff
  • 5 295 Сообщений:

Отправлено 09 Апрель 2011 - 19:01

Согласен. С этим трудно спорить. Вины с себя не снимаю. Последнее время жили под ВСТЭК'овской сертифицированной пятой версий. Заполняли контрольные суммы в формуляр и т.д. К сожалению, ВСТЭК не спешит сертифицировать шестую. Первая наша ошибка - переход на несертифицированную шестую. Далее


спешу обрадовать, параллельно с решением проблемы этого "внештатного" обновления шла сертификация. сертификат скоро будет

#238 pfin

pfin

    Newbie

  • Posters
  • 13 Сообщений:

Отправлено 09 Апрель 2011 - 20:19

Согласен. С этим трудно спорить. Вины с себя не снимаю. Последнее время жили под ВСТЭК'овской сертифицированной пятой версий. Заполняли контрольные суммы в формуляр и т.д. К сожалению, ВСТЭК не спешит сертифицировать шестую. Первая наша ошибка - переход на несертифицированную шестую. Далее


спешу обрадовать, параллельно с решением проблемы этого "внештатного" обновления шла сертификация. сертификат скоро будет


Действительно, хорошая новость! Спасибо. Будем с нетерпением ждать.

#239 pfin

pfin

    Newbie

  • Posters
  • 13 Сообщений:

Отправлено 09 Апрель 2011 - 22:25

- это разные компании. Или нет? :P

Извините, сегодня немного растерян и пропустил Ваш пост. Конечно, речь идет об одной и той же компании.

#240 ArD

ArD

    Member

  • Posters
  • 102 Сообщений:

Отправлено 10 Апрель 2011 - 17:31

2. Я уже давно ничему не удивляюсь, но вы действительно меня удивили сказав, что на том оборудовании, которое используется для поддержания жизни человека, хоть и маленького, но человека, у вас используется Windows. Получается, что любой вирус, который может нанести вред ОС этого

Извините, сразу не обратил внимания. Уточните, пожалуйста, в каком посте я сказал, что детский инкубатор работает под Windows? Управление параметрами микроклимата инкубаторов осуществляется с линуксового сервера.

В том посте, на который я отвечал - прочтите свои предыдущие сообщения - зачем тогда было писать про них, если они оказались не затронутыми, для красного словца?
Ну и какие еще из тех систем, что вы указали, не оказались затронутыми? ;) После общения с вами не удивлюсь, если большинство из них...
В этом форуме я думаю многие могут много чего написать про различные системы промышленной автоматизации, которых данная проблема не коснулась, но в отличии от вас этого никто не делал и обсуждение шло по существу вопроса.


Читают тему: 0

0 пользователей, 0 гостей, 0 скрытых