Исследования

Статьи и публикации

Публикации

Расшифровка кодов БИК, расчетных и корреспондирующих счетов

21.06.2009

БИК

Общее описание

Банковские идентификационные коды присваиваются Центробанком России каждому банку и для каждого банка они являются уникальными.
БИК представляет собой составной идентификационный код из 9 разрядов где:
– первые два разряда равны “04″ и характеризуют принадлежность Российской Федерации, 

 

подробнее...

Расшифровка кодов ИНН, КПП, ОГРН и номера паспорта

21.06.2009

ИНН

Идентификационный номер налогоплательщика (сокр. ИНН) — цифровой код, упорядочивающий учёт налогоплательщиков в Российской Федерации. Присваивается как юридическим, так и физическим лицам. Организациям присваивается с 1993 года, индивидуальным предпринимателям — с 1997 года, прочим физическим лицам — с 1999 года (с начала действия первой части Налогового кодекса Российской Федерации). (см. ИНН в Википедии)

ИНН в России бывает двух типов: ИНН организации - 10-значный и ИНН физического лица или ИП 12-значный.

 

подробнее...

Практическое сжатие электронных документов

21.06.2009

В прошлой заметке я писал о метаданных скрываемых в офисных документах (см. Извлечение скрытых метаданных из MS Office), на сей раз я подробнее остановлюсь на сжатии электронных документов.

Да, многие могут сказать что пользы от сжатия документов немного учитывая текущую стоимость носителей и средств хранения информации, но всё же есть ситуации когда это может быть необходимо:

1. Пересылка документов по электронной почте. 

2. При публикации документов на сайтах, потребность в экономии трафика.

3. Экономия дискового пространства в случаяъ когда замена или добавление средств хранения затруднительно. Например, подобное бывает когда выбить бюджет под капитальные расходы непросто, а дискового пространства нехватает. 

Приведённые далее способы относительно практичны, поскольку описываются методики, а не конкретные рекомендации делать это вручную. Большая часть описанных действий поддаются автоматизации и автоматизируются.

 

 

подробнее...

Работа с данными с нечеткой структурой

21.06.2009

Прежде чем продолжить рассуждения, а что же такое данные с нечеткой структурой? Начну с примера.

При преобразовании HTML в RSS, как, например, это происходит в Скиуре, очень часта ситуация когда структура данных меняется. Это может быть из-за того что немного подкрутили верстку или, к примеру, у новости появилась метка которая при обучении на данных сайта не встречалась, но была с самого начала предусмотрена, например, “новое” или ещё что-либо не являющееся сменой CMS или реорганизацией структуры сайта, но затрагивающее HTML структуру ленты новостей.


 

подробнее...

О данных раскрываемых государством. Классификация информационных массивов

21.06.2009

Размышляя про всё тот же data.gov.ru буду рассуждать тезисно в рамках не столько ведения сколько раскрытия информации. Рассуждения очень предварительные и дискуссионные:

Общие рассуждения

1. Информационный массив != информационная система. Несмотря на некоторое сходство, один массив может формироваться в нескольких системах, а в рамках одной системы может присутствовать несколько информационных массивов.

 

 

подробнее...

Скиур и построение объектных сайтов карт в действии

21.06.2009

 

Как пример того для чего Скиур может использоваться – в каталоге сайтов Енота Поискуна сейчас 2148 ссылок посвящённым тематике закупок и присутствия российского государства в сети.

В своё время, чтобы не делать каталог просто набором ссылок, для него был создан специальный скрипт который время от времени проходил по ресурсам в каталоге и занимался обнаружением RSS лент каковых набралось чуть более 170. 

1. Вначале проверяется можно ли сформировать RSS ленту по странице сайта в каталоге

2. Если не получается, то запускается алгоритм анализа страницы (и сайта) построения объектной карты сайта и из результатов его работы извлекаются разделы относящиеся к новостям.

3. Для найденных разделов проверяется можно ли по нему сформировать RSS ленту.

4. Если RSS лента формируется, то ссылка на неё добавляется в каталог и доступна для посетителей.

В итоге, примерно 20% всех распознанных лент идут не с главных, а с новостных страниц выявленных при анализе. При этом сам алгоритм построения объектной карты сейчас, объективно, несовершенен и всё ещё в работе, поскольку времени на него нужно больше чем у меня есть, но для узких задач вроде этой вполне уже применим.  

Распознавание новостей всё ещё идёт прямо сейчас, но как промежуточные итоги могу сказать что:

1. Распознаются новости у, примерно, 65% сайтов. Это много, это даже очень много, куда больше чем я ожидал. 

2. Причинами нераспознавания остальных 35% может быть, пока предварительно, поскольку требуется ручная проверка результатов:

  • 35% случаев - нет новостей на сайте или новости подаются без дат;
  • 15%  случаев – кодировка не распознаётся, а дата содержит русскоязычную часть, например, название месяца
  • 10% случаев – не распознаётся структура сайта. Обычно Скиур автоматически разбирает HTML и понимает как располагаются новостные блоки и как их собрать в RSS ленты, но есть случае когда этого сделать не удаётся;
  • 15% случаев – неизвестный формат даты. Эта проблема быстро решается за счёт снижения скорости распознавания и именно по этой причине не решена в онлайновой версии алгоритма;
  • 20% случаев – новости на сайте есть, но не на главной странице, а на новостных страницах, а алгоритм построения объектной карты эти разделы не нашёл;
  • 5% случаев – сайт недоступен или отвечает слишком долго (более 30 секунд).

Основной недостаток всего этого процесса – производительность. Объективно много времени уходит на распознавание новостных блоков, их выравнивание и на построение объектных карт. Причём здесь оптимизация имеет три составляющие:

1. Техническая – изменение библиотек разбора HTML, оптимизация кода и т.д.

2. Алгоритмическая – применение уже накопленных наработок для ускорения распознавания дат. Частично это уже применяется, но, тут ещё требуются исследования и довольно затратные

3. Промышленная – сбор метаданных о процессе анализа и предварительное обучение алгоритма с построением шаблонов распознаванием и с динамической перестройкой шаблонов при выявлении несоответствий. 

Плюс в процессе анализа сайтов определяются остальные их фичи – вроде ключевых разделов, коммерциализация, CMS, технология на которой он сделан, но это уже совсем другая история.

Пока что Скиур остаётся некоммерческим, но уже выходит из статуса экспериментального, а если походить по каталогу, то можно увидеть ссылки RSS лент ведущие на Скиур.


 

 

подробнее...

Автоматическая классификация сайтов: возможные подходы

21.06.2009

Ранее я упоминал про недавнее исследование из Яндекса - Автоматическая классификация веб сайтов (в PDF) и что лично я несогласен с подходом использующим классификацию по ключевым словам.  Главное - это то что у Яндекса как и других поисковых систем, на самом деле, куда больше информации о сайтах, пользователях и их взаимодействии чем просто страницы и ключевые слова. Этой информации столь много - что принцип "больше данных, проще алгоритмы" должен подходить здесь на 100% и я опишу несколько вариантов классификации сайтов построенных именно на таких данных.

подробнее...

Извлечение скрытых метаданных из документов MS Office

21.06.2009

Метаданные можно разделить на два типа: метаданные документов и метаданные связанных объектов.

Метаданные которые также называют свойства документов (document properties) - это набор данных идентифицирующий автора кем был создан документ, его организацию, кем он редактировался последним и так далее. Многие поля добавляют системы документооборота, но чаще присутствуют лишь те что добавляются программами из поставки MS Office.

 

подробнее...