?

Log in

No account? Create an account

rauf


Блог Алиева Рауфа

О жизни и о себе


чем бы озаглавить…
rauf
Плоды воскресной ночной работы --
  • Доделал Индексатор и поисковик
    В течение ночи неделю назад индексатор обрабатывал несколько мегабайт исходных HTML-файлов и создавал по ним индексный файл. Файл состоит из блока словаря, включающего все слова из всех файлов, из блока документов, связывающего слова и файлы. То есть в таком-то файле встречается такое-то слово. Разумеется, там все жутко оптимизировано, чтобы занимало поменьше и работало побыстрее. Итак, сейчас вводишь несколько ключевых слов -- и через секунду получаешь все ссылки на все документы. Сейчас поиск ведется по 11000 документов, 343 тыс. слов, размер документов более 5 мегабайт. [screenshot]
  • Вспомогательную программу, составляющую заголовки для файлов
    Заголовки берутся из файлов, из тегов title, а также из тегов a href="", предполагая, что раз на что-то поставили линк и как-то это назвали, то вероятно, таково название и документа. В частности, в моем случае так и было -- нужно было обработать несколько десятков файлов, внутри которых стояли ссылки на существующие документы без заголовков. Ну не было у них тега title вообще. Соответственно, единственный путь получить название документа -- сделать специальную прогу. Вот собственно, и она. Сейчас парсится и обрабатывается 4375 файлов. [screenshot]
  • Opennet.ru/CD 2.0
    Максим Чирков из Opennet.Ru прислал мне обновления -- скоро выйдет новая версия Opennet.Ru/CD с оболочкой и поиском. За сегодня успели сделать только навигатор -- но делается он на основе HTML-файлов. Программа на Delphi парсит исходные файлы и создает дерево рубрик и документов. Затем они сохраняются в удобный формат, а парсер лежит до следующего раза. Удобно будет обновлять. Сейчас парсится и отображается 1654 документа. [screenshot]
    Осталось теперь обработать все файлы с Opennet.Ru, чтобы в них зазря не маячила форма с поиском и много всякого другого хлама, проиндексировать, возможно, все документы -- правда есть подозрение, что что-то вылезет при таких больших объемах... Но попробовать все равно стоит.
    Кстати, прикольно -- вот такие вложенные массивы используются в моем search engine...
    move(AllDictionary[WordIndex[DictionaryIndex[Up]]], MyEnc1[0], GetEncLen(DecStrLen(AllDictionary[WordIndex[DictionaryIndex[Up]]])));

Прога под Windows / backend к серверу
rauf

Сегодняшнее достижение. Вбивается в заданные поля текст, подгружается картинка в формате
GIF или JPG, при нажатии на кнопку "Отправить" просходит следующее:

  • авторизация в защищенный раздел сайта через веб-формы. То есть идет эмуляция вбивания в соответствующие поля логина и пароля. В целом, можно было бы и по .htaccess сделать, да незачем пока.
  • если все прошло, у нас есть ключик, вместе с которым теперь посылаются заполненные поля, уже по другому адресу -- добавления новости.

На сервере ничего специально не дорабатывалось, программа адаптирована под существующие условия.




Из нестандартного пришлось разбираться с тем, как:

  • работать с gif & jpg в Delphi. В стандартной поставке не умеет работать с GIF,
    есть компоненты, из них GifImage оказался самым
    подходящим
  • работать с multipart/form-data запросами к серверу. Без них никак не зааплоадить
    файл, в нашем случае -- картинку. Стандартных механизмов нет, компоненты все платные.
    Пришлось реализовывать самостоятельно протокол, благо он несложный более-менее.

чем бы озаглавить…
rauf
Сегодня часок покатался на машине в нашем районе. Привыкаю потихоньку к габаритам и к управлению...