Rauf Aliev (rauf) wrote,
Rauf Aliev
rauf

Плоды воскресной ночной работы --
  • Доделал Индексатор и поисковик
    В течение ночи неделю назад индексатор обрабатывал несколько мегабайт исходных HTML-файлов и создавал по ним индексный файл. Файл состоит из блока словаря, включающего все слова из всех файлов, из блока документов, связывающего слова и файлы. То есть в таком-то файле встречается такое-то слово. Разумеется, там все жутко оптимизировано, чтобы занимало поменьше и работало побыстрее. Итак, сейчас вводишь несколько ключевых слов -- и через секунду получаешь все ссылки на все документы. Сейчас поиск ведется по 11000 документов, 343 тыс. слов, размер документов более 5 мегабайт. [screenshot]
  • Вспомогательную программу, составляющую заголовки для файлов
    Заголовки берутся из файлов, из тегов title, а также из тегов a href="", предполагая, что раз на что-то поставили линк и как-то это назвали, то вероятно, таково название и документа. В частности, в моем случае так и было -- нужно было обработать несколько десятков файлов, внутри которых стояли ссылки на существующие документы без заголовков. Ну не было у них тега title вообще. Соответственно, единственный путь получить название документа -- сделать специальную прогу. Вот собственно, и она. Сейчас парсится и обрабатывается 4375 файлов. [screenshot]
  • Opennet.ru/CD 2.0
    Максим Чирков из Opennet.Ru прислал мне обновления -- скоро выйдет новая версия Opennet.Ru/CD с оболочкой и поиском. За сегодня успели сделать только навигатор -- но делается он на основе HTML-файлов. Программа на Delphi парсит исходные файлы и создает дерево рубрик и документов. Затем они сохраняются в удобный формат, а парсер лежит до следующего раза. Удобно будет обновлять. Сейчас парсится и отображается 1654 документа. [screenshot]
    Осталось теперь обработать все файлы с Opennet.Ru, чтобы в них зазря не маячила форма с поиском и много всякого другого хлама, проиндексировать, возможно, все документы -- правда есть подозрение, что что-то вылезет при таких больших объемах... Но попробовать все равно стоит.
    Кстати, прикольно -- вот такие вложенные массивы используются в моем search engine...
    move(AllDictionary[WordIndex[DictionaryIndex[Up]]], MyEnc1[0], GetEncLen(DecStrLen(AllDictionary[WordIndex[DictionaryIndex[Up]]])));
Subscribe
  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 0 comments