Как многие знают, я веду колонку на IFHub со свежими релизами текстовых и околотекстовых игр. В этом мне очень помогает автоматический скрипт-парсер игровых сайтов.
Скрипт написан на PHP и выложен на Gitlab под лицензией GPLv3. На самом деле это - не один скрипт, а набор из трёх проектов с похожим кодом парсеров.
Во-первых, это сам сценарий дайджестов для IFHub'а. Он сканирует все библиотеки и выдаёт уже оформленный список новых игр.
Во-вторых, это - похожий скрипт, но для бота Mastodon (заодно и с поддержкой Telegram.) Он ведёт постоянную ленту релизов в микроблогах, с указанием какие именно библиотеки попадают в ленту (чтобы как-то разделить ленты русских и иностранных игр).
В-третьих, это ещё и бот для русской IFWiki, который делает статьи о новых играх. (Вызывается вручную, чтобы не захламлять энциклопедию.) У него частично свой код парсеров, потому что он парсит отдельные страницы игр со всеми деталями, а не общую ленту с минимумом информации.
Приглашаю всех желающих помочь в улучшении. Нужно:
Тут будут сообщения об обновлениях.
Неактивен
У релизов геймстори на quest-book.ru есть свой RSS, который можно распарсить уже имеющимися функциями, - https://quest-book.ru/online/rss.xml
Отредактировано Nikita (13.05.2018 17:23)
Неактивен
Коммит 307404b: причесал код (теперь один конфиг на YAML вместо двух), включил обратно Квестер. :-)
UPD 16.05: добавил парсер второй ленты Квестбука (геймстори) и тесты для клиента VNDB API… клиент пока что не работает, так что и парсить пока с него нечего
Отредактировано Oreolek (16.05.2018 11:25)
Неактивен