Skip to content
View scharfff's full-sized avatar
:octocat:
you build it - you run it
:octocat:
you build it - you run it

Organizations

@SintezDev

Block or report scharfff

Block user

Prevent this user from interacting with your repositories and sending you notifications. Learn more about blocking users.

You must be logged in to block users.

Maximum 250 characters. Please don’t include any personal information such as legal names or email addresses. Markdown is supported. This note will only be visible to you.
Report abuse

Contact GitHub support about this user’s behavior. Learn more about reporting abuse.

Report abuse
scharfff/README.md

Лилия Самойлова

ML Engineer · LLM-интеграции · RAG · Document-AI для технических и промышленных доменов
Санкт-Петербург · от прототипа до прода · закрытые корпоративные контуры

LinkedIn Telegram ResearchID Email


О себе

Проектирую и довожу до прода системы анализа документов на базе LLM: RAG-поиск по нормативной документации, OCR-пайплайны, structured extraction, дообучение BERT-подобных моделей под NER и классификацию. Работаю там, где данные нельзя отдать в облако - закрытые контуры, локальные модели, гибридные архитектуры.

Мне интересно превращать исследовательскую идею в работающий продукт: от гипотезы и эксперимента до сервиса, которым реально пользуются. Параллельно веду линию в NLP (анализ неявных лингвистических признаков в текстах) и преподаю Python и математику в СПбПУ. Сейчас ищу позицию ML / LLM / NLP Engineer и научную группу для PhD по направлению искусственный интеллект и машинное обучение.


Живые демо

Проект Что это Ссылка
electrolabbot RAG-ассистент по нормам электротехнических испытаний (ПУЭ, ПТЭЭП, ГОСТ) electrolabbot.ru
DocuLex Анализ договоров: мультиформатный ввод PDF/DOCX, OCR, structured extraction, отчёты doculex.ru
Курс для абитуриентов Подготовка к ЕГЭ по информатике: теория, разборы, решения на Python scharfff.github.io/spbpu-inf-course

Стек

Языки и ядро: Python · PyTorch · NumPy · Pandas · SciPy · Pydantic LLM / NLP: Hugging Face Transformers · fine-tuning (LoRA / PEFT) · ruBERT · LLM APIs · vLLM · Ollama RAG: LangChain · LlamaIndex · embeddings · vector DB (Qdrant / Chroma) · Langfuse · PaddleOCR Сервис и инфра: FastAPI · Docker · PostgreSQL · Linux (Debian / Ubuntu / Astra) · Git · CI/CD (GitHub Actions) Облака: Yandex Cloud · cloud.ru · Amvera


Избранные проекты

electrolabbot RAG-ассистент для энергетики и промышленности

Поиск и интерпретация по нормативной базе электротехнических испытаний (ПУЭ, ПТЭЭП, СП, ГОСТ, РД) на полностью открытых данных. Помогает находить нормы, трактовать результаты измерений и заполнять протоколы. ruBERT embeddings · Chroma (HNSW) · Langfuse трейсинг · FastAPI + Streamlit + CLI · Docker → демо: electrolabbot.ru · код: github.com/scharfff/electrolabbot

DocuLex анализ договоров с LLM

Сервис извлечения структурированных данных из договоров: мультиформатный ввод PDF/DOCX, OCR-пайплайн, structured extraction 17 полей (Pydantic), генерация отчётов PDF и XLSX, Telegram-бот. Деплой через Docker. OCR · structured extraction · Pydantic · FastAPI · Docker → демо: doculex.ru

mailru-cloud-cli опубликованный пакет на PyPI

CLI-клиент Mail.ru Облака через WebDAV: загрузка, скачивание, одно/двусторонняя синхронизация каталогов. Реальные пользователи, релизный цикл, тесты и CI. pip install mailru-cloud-cli · WebDAV · pytest · GitHub Actions · PyPI releasegithub.com/scharfff/mailrucloud · PyPI

MBTI-LSTM исследование, предсказание психотипа по тексту

BiLSTM-классификатор, извлекающий косвенные признаки личности (стиль, лексика, синтаксис) из текстов. Основа магистерской диссертации; по теме опубликованы статьи в РИНЦ. PyTorch · BiLSTM (128→64) · NLP preprocessing · researchgithub.com/scharfff/MBTI-LSTM

linux-tools-documentation автоматизация и мониторинг в Linux

Коллекция shell-скриптов и документации для Debian / Ubuntu / Astra Linux: мониторинг процессов синхронизации, уведомления, типовые задачи администрирования. Bash · cron · systemd · Astra Linuxgithub.com/scharfff/linux-tools-documentation


Опыт

Период Роль Чем занималась
2025 – 2026 Преподаватель, СПбПУ Курсы Python, информатики и профильной математики для абитуриентов
2024 – 2025 ML Engineer, «Синтез» RAG-система по техдокументации (LangChain, ChromaDB, ruBERT, Langfuse, FastAPI); сервис анализа договоров (OCR, structured extraction 17 полей, отчёты PDF/XLSX, Telegram-бот); дообучение BERT под NER и суммаризацию
2023 – 2024 Аналитик-разработчик, «Синтез» Подбор и бенчмаркинг локальных (Ollama) и облачных (OpenAI, HF, Sber, Yandex) моделей; AB-тесты ML/AI-решений, расчёт метрик
2022 – 2024 Инженер-исследователь, СибГИУ Лингвистические паттерны MBTI в текстах; LSTM-классификатор; пайплайны предобработки корпусов. 2 публикации

Образование и наука

  • Магистратура, СибГИУ интеллектуальные системы и технологии (2024). Диссертация: программный модуль на LSTM для анализа неявных сущностей в тексте и их корреляции с психотипами.
  • 2 публикации (РИНЦ) по теме психолингвистического анализа текстов.
  • Профиль исследователя: researchid.co/s.liiilia

Сейчас в фокусе

  • Открыта к позициям ML / LLM / NLP Engineer в Санкт-Петербурге, включая research-роли в лабораториях
  • Готовлюсь к поступлению в аспирантуру по направлению ИИ и машинное обучение
  • Углубляюсь в RAG-архитектуры для промышленных доменов и эффективный fine-tuning LLM

Связаться: Telegram @mueqee (предпочтительно) · LinkedIn · mueqee@gmail.com

Popular repositories Loading

  1. mailrucloud mailrucloud Public

    CLI Mail.ru Облака, позволяет управлять файлами, загружать, скачивать, синхронизировать каталоги

    Python 7 1

  2. electrolabbot electrolabbot Public

    RAG-ассистент для энергетики и промышленности. Поиск норм ПУЭ/ПТЭЭП, интерпретация измерений, примеры протоколов. 100% открытая база знаний

    Python 4

  3. MBTI-LSTM MBTI-LSTM Public

    Deep Learning for MBTI Personality Classification

    Jupyter Notebook 2

  4. ProtoLLM ProtoLLM Public

    Forked from aimclub/ProtoLLM

    Framework for prototyping of LLM-based applications

    Python 1

  5. spbpu-inf-course spbpu-inf-course Public

    Подготовительные курсы СПбПУ. ЕГЭ по информатике 2026: теория, разбор заданий, решения на Python, LibreOffice

    Python 1

  6. linux-tools-documentation linux-tools-documentation Public

    Личная коллекция скриптов и документации для Linux утилиты автоматизации, мониторинга

    Shell