The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

Выпуск веб-приложения для работы с отсканированными документами paperless-ngx 1.8.0

30.07.2022 00:25

Доступен новый выпуск Paperless-ngx, веб-приложения для работы с документами, которое преобразует бумажные документы в электронные, доступные для полнотекстового поиска, скачивания и хранения онлайн. Код написан на языке Python с использованием фреймворка Django и распространяется под лицензией GPLv3. Для ознакомления с возможностями системы подготовлен демонстрационный сайт demo.paperless-ngx.com (логин/пароль - demo/demo).

Paperless-ngx является ответвлением от проекта paperless-ng, который, в свою очередь, ответвился от оригинального проекта paperlsess (форки создавались для продолжения разработки после прекращения сопровождения прошлыми разработчиками). После загрузки отсканированного документа любым доступным способом (по FTP, через веб-интерфейс, через Android-приложение, по электронной почте через IMAP), программа осуществляет оптическое распознавание текста (OCR), используя движок Tesseract, далее в интерфейсе доступно тегирование (в том числе автоматическое с использованием машинного обучения), полнотекстовый поиск, а также загрузка версии документа в формате PDF/A или в форматах офисных пакетов.

В новой версии:

  • Скрипты пре/пост обработки используют переменные окружения вместо аргументов командной строки.
  • Миниатюры в веб-интерфейсе переведены в формат WebP вместо PNG.
  • Настройки веб-интерфейса сохраняются в базе данных.
  • При смене языка документа в интерфейсе появляется подсказка о необходимости перезагрузить страницу.
  • При возникновении ошибки связи с Redis показывается более подробная информация.
  • В веб-интерфейсе добавлена возможность просмотра очереди документов на обработку.


  1. Главная ссылка к новости (https://github.com/paperless-n...)
  2. OpenNews: Представлен Floppotron 3.0, музыкальный инструмент из дисководов, дисков и сканеров
  3. OpenNews: Выпуск SANE 1.1 с поддержкой новых моделей сканеров
  4. OpenNews: Новая система оптического распознавания текста EasyOCR
  5. OpenNews: Выпуск системы распознавания текста GNU Ocrad 0.28
  6. OpenNews: Релиз системы распознавания текста Tesseract 5.2
Автор новости: DoTheGNU
Лицензия: CC BY 3.0
Короткая ссылка: https://opennet.ru/57575-paperless-ngx
Ключевые слова: paperless-ngx, scaner
При перепечатке указание ссылки на opennet.ru обязательно


Обсуждение (45) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.1, mimocrocodile (?), 09:36, 30/07/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Ждём форка paperless-ngxxx
     
     
  • 2.5, Аноним (5), 10:06, 30/07/2022 [^] [^^] [^^^] [ответить]  
  • –2 +/
    Софт не очень нужный, поэтому разрабы долго его поддерживать не хотят.  
     
     
  • 3.18, Аноним (18), 18:00, 30/07/2022 [^] [^^] [^^^] [ответить]  
  • +4 +/
    > Софт не очень нужный

    Комментаторы на опеннете не очень нужные. Софт — реальная помощь мелкому бизнесу. Когда каждый контракт генерирует по 10-15 листов бумажных документов с подписями-печатями, которые надо хранить пять лет и по первому запросу предоставлять всяким контролирующим органам, то тут в пору архивариуса нанимать в штат. А так сфоткал, тэгов прилепил, сложил в коробку и думать забыл про всё это. Электронная копия всегда под рукой когда понадобится, и не надо помнить в какой коробке какая папка лежит.

     
     
  • 4.19, _ (??), 19:48, 30/07/2022 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Ути пуси! :) А эти контракты как "генерируются"(R)? Ты их лично гусинным пером на пергаменте пишешь? Или таки девочка их с компьютера печатает?
     
     
  • 5.20, Аноним (18), 22:10, 30/07/2022 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Контракт сам по себе бумагу вообще никогда не видит, он в онлайне подписывается замечательно. А вот разрешения на проведение работ с печатями и подписями, документация на проект, чеки из магазинов, вейверы и прочая бюрократия пока не в онлайне и не у девочки в компьютере.
     
     
  • 6.26, _ (??), 06:18, 31/07/2022 [^] [^^] [^^^] [ответить]  
  • –2 +/
    Всё так. Но оно ценно только на бумаге :) Ты инсектору скан покажешь? :-D
    Впрочем - услышал. У нас рептилоидов всё проще :)
     
     
  • 7.33, economist (?), 12:13, 31/07/2022 [^] [^^] [^^^] [ответить]  
  • +3 +/
    Был инспектором 6 лет. Да, лучше показать скан, чем юлить и плодить подозрения.

    Прогресс идет в сторону Налогового мониторинга, когда в твоей 1С незаметно копошатся инспектора и ML-алгоритмы, а сам ты занят не изобретением новых "схем", а расширением продаж итд (бизнесом, т.е.)    

     
  • 7.37, Аноним (18), 23:03, 31/07/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Мой инспектор сразу так и пишет: пришли фото бумажки xyz. Один раз пока что только было только нужно реальные бумаги куда-то нести, правда не инспектору, а адвокату, но сути не меняет.
     
  • 4.25, Бывалый смузихлёб (?), 06:11, 31/07/2022 [^] [^^] [^^^] [ответить]  
  • +/
    > документов с подписями-печатями, которые надо хранить пять лет
    > и по первому запросу предоставлять всяким контролирующим органам
    > Электронная копия всегда под рукой когда понадобится

    Сеньор не видит разницы между оригиналами документов и их копиями, что электронными что распечатанными ?

     
     
  • 5.27, _ (??), 06:25, 31/07/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Ну дык ты поведай про разницу между оригиналом и копией эдектронного дукумента :-D
     
     
  • 6.31, Бывалый смузихлёб (?), 09:15, 31/07/2022 [^] [^^] [^^^] [ответить]  
  • +/
    перечитай коммент ещё раз и неожиданно для себя узнай, что речь шла о бумажном оригинале, а так же его бумажной и электронной копией
    это к слову о том, что, подавая какие-либо бумаги в конторы, не заверенными копиями без оригиналов можно просто подтереться
     
  • 5.38, Аноним (18), 23:07, 31/07/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Ты за моё зрение не беспокойся, всё хорошо видно. И мне, и проверяющими. Разница в том, что в отличие от разных странных государственных образований, там где я живу и работаю джентльменам принято на слово верить. Поэтому в 99% случаев скана достаточно для любого практического применения. Для оставшегося 1% у меня в подвале под архив отгорожен угол.
     
  • 2.35, Аноним (35), 15:20, 31/07/2022 [^] [^^] [^^^] [ответить]  
  • +/
    >Ждём форка paperless-ngxxx

    Оптимизированного для сканирования фотоматериалов с аналоговых фотоаппаратов ;)

     
  • 2.36, Аноним (35), 15:20, 31/07/2022 [^] [^^] [^^^] [ответить]  
  • +/
    >Ждём форка paperless-ngxxx

    Оптимизированного для сканирования фотоматериалов с аналоговых фотоаппаратов ;)

     

  • 1.2, Аноним (2), 09:41, 30/07/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    Надо было переводить в avif -- у него очень эффективное лосслесс сжатие, конкурентов не существует.
     
     
  • 2.16, Изя Коэн (?), 16:43, 30/07/2022 [^] [^^] [^^^] [ответить]  
  • +/
    JPEG XL - чем не достойный конкурент?
     
     
  • 3.22, Kuromi (ok), 01:19, 31/07/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Тем что у него поддержка браузерами по факту нулевая, в отличие от avif. Ни в одном браузере по умолчанию не работает.
     

  • 1.4, Аноним (5), 10:06, 30/07/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    Лучше бы сделали нормальную корректировку искажений документов сфотографированных камерой. Не всем со сканерами охота возится
     
     
  • 2.10, InuYasha (??), 12:40, 30/07/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Кстати, "возиться" это мягко сказано. Не так давно на своём опыте познал, каково это когда СКАНЕР не работает потому что кончились ЧЕРНИЛА.
     
     
  • 3.11, Аноним (11), 13:14, 30/07/2022 [^] [^^] [^^^] [ответить]  
  • +4 +/
    Это тебе еще повезло что функция сканер не по подписке.  
     
     
  • 4.29, Аноним (29), 08:21, 31/07/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Ну не работать без чернил — это не новомодная тема. У меня МФУ лохматых годов было (дрова только для семёрки, десятка с бубном, всё как обычно) — так оно без чернил работать тоже не хотело, приходилось запускать весьма затейливым способом.
     

  • 1.6, Аноним (6), 11:57, 30/07/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • –2 +/
    > веб-приложения
    > Python
    > Django

    Какая гадость эта ваша заливная рыба!

     
     
  • 2.7, Аноним (7), 12:34, 30/07/2022 [^] [^^] [^^^] [ответить]  
  • +3 +/
    Напиши лучше
     
     
  • 3.12, Аноним (12), 13:46, 30/07/2022 [^] [^^] [^^^] [ответить]  
  • –5 +/
    Лучше не писать это уг вовсе
     
     
  • 4.15, Аноним (7), 15:42, 30/07/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Почему?
     
     
  • 5.21, Аноним (21), 22:56, 30/07/2022 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Чтобы ты спросил.
     
  • 2.47, Аноним (47), 03:13, 02/08/2022 [^] [^^] [^^^] [ответить]  
  • –1 +/
    ну на чём шмогли. Питон с низким порогом входа, говорили они
     
     
  • 3.53, myhand (ok), 05:01, 09/08/2022 [^] [^^] [^^^] [ответить]  
  • +/
    нам ехать надо, говорили они
     

  • 1.8, Аноним (7), 12:38, 30/07/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • –5 +/
    Пыталась написать простой клон wordly для андроид и ничего не получилось. Хотя была уверена что это очень легко. Работатю программистом 2-3 года, дописываю уже написанный биллинг, а программировать по настоящему не умею.
     
     
  • 2.13, Аноним (12), 13:48, 30/07/2022 [^] [^^] [^^^] [ответить]  
  • +5 +/
    Держи в курсе, но здесь не запрещённый на территории российской федерации твиттер.
     
     
  • 3.14, Бывалый смузихлёб (?), 15:29, 30/07/2022 [^] [^^] [^^^] [ответить]  
  • +/
    > но здесь не запрещённый на территории российской федерации твиттер

    И слава Б.-гу, ведь твитор был полнейшим гамном ещё при жизни

     
     
  • 4.30, Аноним (29), 08:22, 31/07/2022 [^] [^^] [^^^] [ответить]  
  • +5 +/
    Твитор жив, его никто не запретил, это вам им пользоваться запретили.
     
     
  • 5.45, pork chop suey (?), 16:54, 01/08/2022 [^] [^^] [^^^] [ответить]  
  • +/
    в угол поставили за то, что слишком громко величием пукали лол
     
     
  • 6.50, Аноним (47), 03:28, 02/08/2022 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Всё их величие - в коричневом чемодане
     

  • 1.9, InuYasha (??), 12:39, 30/07/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +5 +/
    Это не тот случай когда веб-макаки пытаются в прикладуху? Просто по ключевым словам в тексте )
     
     
  • 2.17, Аноним (18), 17:50, 30/07/2022 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Покажи аналог от матёрых программистов на сях, хех.

    Пользуюсь paperless давно, отличный софт, помогает не сойти с ума от бумажек тем, кому приходится с госмашиной часто взаимодействовать.

     

  • 1.23, Ддд (?), 01:54, 31/07/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    Можно заменить баш скриптом
     
     
  • 2.24, Аноним (24), 03:40, 31/07/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Опять повылезали админы из под ковра...
     

  • 1.28, Аноним (28), 08:06, 31/07/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    Неплохой интерфейс к никакой распознавалке
     
  • 1.34, economist (?), 14:38, 31/07/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    Посмотрел демку, загнал пяток доков, в отличие от большинства выступавших. В целом быстро, не перегружено, теги тыкать легко, для улучшения распознавания PDF нужен ML-тюнинг тессеракта (он способен на большее, используем давно).

    Автоназначение тегов, корреспондентов итд - работает неплохо. Но важно чтобы в самом начале заполняли их адекваты. Обычно это айтишники, которые смигрируют свое файлопомоечное хранилище на сабж. Но тут кому как повезло.    

    Архитектурный плюс - файловое хранилище самих файлов, не в БД. Это хорошо и вот почему.

    Вот в самых дорогих коробках от 1С (УПП за 0,5 млн. руб., ERP за 1 млн. руб.) - сканы лежат в RDBMS PostgreSQL. Круто, правильно. Но вы по лицензии не можете работать с БД напрямую, не из 1С. Знаете к чему это приводит?

    К тому что однажды ваша БД станет неподьемной со 50+ Гб и вы САМИ перестанете хранить в ней сканы, чтобы не навернуть бухучет, зарплату и более важные вещи, за которые можно выхватить штрафы. И будете и дальше плодить файлопомойку с именами вида "Scan123456789.pdf". А сабж - это решение.  

    Чего не хватает, чтобы сразу побежать внедрять: нет никакого DocumentFlow, а самому писать лень. Без визирования или хотя бы "контроля прочтения" - любая EDM - неEDM. Подождем-с...

     
     
  • 2.43, 1 (??), 09:31, 01/08/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Ты бы всё ж попросил у 1с-погромистов поставить галочку "Хранить документы в файловом хранилище" и купил бы у MS лицензию на доступ по SMB.
     
     
  • 3.44, economist (?), 14:50, 01/08/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Такой галочки в озвученных конфигурациях не существует. А если бы и была - полезность сабжа от этого только б выросла.
     
     
  • 4.46, Аноним (46), 17:44, 01/08/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Зашел в "УПП", "ERP", и заодно в "Документооборот".
    Везде настроено хранение сканов в файловой шаре - Что Я Делаю Не Так?
     
     
  • 5.51, Аноним (18), 20:17, 02/08/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Админишь 1С.
     
  • 2.52, svm (??), 07:25, 05/08/2022 [^] [^^] [^^^] [ответить]  
  • +/
    >PDF нужен ML-тюнинг тессеракта...

    А можно поподробнее?

     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Партнёры:
    PostgresPro
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2024 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру