<?xml version="1.0" encoding="koi8-r"?>
<rss version="0.91">
<channel>
    <title>OpenForum RSS: Как получить язык ISO 639 из юникода? Надо автоопределять</title>
    <link>https://opennet.dev/openforum/vsluhforumID9/8792.html</link>
    <description>язык, нет ли готовых функций напр. у ICU? Копаю пока безрезульт, подскажи, если знаешь, ALL&lt;br&gt;</description>

<item>
    <title>Как получить язык ISO 639 из юникода? Надо автоопределять (аноним)</title>
    <link>https://opennet.dev/openforum/vsluhforumID9/8792.html#5</link>
    <pubDate>Fri, 06 Aug 2010 13:26:07 GMT</pubDate>
    <description>&amp;gt;Ну да, есть ведь коды конкретно принадлежащие языкам. Если нет - значит &lt;br&gt;&amp;gt;неизвестно, на нет и суда нет, а если есть - я &lt;br&gt;&amp;gt;думал, что есть готовые решения на C++ получать это автоматически. Всё &lt;br&gt;&amp;gt;надо делать самому, гля &lt;br&gt;&lt;br&gt;Те кто хочет странного, всегда все делают сами.&lt;br&gt;</description>
</item>

<item>
    <title>Как получить язык ISO 639 из юникода? Надо автоопределять (vle)</title>
    <link>https://opennet.dev/openforum/vsluhforumID9/8792.html#4</link>
    <pubDate>Thu, 05 Aug 2010 22:12:08 GMT</pubDate>
    <description>&amp;gt;Собственно, текст в UTF-8 может содержать одновременно несколько языков. Что вы предполагаете &lt;br&gt;&amp;gt;получить в таком случае? &lt;br&gt;&lt;br&gt;Такие вещи делаются с помощь статистики. Ключевые слова: цепи маркова (hidden markov model), сглаживание (smoothing, Good-Turing, Witten-Bell, Add-lambda,...), текстовый корпус (texts corpus)&lt;br&gt;и др.&lt;br&gt;&lt;br&gt;</description>
</item>

<item>
    <title>Как получить язык ISO 639 из юникода? Надо автоопределять (UTF8)</title>
    <link>https://opennet.dev/openforum/vsluhforumID9/8792.html#3</link>
    <pubDate>Mon, 12 Jul 2010 16:19:36 GMT</pubDate>
    <description>&amp;gt;&#091;1&#093; наводит на мысль, что можно провести нормализацию формы C, а потом, &lt;br&gt;&amp;gt;закрыв глаза на диапазон 0x0300 - 0x036F и ему подобные из &lt;br&gt;&amp;gt;&#091;2&#093;, прикинуть, что там за язык. &lt;br&gt;&lt;br&gt;Ну да, есть ведь коды конкретно принадлежащие языкам. Если нет - значит неизвестно, на нет и суда нет, а если есть - я думал, что есть готовые решения на C++ получать это автоматически. Всё надо делать самому, гля&lt;br&gt;&lt;br&gt;</description>
</item>

<item>
    <title>Как получить язык ISO 639 из юникода? Надо автоопределять (arturpub)</title>
    <link>https://opennet.dev/openforum/vsluhforumID9/8792.html#2</link>
    <pubDate>Wed, 30 Jun 2010 16:52:23 GMT</pubDate>
    <description>&#091;1&#093; наводит на мысль, что можно провести нормализацию формы C, а потом, закрыв глаза на диапазон 0x0300 - 0x036F и ему подобные из &#091;2&#093;, прикинуть, что там за язык.&lt;br&gt;&lt;br&gt;&#091;1&#093; http://ru.wikipedia.org/wiki/Unicode#.D0.9C.D0.BE.D0.B4.D0.B8.D1.84.D0.B8.D1.86.D0.B8.D1.80.D1.83.D1.8E.D1.89.D0.B8.D0.B5_.D1.81.D0.B8.D0.BC.D0.B2.D0.BE.D0.BB.D1.8B&lt;br&gt;&#091;2&#093; http://www.unicodemap.org/&lt;br&gt;</description>
</item>

<item>
    <title>Как получить язык ISO 639 из юникода? Надо автоопределять (jd)</title>
    <link>https://opennet.dev/openforum/vsluhforumID9/8792.html#1</link>
    <pubDate>Mon, 28 Jun 2010 23:43:28 GMT</pubDate>
    <description>Собственно, текст в UTF-8 может содержать одновременно несколько языков. Что вы предполагаете получить в таком случае?&lt;br&gt;</description>
</item>

</channel>
</rss>
