Какой рейтинг вас больше интересует?
|
Главная / Главные темы / Тэг «nlp»
У компании есть еще похожие вакансии 2017-03-30 18:50:20
2 марта я выступал с докладом на Data Science Meetup, который проходил в нашем офисе. Я рассказал ...
+ развернуть текст сохранённая копия
2 марта я выступал с докладом на Data Science Meetup, который проходил в нашем офисе. Я рассказал об опыте создания алгоритма по схлопыванию похожих вакансий в поисковой выдаче. По ссылке вы можете ознакомиться с отчетом о прошедшей встрече, там же будут доступны записи выступлений и ссылки на презентации. Для тех же, кто предпочитает воспринимать информацию в текстовом виде, я написал эту статью.
Мы столкнулись с проблемой, когда в поиске по вакансиям выдача заполнялась одинаковыми вакансиями от одного работодателя. Например, по запросу «водитель» посетитель мог получить 30—40 вариантов одной и той же вакансии на одну и ту же позицию.
Читать дальше →
Тэги: big, data, nlp, php, simhash, superjob, superjob.ru, блог, кластеризация, компании, машинное, обучение
Разделение текста на предложения с помощью Томита-парсера 2017-01-11 08:26:39
Чтобы подготовить русскоязычные тексты для дальнейшего анализа, мне однажды понадобилось разбить их ...
+ развернуть текст сохранённая копия
Чтобы подготовить русскоязычные тексты для дальнейшего анализа, мне однажды понадобилось разбить их на предложения. Разумеется, автоматически. Что приходит на ум в первую очередь, если нужно разделить текст на предложения? Разбить по точкам — угадал?
Если вы начнете это делать, то довольно быстро столкнетесь с тем, что точка — это не всегда разделитель предложений (“т.к.”, “т.д.”, “т.п.”, “пр.”, “S.T.A.L.K.E.R.”). Причем эти токены не всегда будут исключениями при разбивке текста на предложения. Например, “т.п.” может быть в середине предложения, а может и в конце.
Вопросительный и восклицательный знак тоже не всегда разделяют текст на предложения. Например, “Yachoo!”. Предложения могут разделять и другие знаки, например, двоеточие (когда следует список из отдельных утверждений).
Поэтому я долго не думая поискал готовый инструмент и остановился на Томита-парсере от Яндекса. О нем и расскажу.
Читать дальше →
Тэги: language, natural, nlp, php, processing, segmentator, алгоритмы, машинное, обучение, программирование, томита-парсер
Синтаксический анализ текстов с помощью SyntaxNet 2016-12-14 14:50:30
Для одной из задач мне понадобился синтаксический анализатор русскоязычных текстов. Что это такое. ...
+ развернуть текст сохранённая копия
Для одной из задач мне понадобился синтаксический анализатор русскоязычных текстов. Что это такое. Например, у нас есть предложение «Мама мыла раму». Нам нужно получить связи слов в этом предложении в виде дерева:
Из этого дерева понятно, что связаны слова «мама» и «мыла», а также «мыла» и «раму», а слова «мама» и «раму» напрямую не связаны.
Статья будет полезна тем, кому понадобился синтаксический анализатор, но не понятно, с чего начать.
Я занимался этой темой несколько месяцев назад, и на тот момент нашел не много информации по поводу того, где бы взять готовый и желательно свободный анализатор.
Читать дальше →
Тэги: maltparser, nlp, php, python, syntaxnet, tensorflow, алгоритмы, анализ, машинное, обучение, программирование, синтаксический
Если вы мечтаете похудеть быстро, NLP-kod профессора Кондрашова В.В.поможет в этом! 2013-02-12 16:48:19
«Хочешь похудеть? Спроси меня как!» - еще пятнадцать лет назад на улицах можно было встретить людей ...
+ развернуть текст сохранённая копия
«Хочешь похудеть? Спроси меня как!» - еще пятнадцать лет назад на улицах можно было встретить людей с такой надписью на бэйдже.
Тэги: nlp-kod, быстрый, в.в., всём, кондрашова, отзыв, похудеть, профессор
Главная / Главные темы / Тэг «nlp»
|
Взлеты Топ 5
Падения Топ 5
|