Что такое стоп-слова? | Агентство копирайтинга Text iS
Стоп-слова (или шумовые слова) это лексические единицы текста, лишенные смысловой нагрузки и особенно нелюбимые заказчиками. К категории стоп-слов относится в основном служебная лексика и не значимые части речи (особенно – вводные слова), а также предлоги, междометия, союзы, частицы. У каждой из поисковых систем имеется собственный список шумовых слов.
Стоп-слова первого абзаца выделены жирным.
Некоторые биржи контента и SEO-компании даже дают своим штатным копирайтерам списки стоп-слов, которые не должны встречаться в тексте. И если во времена глупого SEO, когда уникальным рерайтом можно было завести тексты в ТОП, такое было вполне оправдано, то сегодня это, скорее недостаток.
Нужны ли стоп-слова сегодня?
По собственным наблюдениям, шумовые слова вполне благосклонно воспринимаются поисковыми системами. Естественно, только в том случае если они не переполняют текст, создавая ощущение, будто бы автор намеренно напихал их в материал «для веса». В своей работе каждый нормальный автор не может вообще обходиться без использования стоп-слов.
Как вы понимаете, если какие-то слова встречаются в русском языке, значит, они зачем-то были придуманы. Лишать текст вводных слов, частиц или междометий опасно по той простой причине, что в нормальных текстах стоп-слова являются нормой. Во времена доминирования поведенческих факторов крайне нежелательно делать пустые, эмоционально и лексически слабые тексты. Уж лучше со стоп-словами, но достойно и полновесно, чем намеренная лингвистическая кастрация. Поисковые системы давно уже стремятся к максимальной естественности, а потому стоп-слова все же необходимы, как органичная и обязательная часть русского языка.
Поделиться
Твитнуть
Поделиться
Отправить
Оценить статью
Загрузка…
Ответить
2 Comment threads
1 Thread replies
0 Followers
Most reacted comment
Hottest comment thread
Новые Старые Популярные
Михаил Кунижев
Видимо, беда в том, что заказчикам нужен контент, а не текст. Про стоп-слова узнал впервые. Спасибо, Пётр. Теперь бы понять, что делать с этим знанием
Голос за0Голос против Ответить
Да ничего не делайте, пишите как и раньше, все эти присказки уходят в прошлое. Главное – не увлекаться стоп-словами, и тогда все будет в порядке.
Голос за0Голос против Ответить
Заказчики полюбляют простыню из стоп-слов предоставлять, которые употреблять нельзя под страхом минуса в карму)) Текст получается сухой, неинтересный. А меня вот гложет : и не лень было этому заказчику на двух листах словечки писать?
Голос за3Голос против Ответить
Отличия стоп от минус слов в Яндекс Директ- Как использовать?
В этой статье я разберу, чем отличаются стоп слова от минус слов, ведь эти два понятие очень часто путают. Но это ни одно и тоже.
Стоп слова
Стоп слова – это слова в ключевой фразе, которые не учитывает Яндекс Директ. К примеру, фраза с предлогом будет показываться по тем же запросам, что и без него, конечно если мы не добавим оператор “плюс”. Директу без разницы, есть ли эти слова в ключе или нет и на показ рекламы они не повлияют.
Пример: у нас есть поисковая фраза “купить билет в Тверь”. Предлог “в” не будет учитываться и наше объявление будет показываться по таким запросам как: “купить билеты Тверь”, “купить билеты из Твери”, “купить билет на Тверь” и т.д. То есть ключевая фраза с предлогом = ключевой фразой без него. В данном случае предлог “в” – это стоп слово.
Стоп-слова это не только предлоги, но и некоторые частицы.
Таким образом, включение этих слов в ключевую фразу никак не повлияет на поисковые запросы, по которым будет показываться объявление в директе. Конечно, если вы не добавляете оператор “+”.
Минус слова
Минус слова и минус фразы – это слова и словосочетания при включении которых не происходит показ нашего объявления. Добавить минус слова можно на разных уровнях:
- рекламная кампания
- группа объявлений
- ключевая фраза
Пример: мы продаем холодильники и рекламируемся по ключевой фразе “холодильники в Самаре”. Наши объявления будут показываться по таким поисковым запросам как:
- “утилизация холодильников в Самаре”
- “ремонт холодильником в Самаре недорого”
- ” мастер холодильника +на дом Самара”
Из запросов очевидно, что пользователь не собирается покупать холодильник, а хочет починить, утилизировать или найти мастера. Чтобы отсечь эти не целевые запросы необходимо добавить минус слова:
-утилизация
-ремонт
-мастер
Подведем итог
В данной статья я постарался максимально подробно разобрать, чем отличаются минус-слова от стоп-слов в Директе. Минус слова- это слова, которые мы добавляем, чтобы исключить показы объявления по нецелевым запросам. Стоп слова – частицы, которые не учитывает яндекс директ в нашей ключевой фразе и показ по ним аналогичен показам без них. Надеюсь это информация была полезна для вас. Буду благодарен, если вы поделите этой страницей в социальных сетях. Успешных рекламных кампаний!
Список стоп-слов на русском языке
а |
будем |
будет |
будете |
будешь |
буду |
будут |
будучи |
будь |
будьте |
бы |
был |
была |
были |
было |
быть |
в |
вам |
вами |
вас |
весь |
во |
вот |
все |
всё |
всего |
всей |
всем |
всём |
всеми |
всему |
всех |
всею |
всея |
всю |
вся |
вы |
да |
для |
до |
его |
едим |
едят |
ее |
её |
ей |
ел |
ела |
ем |
ему |
ем |
если |
ест |
есть |
ешь |
еще |
ещё |
ею |
же |
за |
и |
из |
или |
им |
ими |
им |
их |
к |
как |
кем |
ко |
когда |
кого |
ком |
кому |
комья |
которая |
которого |
которое |
которой |
котором |
которому |
которою |
которую |
которые |
который |
которым |
которыми |
которых |
кто |
меня |
мне |
мной |
мною |
мог |
моги |
могите |
могла |
могли |
могло |
могу |
могут |
мое |
моё |
моего |
моей |
моем |
моём |
моему |
моею |
можем |
может |
можете |
можешь |
мои |
мой |
моим |
моими |
моих |
мочь |
мою |
моя |
мы |
на |
нам |
нами |
нас |
наса |
наш |
наша |
наше |
нашего |
нашей |
нашем |
нашему |
нашею |
наши |
нашим |
нашими |
наших |
нашу |
не |
него |
нее |
неё |
ней |
нем |
нём |
нему |
нет |
нею |
ним |
ними |
них |
но |
о |
об |
один |
одна |
одни |
одним |
одними |
одних |
одно |
одного |
одной |
одном |
одному |
одною |
одну |
он |
она |
оне |
они |
оно |
от |
по |
при |
с |
сам |
сама |
сами |
самим |
самими |
самих |
само |
самого |
самом |
самому |
саму |
свое |
своё |
своего |
своей |
своем |
своём |
своему |
своею |
свои |
свой |
своим |
своими |
своих |
свою |
своя |
себе |
себя |
собой |
собою |
та |
так |
такая |
такие |
таким |
такими |
таких |
такого |
такое |
такой |
таком |
такому |
такою |
такую |
те |
тебе |
тебя |
тем |
теми |
тех |
то |
тобой |
тобою |
того |
той |
только |
том |
томах |
тому |
тот |
тою |
ту |
ты |
у |
уже |
чего |
чем |
чём |
чему |
что |
чтобы |
эта |
эти |
этим |
этими |
этих |
это |
этого |
этой |
этом |
этому |
этот |
этою |
эту |
я |
Смотрите также:
слова — шумовые слова и на что они влияют
С появлением Интернета, появились стоп-слова.
Это такие слова, которые в тексте не имеют смысла, а используются для связывания слов в предложения:
- Союзы;
- Междометия;
- Предлоги;
- Местоимения.
Во время оценки плотности ключевых слов необходимо учитывать такие слова, но поисковики такие слова не учитывают.
Категории стоп-слов
- Общие слова. Сразу удаляются поисковыми системами, чтобы предоставить пользователю максимально быстро информацию.
- Зависимые. Слова, которые являются дополнением в основных словах и смысл имеют только в сочетании с общим словом.
Алгоритмы поиска стоп-слов постоянно обновляются и совершенствуются, поскольку часто появляются новые слова.
К стоп-словам можно отнести:
- Цифры или буквы не имеющие согласования со словами;
- Многие из знаков препинания;
- Некоторые из частей речи: местоимения, союзов, предлогов, частиц;
- Популярные в поиске слова;
- Цензура;
- Несогласованные слова с предложением.
Существуют не только общие слова для поиска, но и поисковые системы имеют свой список стоп-слов.
Специальные программы по выявлению стоп-слов
Найти стоп-слова в тексте можно при помощи специальных программ. Они дают возможность определить:
- Количество стоп-слов в тексте;
- Место в тексте, где оно находится;
- Насколько часто они встречаются в тексте
Во время проверки происходит процедура на выявление ключевых слов и при этом создается перечень этих слов. Для начала считываются общие слова и переходы по стоп-слову. Если это касается платных контентов, то итог поиска необходимо умножить на стоимость одного из посетителей.
Производя поиск стоп-слов, автоматически удаляются ненужные слова, чтобы облегчить дальнейший поиск и не засорять «эфир». Благодаря такой работе, чтение новых текстов становится для пользователя более конкретным и более легким в чтении.
что это и какие слова не нужно использовать на сайте
Делаем вашу страницу интересной и стимулируем подписчиков почаще заглядывать к вам на страницу или на сайт за покупками
Стоп-слова — это фразы и слова, которые не несут смысловой нагрузки и затрудняют индексирование страницы поисковыми системами.
Больше видео на нашем канале — изучайте интернет-маркетинг с SEMANTICA
Представьте, что вы едите салат оливье. В него помимо нужных ингредиентов добавили зачем-то кусочки ананаса. В итоге вкус блюда ужасен. Ананас не позволяет почувствовать вкус оливье.
Со стоп-словами так же. Они не нужны в тексте. Они не дают поисковым роботам ранжировать страницу. Они не влияют на смысл текста. Они не помещаются в сниппет в выдаче. Это — мусор, который не нужен в сильном тексте. От мусора нужно избавляться.
Какие бывают стоп-слова и как влияют на ранжирование в Гугл и Яндекс
Каждый день в индекс поисковых систем заносится большое число страниц. Чтобы экономить место на сервере, поисковые машины не учитывают некоторые слова, отбрасывают часть букв, цифры, одиночные местоимения. Они помечаются специальным маркером и не индексируются роботами.
Не используйте стоп-слова в метатегах title и description.
Стоп-слова делят на две группы.
- Общие.
К этой группе относят суффиксы, частицы, предлоги, цифры, частицы, личные местоимения. Они никогда не включаются в индекс поисковиков. Исключение — когда поиск идет по точному соответствию фразе из запроса. - Зависимые.
Это слова, которые зависят от поискового запроса. Иногда некоторые слова из ключевой фразы можно выбросить. Например, если поиск осуществляется по ключу «Лев Николаевич Толстой», отобразятся страницы, которые содержат слова «Лев Николаевич», «Толстой». Но не попадут в выдачу те результаты, где есть просто «Лев», «Николаевич». Эти слова называются шумовыми.
Как стоп-слова влияют на текст при копирайтинге
Стоп-слова не нужны в тексте. Когда копирайтер пишет статью, ему хочется вставить в текст вводные слова: «Соответственно», «тем не менее», «так» и т. д.
Сравним два предложения.
Мороз стоял сильный, соответственно, занятия в школе отменили.
Из-за мороза школы закрыты.
Смысл предложений одинаков — и там, и там говорится, что школа закрыта, дети не учатся. Посмотрите хотя бы на длину этих двух высказываний, на лаконичность.
Человеку, который пишет текст, нужно следить за своей речью. В 95% случаев предложение можно переписать без использования вводных слов, причастных и деепричастных оборотов. Можно сократить число предлогов, местоимений и союзных слов до минимума.
Если вы пишете текст, постоянно перечитывайте то, что уже написали. Не бойтесь сокращать текст. Читатели и поисковые роботы скажут вам спасибо.
Денис Давыдов
Контент-маркетолог
Я работаю с биржей копирайтинга. В день проверяю больше 15 текстов. Постоянно возникает ситуация, когда текст надо сокращать. Чтобы набрать нужное количество символов, автор использует ненужные слова — вводные, обороты, лишние союзы и местоимения. После редактуры такой текст сокращается на 30-40%. Я требую, чтобы вместо воды и стоп-слов писатель использовал какие-то факты, приводил статистику. Например — хоть это и не относится к стоп-словам — любой риторический вопрос можно заменить ответом. Читателю не нужны вопросы, читателю нужны ответы. Это относится и к стоп-словам. Пишите текст и не бойтесь потом его сокращать. Читателю скажут вам спасибо.
Как поисковые системы учитывают стоп-слова
Роботы должны отличать ненужную информацию от нужной. Однозначные числа не индексируются. А вот длинные — например, номера телефонов, адреса организаций, дата или время — попадают в индекс. Это важная информация, пренебрегать ею нельзя.
Если вам нужно обязательно привлечь внимание поисковой системы к стоп-слову — например, если это часть ключа — поставьте перед ним символ «+». Это повысит частотность запроса.
Какие стоп-слова не нужно использовать
- Псевдо-коммерческие слова: бесплатно, даром, скачать.
Эти слова не несут никакой нагрузки в коммерческом тексте. - Названия брендов.
Если вы пишете тематический текст, не используйте названия конкурирующих товаров, компаний. - Слова игровой тематики, связанные с соцсетями.
- Слова, не относящиеся к теме вашего сайта.
- Ключевые запросы, связанные с софтом.
- Нецензурная лексика.
- Лексика порнографического характера.
Следите за тем, что и как вы пишите. Стоп-слов нужно как можно меньше. Но если без них никак не обойтись — не бойтесь их употреблять. В первую очередь вы должны сделать материал привлекательным для читателя, а потом уже для поисковой системы.
Если пишете тематическую статью, стоп-словами для вас будут так же термины, которые относятся к теме. Если страница с текстом оптимизируется под определенную ключевую фразу, при сборе семантического ядра специфичные термины и названия так же будут расценены поисковой системой как стоп-слова.
Нецезурная лексика, брань и пошлые выражения не ценятся ни одной поисковой системой. Любое нецензурное ругательство можно заменить литературным аналогом. Вы же пишете текст, а не говорите с товарищем по подъезду. Следите за литературностью речи.
Как проверить текст на стоп-слова
Вы можете воспользоваться сервисами, которые проверяют текст на стоп-слова онлайн. Самый мощный инструмент — сервис Главреда. Он проверяет материал на соответствие информационному стилю. Он показывает уровень воды в тексте, указывает на фрагменты, которые можно переписать без стоп-слов.
Сервис Advego тоже поможет вам оценить уровень вашего текста. Загрузите текст на биржу, запустите семантический анализ.
Стоп-слова не учитываются поисковиками. Они влияют на читаемость текста. Чем их меньше — тем легче воспринимается материал. Нет никакого смысла спамить такими словами. Но следите за тем, как вы пишите. И если вам точно нужно вставить такое слово, смело пишите. Статья должна быть написана в первую очередь для людей. Потом — для поисковых машин.
Перечитайте ваш текст. Оцените грамотность и логичность изложения. Сократите его, уберите лишнее. И ответьте на вопрос: «Поймет ли сторонний человек смысл статьи, то, что вы хотите до него донести?»
Сильный текст на вашем сайте — залог успешного ранжирования и привлечения посетителей.
Стоп-слова Яндекс.Директа — !SEMTools для Excel
Всем, кто ведет рекламу в Яндекс.Директе, необходимо знать, что такое стоп-слова, и иметь под рукой их список. На этой странице читатель получит исчерпывающую информацию о том, что это за слова и как с ними работать. Ключевую роль в работе со стоп-словами играют операторы соответствия. Смотрите также исчерпывающее руководство — операторы ключевых и минус-слов Яндекс.Директа.
Что такое стоп-слова в Яндекс.Директе
Стоп-слова в общем понимании — это служебные слова, не несущие особого смысла в отрыве от контекста. К таким словам относятся предлоги (в, из, над, за, к…), союзы (и, или) и частицы (ли, то, нибудь), местоимения (я, меня, ты…), некоторые глаголы (например, будешь, будем, есть) и другие слова.
В Яндекс.Директе эти слова строго детерминированы, их список конечен и редко меняется, хотя такое и происходило. Главная их особенность — они не всегда учитываются алгоритмами показа рекламы Яндекс.Директа.
К сожалению, стоп-слова часто путают с минус-словами. Если ищете их, то вот вам 23 отборных списка: списки минус-слов для Яндекс.Директа. Там же описал алгоритм их автоматизированного сбора.
Когда учитываются стоп-слова
Чтобы стоп-слова учитывались при показе рекламы и алгоритмы их не пропускали, должно соблюдаться хотя бы одно из условий:
- Перед стоп-словом стоит оператор «!»
- Перед стоп-словом стоит оператор «+»
- Стоп-слово находится внутри ключевой фразы в кавычках
- Стоп-слово находится между двух квадратных скобок
И, как логическое следствие, если не соблюдено ни одно из этих условий, алгоритм пропускает стоп-слово, и реклама может показаться по запросу как с ним, так и без него.
Учет стоп-слов алгоритмом Яндекс.Директа в разных кейсах
Стоп-слова и операторы
Даже при соблюдении перечисленных выше условий, стоп-слова в каждом кейсе учитываются по-разному.
Для начала рассмотрим кавычки и квадратные скобки. Здесь все просто. Если стоп-слово находится между кавычками или внутри квадратных скобок, к нему применяются те же правила, что и к обычным словам. В случае с кавычками стоп-слово должно присутствовать в запросе вне зависимости от порядка, в случае с квадратными скобками — ровно на той же позиции по отношению к другим словам, которые находятся внутри квадратных скобок.
С «!» и «+» все чуть интереснее. На поверку немногие специалисты придают значение разнице и используют эти символы кто во что горазд, что всегда сказывается на качестве рекламы. Многие допускают и ошибки при настройке рекламы со стоп-словами.
Ошибки при работе со стоп-словами в Яндекс.Директ
Ниже подробный список типичных ошибок, допускаемых специалистами по контекстной рекламе. Пересмотрите вашу рекламу по этому чек-листу — это может существенно улучшить ее эффективность.
Стоп-слова не исключены (на уровне ключевой фразы)
Король в мире фейлов контекстной рекламы. В основном такое позволяют себе только представители индустрии продаж авто и недвижимости. Бюджеты большие, а релевантного трафика мало, надо как-то выкручиваться.
Том, Генри, оба бизнесмены, оба американцы, в общем-то, никакой разницы.
Но на всякий случай проверьте, как обстоят дела с вашими поисковыми запросами.
Стоп-слова не закреплены операторами «!» или «+»
Самая банальная, очень распространенная и при этом самая зловредная ошибка. Может приводить к чудовищному повышению затрат на рекламу. CTR фраз снижается, стоимость клика растет, нерелевантные клики «помогают» расходу бюджета.
Если вы не смотрите отчеты по поисковым запросам, в отчетах по ключевым словам и в сквозной аналитике вы проблему можете даже не заметить. Но когда все-таки дойдете до анализа поисковых запросов, вас могут ждать неприятные сюрпризы.
Лишь 21 из 90 вложенных запросов по фразе «той терьер купить» — на самом деле про него
Использование оператора «+» в ключевых словах, когда нужно использовать «!»
Не все специалисты по контекстной рекламе знают, что многие стоп-слова имеют по несколько словоформ, иначе говоря, склоняются. Используете «+» в случаях, когда слово является релевантным лишь в одной словоформе? Получаете ненужные показы, клики и затраты.
примеры, когда нельзя использовать «+» перед стоп-словами
На случай, если вы подумали, что примеры надуманы, вот выдача Яндекса по одному из запросов:
Использование «!» в ключевых словах, когда нужно использовать «+».
Здесь все наоборот — вы рискуете потерять релевантный охват, если перестрахуетесь и будете использовать лишь одну словоформу. Одно из самых безопасных стоп-слов, где обычно все словоформы релевантны и не стоит закреплять одну — «весь». Но лучше все же проверять 🙂
Кейсы, когда не стоит закреплять словоформу стоп-слова
Как исправить: проверить вложенные запросы с модификатором «+», если большинство фраз релевантны, оставить его и минусовать отдельные слова.
Использование ключевой фразы с закрепленным стоп-словом при отсутствии эквивалентной фразы без него
Закрепление стоп-слов, как правило, повышает качество поисковых запросов, по которым они показываются. Но это существенно урезает охват ключевой фразы.
Как исправить: запустить оба варианта, предварительно проработав минус-слова для каждой ключевой фразы. Зачастую набор минус-слов для таких эквивалентов будет сильно различаться.
Добавление стоп-слова в минус-слова на уровне всей РК
Еще один способ необоснованно урезать охват кампании. Дело в том, что стоп-слова — одни из самых употребимых в языке. Добавление их как исключение на уровень рекламной кампании возможно только если вы удостоверились, что оно не присутствует ни в одном релевантном запросе. По опыту, такое бывает нечасто, к тому же, запросы пользователей невероятно вариативны, ежедневно появляются новые, среди которых могут быть и релевантные.
Как исправить: использовать в качестве минус-фраз не одиночные стоп-слова, а связки стоп-слов с другими словами, во фразовом соответствии. Например, если вы продаете товар и не продаете ничего для этого товара, не исключайте на уровне кампании слово для, а исключайте фразу «для товара«.
Исключение стоп-слова с оператором «!», когда нужно с «+»
Снижает эффективность минусовки, т.к. избавляет не от всех нерелевантных запросов.
И, наоборот, исключение стоп-слова с оператором «+», когда лучше с «!»
Некоторые стоп-слова богаты на словоформы, и исключать их во всех словоформах не стоит, т.к. это может отсечь показы по релевантным запросам.
Полный список стоп-слов Яндекс.Директа со словоформами
Является ли слово стоп-словом, проверялось с помощью прогноза бюджета. Он не пропускает слова по одиночке, если считает их стоп-словами
Данный список будет полезен всем, кто прочел эту статью до конца и решил внимательно пересмотреть поисковые запросы в своей рекламе на предмет их наличия. Напомню, что в моей надстройке !SEMTools есть возможность быстро извлечь из списка ключевых фраз список слов.
При работе со стоп-словами рекомендуется применять этот функционал на имеющейся статистике поисковых запросов в «!точном !соответствии», чтобы понять, какие операторы использовать при исключении конкретного стоп-слова, и на каком уровне его лучше исключать — кампании, группы или фразы. Берем все словоформы конкретного стоп-слова, извлекаем их из массива фраз и просматриваем, есть ли среди найденных словоформ релевантные. Если есть — исключаем конкретные с модификатором «!». Если нет — исключаем с модификатором «+».
Итак, итоговый список стоп-слов, составленный автором SEMTools:
+a \ !a, !an
+about \ !about
+all \ !all, !alled, !alling, !alls
+be \ !am, !are, !ares, !be, !been, !is, !was, !were
+and \ !and, !ands
+any \ !any, !anys
+as \ !as
+at \ !at
+but \ !but, !buts
+by \ !by
+can \ !can, !cans, !could
+do \ !did, !didst, !do, !does, !dost, !doth
+for \ !for, !fors
+from \ !from, !froms
+have \ !had, !has, !hast, !hath, !have, !haves, !having
+i \ !i, !me
+if \ !if
+in \ !in
+it \ !it
+my \ !my
+no \ !no, !noes
+not \ !not, !nots
+of \ !of
+on \ !on
+one \ !one, !ones
+or \ !or
+so \ !so
+that \ !that, !thats
+the \ !the
+they \ !them, !they, !theys
+there \ !there, !theres
+this \ !this
+to \ !to
+we \ !we
+what \ !what, !whats
+which \ !which
+will \ !will, !willed, !wills, !would
+with \ !with, !withs
+you \ !you, !yous
+а \ !а
+есть \ !будем, !будемте, !будет, !будете, !будешь, !буду, !будут, !будучи, !будь, !будьте, !быв, !был, !была, !были, !было, !быть, !евшая, !евши, !евшие, !евший, !евшими, !евших, !евшую, !еден, !едена, !еденный, !еденных, !едено, !едены, !едим, !едите, !едят, !едящая, !едящая, !едящего, !едящее, !едящие, !едящий, !едящим, !едящих, !ел, !ела, !ело, !ем, !емъ, !ест, !есть, !ешь, !ешьте
+бы \ !бы
+в \ !в, !въ
+вы \ !вам, !вами, !вамі, !вас, !вы
+вам \ !вам, !вама, !вамах, !ваме, !вамі, !ваму, !вамы
+весь \ !весей, !веси, !весь, !весям, !весям, !весях, !все, !всё, !всего, !всей, !всем, !всём, !всеми, !всему, !всех, !всею, !всея, !всю, !вся
+во \ !во
+вот \ !вот, !вотом, !вотъ
+да \ !да
+для \ !для
+до \ !до
+он \ !его, !ёго, !ему, !ёму, !им, !него, !нем, !нём, !нему, !ним, !он, !оно, !онъ
+она \ !ее, !её, !ёё, !ей, !ёй, !ею, !нее, !неё, !ней, !нею, !она
+если \ !если
+еще \ !еще, !ещё
+же \ !же
+за \ !за
+и \ !и
+из \ !из
+или \ !или
+они \ !ими, !их, !ним, !ними, !них, !оне, !они
+к \ !к
+как \ !как
+кем \ !кемов, !кемах, !кем, !кема, !кемы, !кеме, !кемов, !кему
+кто \ !кем, !кого, !ком, !кому, !кто
+ко \ !ко
+когда \ !когда
+который \ !котораго, !которая, !которого, !которое, !которой, !котором, !которому, !которою, !которую, !которые, !которыи, !который, !которым, !которыми, !которых, !которыя
+я \ !меня, !мне, !мной, !мною, !я
+мочь \ !мог, !могущая, !могущий, !могущее, !могущего, !могущую, !могущей, !могущем, !могущему, !могущей, !могущим, !могущие, !могущими, !могущих, !могшая, !могший, !могшее, !могшего, !могшую, !могшей, !могшем, !могшему, !могшей, !могшим, !могшие, !могшими, !могших, !моги, !могите, !могла, !могли, !могло, !могу, !могут, !можем, !может, !можете, !можешь, !могши, !мочей, !мочами, !мочь, !мочью
+мой \ !мое, !моё, !моего, !моей, !моем, !моём, !моему, !моею, !мои, !моим, !моими, !моих, !мой, !мою, !моя
+мы \ !мы, !нам, !намъ, !нами, !нас
+на \ !на
+нас \ !намъ, !наса, !насы, !насе, !насом, !насам, !насу
+наш \ !наш, !наша, !наше, !нашего, !нашей, !нашем, !нашему, !нашею, !наши, !нашим, !нашими, !наших, !нашою, !нашу
+не \ !не, !нё
+нет \ !нет, !нета, !нете, !нетом
+но \ !но
+о \ !о
+об \ !об
+один \ !один, !одине, !одином, !одины, !одинов, !одинам, !одинами, !одинах, !одна, !одни, !одним, !одними, !одних, !одно, !одного, !одной, !одном, !одному, !одну
+одна \ !одне, !одны
+от \ !от
+по \ !по
+при \ !при
+с \ !с
+сам \ !сам, !самов, !сами, !сама, !самим, !самими, !самих, !само, !саму
+свой \ !свое, !своё, !своего, !своей, !своем, !своём, !своему, !своею, !свои, !своим, !своими, !своих, !свой, !свою, !своя
+себя \ !себе, !себя, !собой, !собою
+то \ !та, !те, !тем, !тём, !теми, !тех, !то, !того, !той, !том, !тому, !тот, !тою, !ту
+так \ !так
+такой \ !такая, !такие, !таким, !такими, !таких, !такого, !такое, !такой, !таком, !такому, !такою, !такую
+ты \ !тебе, !тебя, !тобой, !тобою, !ты
+только \ !только
+у \ !у
+уже \ !уже
+что \ !чего, !чем, !чём, !чему, !что
+чтобы \ !чтобы
+это \ !эта, !эти, !этим, !этими, !этих, !это, !этого, !этой, !этом, !этому, !этот, !эту
Из наблюдений. Несмотря на то, что все перечисленные слова отмечаются как стоп-слова, не все из них в аукционе Директа работают как стоп-слова! При этом инструменты кросс-минусовки Коммандера их не учитывают. Иначе говоря, никто пока не знает истинный финальный список стоп-слов Яндекс.Директа, а имеющиеся инструменты вводят его пользователей в заблуждение.
Заключение
При подготовке материала были обнаружены новые стоп-слова, которые не фигурировали в моем докладе про стоп-слова на SEMConf. Их тогда было 295, теперь их 440. Кажется, этот список тоже не финальный и обновится, как только мы об этом узнаем.
Нужно обратить внимание, что список не очень хорошо проработан специалистами Яндекса — в него попали множество слов, которые не должны были — причастия, деепричастия, существительные, прилагательные. В то же время многие опытные специалисты по контекстной рекламе знают, что такие очевидные предлоги, как со, под, без в этот список не входят. Будем надеяться, что ошибки будут исправлены в каком-нибудь скором времени.
Список стоп-слов Директа в надстройке SEMTools вызывается функцией =stopwords() — это надо просто ввести в ячейку. С момента этой публикации он будет пополнен всеми стоп-словами, которых не было в предыдущей версии. Добавлю для тех кто не знаком с возможностями надстройки для Excel SEMTools, что она умеет в один клик проставлять перед стоп-словами модификаторы, удалять модификаторы, сами стоп-слова и помимо возможностей работы со стоп-словами умеет еще тонну всего интересного. Скачать надстройку SEMTools
что это и зачем они нужны?
Главная—Блог—Интернет маркетинг—Стоп-слова: что это и зачем они нужны?
Стоп-слова – это слова, которые можно и даже нужно удалять из текстов. Причем никакой смысл для читателя при этом не потеряется.
Сразу приведем пример текста для наглядности.
Со стоп-словами:
На сегодняшний день одной из самых актуальных проблем россиян является проблема повышения пенсионного возраста.
Без стоп-слов:
Россияне боятся повышения пенсионного возраста.
Какой текст выглядит и воспринимается проще? Ответ очевиден.
Сами по себе стоп-слова не такие уж и плохие. Иногда их использование даже уместно. Но чаще – это обычный мусор. Текст не станет интереснее для читателя, если убрать стоп-слова. Но он станет чище и легче. Вашему читателю будет намного приятнее пробежаться по чистому тексту и выхватить для себя главное.
Зачем необходимо удалять стоп-слова из текста?
— Ваши посты будут читаться на одном дыхании.
— Вы легко донесете до читателя смысл вашей публикации.
— Отредактированный, чистый текст продемонстрирует ваше уважение к аудитории.
Итак, как работать со стоп-словами?
1. Выучить группы стоп-слов
Сегодня совсем несложно выучить эти группы, потому что литературы и печатной, и электронной по данном вопросу в достатке. Обычно выделяют вводные слова, оценки, штампы, эвфемизмы.
2. Научиться видеть стоп-слова
Пока вы не набили руку в редактировании стоп-слов воспользуйтесь бесплатным сервисом «Главред». Сервис покажет не только стоп-слова, но и воду в вашем тексте. А сервис Advego сделает семантический анализ вашего текста.
3. Удалить стоп-слова
Не бойтесь расставаться со стоп-словами. Избавьтесь от штампованных «конечно», «разумеется», «безусловно». В сильном тексте не место словам, не несущим никакой смысловой нагрузки.
4. Наполнить текст полезным
Вместо воды и мусора наполните текст фактами или приведите статистику. Откажитесь от риторических вопросов.
Творите и не бойтесь сокращать слова. Сильный текст – эффективный инструмент привлечения аудитории.
Стоп-слова для поиска ключевых слов в Буквариксе
Для чего нужны стоп-слова в Буквариксе?
При поиске по слову или списку слов Букварикс по умолчанию использует список служебных частей речи (предлоги, союзы, частицы), которые он игнорирует, если находит в поисковых словах, т.е. запрашивает словосочетание без служебных слов. Это отключаемая настройка (Настройки -> Настройка поиска -> Игнорировать слова при поиске). Тем не менее, в подавляющем большинстве случаев от использования стоп-слов пользователь выигрывает — ведь ему не нужно корректировать фразы, построенные по правилам естественного языка, выбрасывая из них предлоги, а список полученных результатов будет включать намного больше целевых словосочетаний. Например, во фразе «отпуск на море» есть стоп-слово – предлог «на». Если предлог игнорируется, то в выборке будут встречаться также словосочетания «отпуск у моря», «в отпуск к морю» и т.д.
Как был получен список стоп-слов?
Мы решили улучшить и дополнить список наших стоп-слов, проанализировав стоп-слова Яндекса, т.е. те слова, которые Яндекс игнорирует при поиске. Выглядит это таким образом, что когда вы запрашиваете Вордстат, введя словосочетание со стоп-словом и затем его же, но без стоп-слова, то Вордстат покажет одинаковое количество просмотров этого словосочетания в обоих случаях. Мы составили список уникальных слов своей базы и запросили частотности для этих слов, затем отсортировали по количеству употреблений и выделили те слова, которые часто встречаются в различных фразах, но при этом широкая частотность в Вордстате у них равна нулю.
Полученный список включает как слова русского языка, так и английские, украинские, немецкие, болгарские и турецкие слова. На основе этих данных мы уточнили свой текущий краткий список стоп-слов русского языка, а также составили расширенный список, включающий краткий, также для русского языка.
Чем отличаются списки стоп-слов в Вордстате и Буквариксе?
При этом в кратком списке мы использовали некоторые дополнительные слова, которые Яндекс не считает стоп-словами («среди», «между», «под», «над»), и также исключали слова, которые Яндекс считает стоп-словами («не» «нет»).
Также и в расширенный список, который мы составили на основе данных Вордстата, включены некоторые дополнительные по сравнению с Вордстатом слова, отсутствие которых нам кажется нелогичным. Например, в соответствии с Вордстатом слово «сам» является стоп-словом, но при этом «сама», «само», «самой», «самому» и пр. формы стоп-словами не считаются. Также из основных словоформ глагола «быть» почему-то не является стоп-словом форма 2 лица множественного числа будущего времени «будете», хотя при этом формы «будем», «будешь», «будет» и др. являются стоп-словами. Притяжательные местоимения «мой», «наш», «его», «её», «их» с соответствующими словоформами — это стоп-слова, а «твой» и «ваш» (с их словоформами) стоп-словами не являются. В предложенном нами списке эти нелогичности исправлены.
Еще мы даем вам списки стоп-слов русского языка, которые получены с помощью анализа Вордстата без каких-либо наших дополнений. Таким образом, мы сформировали четыре списка стоп-слов, которые предлагаем вашему вниманию.
Руководство на 2021 год (со списком)
Есть определенные слова, которые поисковые системы могут игнорировать как в поисковых запросах, так и в результатах поиска.
Слова вроде — , — или — .
Они известны как стоп-слова и обычно представляют собой артикли, предлоги, союзы или местоимения. Они не меняют смысла запроса и используются при написании контента для правильной структурирования предложений.
Вам не придется далеко ходить, чтобы найти заголовки страниц, теги заголовков или даже основной текст, где отсутствуют стоп-слова.
Хотите увидеть пример? Взгляните на эти два поисковых запроса:
Рестораны в Бруклине
Restaurants Brooklyn
В данном случае, это стоп-слово. Но удалите его, и контекстный смысл запроса не изменится.
Однако, если вы напишете в своем контенте «Restaurants Brooklyn», без них он будет плохо читаться. Вы не стали бы писать содержание в полных предложениях без ключевых слов, которые связывают все воедино.
Оптимизаторы поисковых систем не должны тратить свое время на то, чтобы слишком беспокоиться о стоп-словах или пытаться выяснить, следует ли им удалять их из любого места на своем веб-сайте.
В этом посте мы углубимся в стоп-слова и рассмотрим:
Как уже обсуждалось, стоп-слова — это общие слова, такие как статьи, предлоги, союзы и местоимения, которые поисковые системы могут игнорировать. Такие слова, как the, in или a.
Концепция стоп-слов была впервые предложена Гансом Петером Луном, одним из пионеров в области поиска информации.
Но насколько вам нужно беспокоиться о стоп-словах, как оптимизатору поисковых систем? И как тот факт, что поисковые системы игнорируют это, должен изменить ваш подход к созданию и оптимизации контента?
Стоп-слова, используемые поисковыми системами для ускорения сканирования и индексации с целью экономии места для хранения. Они игнорировались как в поисковых запросах, так и в результатах поиска.
Эти слова не имеют ничего общего с содержанием на уровне контекста, и их удаление не меняет общего значения текста.
Однако то, что не означает , означает, что вам следует удалить стоп-слова из своего контента. Ниже мы рассмотрим, как следует и не следует использовать стоп-слова при оптимизации сайта.
Вот что Билл Славски говорит о стоп-словах и о том, как Google (может) к ним относится:
Возможно, Google продолжает использовать стоп-слова, но они относятся к ним иначе, чем в прошлом, признавая, что некоторые из них имеют смысл . Впервые о них я написал в 2008 году: https: // t.co / ySZayYZCkm
Возможно, стоит объяснить это или удалить такие списки.— Билл Славски ⚓ (@bill_slawski) 6 февраля 2021 г.
Стоп-слова иногда могут иметь большое влияние на поисковую выдачу. Дон Андерсон указывает на отличный пример того, как одно слово, в данном случае слово «the», может изменить всю поисковую выдачу:
Подозреваю, что многое из этого изменилось еще больше с появлением контекстного естественного языка ML. Многие из этих «стоп-слов» — это клей, скрепляющий контекст.Кроме того, «Кто» — это не то же самое, что «кто», поэтому, несомненно, все неиспользованные стоп-слова, вероятно, устарели
— Дон Андерсон (@dawnieando) 6 февраля 2021 г.
Dawn также предоставила дополнительные доказательства того, что поисковые системы не используют стоп-листы, сославшись на это исследование из Стэндфорда и процитировав:
Общая тенденция в IR-системах с течением времени была связана со стандартным использованием довольно больших стоп-листов (200-300 терминов). в очень маленькие стоп-листы (7-12 терминов), в какие-либо стоп-листы.Системы веб-поиска обычно не используют стоп-листы.
Далее она привела и другие примеры:
Еще из этой статьи: «Фраза-запрос« Президент Соединенных Штатов », содержащая два стоп-слова, более точна, чем« Президент »И« Соединенные Штаты. ». Значение полетов в Лондон, вероятно, будет потеряно, если слово «to» будет исключено ».
— Дон Андерсон (@dawnieando) 8 февраля 2021 г.
Вообще говоря, поисковые системы используют стоп-слова, чтобы лучше понять контекст поиска, поскольку они могут сильно повлиять на то, что представляется пользователям.
Теперь, когда мы обсудили, что такое стоп-слова в SEO, давайте посмотрим, как эффективно их использовать в различных аспектах вашего URL-адреса, заголовков страниц и контента.
Стоп-слова в URL-адресах уже много лет обсуждаются в SEO-сообществе, но не стоит слишком об этом беспокоиться.
Если ваш сайт работает на WordPress и вы используете плагин Yoast SEO, вы, вероятно, помните, что видели рекомендации по удалению стоп-слов из URL-адреса вашей страницы.
CMS или веб-мастер нередко используют заголовок или заголовок страницы для создания слага страницы.Это может привести к получению длинных URL-адресов.
Вы можете ознакомиться с нашим руководством по созданию оптимизированных для SEO URL. Мы обсуждаем сокращение или оптимизацию, где это возможно, чтобы URL-адреса были легкими для чтения и содержательными.
Однако, если вам необходимо сократить длинный URL-адрес, вы можете рассмотреть возможность удаления стоп-слов, если они не влияют на контекст. По мнению Google, они рекомендуют сохранять простую структуру URL-адресов.
В поисковой выдаче много заголовков и тегов заголовков, в которых отсутствуют стоп-слова.Однако, на наш взгляд, вы должны оставить их на месте.
Теги заголовков используются не только поисковыми системами. Они отображаются в поисковой выдаче:
Представьте, что в приведенном выше примере есть тег заголовка без стоп-слов. Он читался как «Лучшие шоу фильмов, транслируемых HBO Max — Разнообразие». Удаление стоп-слов делает его неудобным для чтения, и становится очевидным, что часть заголовка отсутствует.
Когда элемент виден пользователям и используется для принятия решения, нажимать ли (или оставаться на ней) вашу страницу, вы всегда должны отдавать предпочтение опыту пользователя.
Это простой:
Вы никогда не должны удалять стоп-слова из содержимого вашего тела ; это сделало бы его совершенно нечитаемым. Вы должны ставить своих пользователей на первое место и никогда не жертвовать их опытом ради того, как, по вашему мнению, поисковая система может просматривать ваш контент.
Реальность такова, что большинство маркетологов не должны беспокоиться о стоп-словах. Понимая, что они из себя представляют и как их обрабатывают поисковые системы, вы лучше подготовитесь к тому, чтобы принимать правильные решения в отношении их использования.
Игнорируйте советы по удалению их из заголовков и заголовков, так как это может повредить пользовательскому опыту, но рассмотрите возможность исключения их из URL-адресов страниц, если вам нужно их сократить, и это не меняет контекст.
Всегда ставьте своих пользователей на первое место, и вы обычно обнаружите, что это также лучший вариант для поисковых систем.
Не существует единого универсального списка стоп-слов, но мы составили исчерпывающий список из более чем 175.
Используйте его в качестве ориентира при оптимизации вашего сайта и понимании того, как поисковые системы могут обрабатывать эти слова.
A | a как |
B | до |
C 03 может | |
C 03 мог | |
D | сделал |
E | каждый либо еще 0 |
несколько | |
H | было |
I | I |
J | просто |
L | давайте |
может я | |
N | ни |
O | из сами |
S | то же |
, чем | |
U | и er |
V | очень |
W | было |
Y | да |
Начни бесплатно Пробная версия с Semrush
Find Keyword Insights и многое другое!
Краткое введение в стоп-слова |
Даниэль Дионн на Flickr
Умная техника для ускорения поиска в базе данных также представляет собой интересную концепцию.
Представьте, что вы написали программу для поисковых систем. Теперь вы хотите увеличить скорость поиска вашего программного обеспечения в базе данных. Как ты это делаешь? Какие компромиссы?
Допустим, кто-то набирает в вашей поисковой системе эту фразу:
Дождь выпадает в основном на равнине в Испании зимой
Обратите внимание, что в этой фразе есть три экземпляра слова the. Что делать, если вы заменили звездочку, например:
* дожди выпадают в основном на * равнине в Испании * зимой
Если у вас есть 10 миллионов записей в вашей базе данных, используемых для предоставления результатов поиска, замена трех символов слова одним символом, звездочкой, может сэкономить вам много места в вашей базе данных, а также ускорить поиск за счет меньшего количества данных. разбирать.
Теперь обратите внимание, что эта поисковая фраза также многократно использует слово in. Давайте также заменим это на звездочку:
* в основном выпадают дожди * * равнины * Испания * * зима
Очевидно, что этот блок данных содержит более уникальные слова для анализа: дождь, в основном водопады, равнина, Испания, зима. Теоретически удаление и в даст более точные результаты поиска.
Для поиска в базе данных вы можете выполнить несколько запросов: один по слову дождь, другой по запросу водопад, третий по слову равнина, третий по Испании и третий по зиме.Каждый из этих поисков будет быстрее, так как не нужно разбирать слова the и in.
Такие слова, как the, in, at, that, which и on называются стоп-словами. Стоп-слова, придуманные Гансом Петером Луном, одним из первых пионеров методов поиска информации, являются настолько распространенными словами, что их можно исключить из поиска, поскольку они увеличивают объем работы, необходимой программному обеспечению для их анализа, при этом обеспечивая минимальную выгоду. Например, люди редко ищут только слово the.
Однако, если вы хотите найти информацию о группе The Who и любую фразу, которая может включать стоп-слово, ваша поисковая система может выдать точные результаты, а может и нет.Стоп-слова могут случайно помешать получению правильных результатов. Удаление слова, которое из вашей поисковой базы данных может не вызвать проблем. Убрав слово, вероятно, будет.
Одним из умных решений может быть отметка появления и положения стоп-слов, а также их удаление из базы данных. В нашем примере выше вы можете заменить экземпляры слова the на число 1, а экземпляры слова in на число 2, например:
1 дожди в основном выпадают 2 1 равнины 2 Испания 2 1 зима
Это дает преимущества отказа от использования стоп-слов с увеличением скорости удаления стоп-слов из базы данных.На более позднем этапе обработки результатов поиска вы можете включить слова the и in, переведя экземпляры на 1 и in на 2. Вместо тупой звездочки вы используете односимвольный пробел более тонким и значимым образом.
Другое решение для обработки стоп-слов связано с тем, как вводятся условия поиска. Использование двойных кавычек вокруг фразы указывает поисковой системе рассматривать фразу как единый блок. Код вашей поисковой системы может искать двойные кавычки и обрабатывать их как один блок.Таким образом, эта поисковая фраза вернет точные результаты, даже если в ней используется стоп-слово:
Текст песни «Кто»
Если вы заменили экземпляры слова the в своей базе данных числом 1, ваш поиск может искать «1 Who» с поиском песни и другим поиском текста.
Как и все примеры и возможности в этой статье, то, что на самом деле закодировано, и как спроектирована и построена поисковая машина, чрезвычайно сложно и трудно предсказать. Эти детали являются обобщениями, объясняющими концепцию стоп-слов и их влияние на поисковые системы.
То, что поисковые системы оставляют в своих базах данных, зависит от информированного мнения и опыта программистов, которые проектируют и создают движок. Как и во многих других областях вычислений, не существует 100% наилучшего способа быстро решить проблему предоставления точных результатов поиска. Стоп-слова — это просто один из многих подходов. Подумайте об этом, когда в следующий раз наберете или в поисковой системе.
Узнать больше
Википедия: стоп-слова
http: // en.wikipedia.org/wiki/Stop_words
Подробная ошибка IIS 10.0 — 404.11
Ошибка HTTP 404.11 — не найдено
Модуль фильтрации запросов настроен на отклонение запроса, содержащего двойную escape-последовательность.
Наиболее вероятные причины:
- Запрос содержал двойную escape-последовательность, а фильтрация запросов настроена на веб-сервере, чтобы отклонять двойные escape-последовательности.
Что можно попробовать:
- Проверьте конфигурацию / систему.webServer / security / requestFiltering @ allowDoubleEscaping в файле applicationhost.config или web.confg.
Подробная информация об ошибке:
Модуль | RequestFilteringModule | |||||||
---|---|---|---|---|---|---|---|---|
Уведомление | BeginRequest | |||||||
Обработчик | StaticFile | |||||||
Код ошибки |
Запрошенный URL | https: // www.relativity.com:443/relativity/portals/0/documents/7.5%20documentation%20help%20site/content/relativity%20searching/keyword%20search/stopwords/understanding%20stop%20words.htm |
---|---|
Physical Path | D : \ web \ relativity-v2.com \ htdocs \ relativity \ portals \ 0 \ documents \ 7.5% 20documentation% 20help% 20site \ content \ relativity% 20searching \ keyword% 20search \ stopwords \standing% 20stop% 20words.htm |
Метод входа в систему | Еще не определено |
Пользователь входа в систему | Еще не определено |
Дополнительная информация:
Это функция безопасности.Не изменяйте эту функцию, пока не полностью осознаете масштаб изменения. Перед изменением этого значения следует выполнить трассировку сети, чтобы убедиться, что запрос не является вредоносным. Если сервер разрешает двойные escape-последовательности, измените параметр configuration/system.webServer/security/requestFiltering@allowDoubleEscaping. Это могло быть вызвано неправильным URL-адресом, отправленным на сервер злоумышленником.
Просмотр дополнительной информации »
Удаление стоп-слов из строк в Python
В этой статье вы увидите различные методы удаления стоп-слов из строк в Python.Стоп-слова — это слова на естественном языке, которые имеют очень мало значения, такие как «есть», «an», «the» и т. Д. Поисковые системы и другие корпоративные платформы индексирования часто фильтруют стоп-слова при извлечении результатов из базы данных по пользовательские запросы.
Стоп-слова часто удаляются из текста перед обучением моделей глубокого обучения и машинного обучения, поскольку стоп-слова встречаются в изобилии, а значит, практически не предоставляют уникальной информации, которую можно использовать для классификации или кластеризации.
Удаление стоп-слов с помощью Python
С языком программирования Python у вас есть множество опций, которые можно использовать для удаления стоп-слов из строк. Вы можете использовать одну из нескольких библиотек обработки естественного языка, таких как NLTK, SpaCy, Gensim, TextBlob и т. Д., Или, если вам нужен полный контроль над стоп-словами, которые вы хотите удалить, вы можете написать свой собственный сценарий.
В этой статье вы увидите несколько различных подходов в зависимости от библиотеки НЛП, которую вы используете.
Использование библиотеки Python NLTK
Библиотека NLTK — одна из старейших и наиболее часто используемых библиотек Python для обработки естественного языка. NLTK поддерживает удаление стоп-слов, и вы можете найти список стоп-слов в модуле corpus
. Чтобы удалить стоп-слова из предложения, вы можете разделить текст на слова, а затем удалить слово, если оно выходит из списка стоп-слов, предоставленного NLTK.
Давайте посмотрим на простой пример:
от nltk.корпус импортных игнорируемых слов
nltk.download ('стоп-слова')
из nltk.tokenize import word_tokenize
text = "Ник любит играть в футбол, но не очень любит теннис."
text_tokens = word_tokenize (текст)
tokens_without_sw = [слово в слово в text_tokens, если не слово в stopwords.words ()]
печать (tokens_without_sw)
В приведенном выше сценарии мы сначала импортируем коллекцию стоп-слов
из модуля nltk.corpus
. Затем мы импортируем метод word_tokenize ()
из nltk.tokenize
класс. Затем мы создаем переменную text
, которая содержит простое предложение. Предложение в переменной text
токенизируется (делится на слова) с помощью метода word_tokenize ()
. Затем мы перебираем все слова в списке text_tokens
и проверяем, существует ли слово в коллекции стоп-слов или нет. Если слово не существует в коллекции стоп-слов, оно возвращается и добавляется в список tokens_without_sw
.Затем распечатывается список tokens_without_sw
.
Вот как предложение выглядит без стоп-слов:
['Ник', 'лайки', 'играть', 'футбол', ',', 'однако', 'любить', 'теннис', '.']
Вы можете видеть, что слова с по
, он
, это
, не
и тоже
были удалены из предложения.
Вы можете присоединиться к списку вышеперечисленных слов, чтобы создать предложение без стоп-слов, как показано ниже:
filter_sentence = ("").присоединиться (tokens_without_sw)
печать (отфильтрованное_предложение)
Вот результат:
Ник любит играть в футбол, но любит теннис.
Добавление или удаление стоп-слов в списке стоп-слов NLTK по умолчанию
Вы можете добавлять или удалять стоп-слова по вашему выбору в существующий набор стоп-слов в NLTK. Прежде чем удалять или добавлять стоп-слова в NLTK, давайте посмотрим список всех английских стоп-слов, поддерживаемых NLTK:
печать (стоп-слов.слова ('английский'))
Выход:
['я', 'я', 'мой', 'я', 'мы', 'наш', 'наш', 'мы', 'ты', "ты", "ты" , "вы", "вы бы", 'ваш', 'ваш', 'себя', 'вас', 'он', 'его', 'его', 'он', 'она', " she's »,« ее »,« ее »,« она »,« это »,« это »,« ее »,« сама »,« они »,« они »,« их »,« их »,« они » , 'what', 'which', 'who', 'who', 'this', 'that', "that'll", 'this', 'те', 'am', 'is', 'are' , 'был', 'был', 'быть', 'был', 'быть', 'иметь', 'имел', 'иметь', 'иметь', 'делать', 'делает', 'сделал', ' выполнение ',' a ',' an ',' the ',' and ',' but ',' if ',' or ',' потому что ',' as ',' until ',' while ',' of ' , 'at', 'by', 'for', 'with', 'about', 'Again', 'between', 'into', 'through', 'во время', 'до', 'после', ' выше ',' ниже ',' в ',' от ',' вверх ',' вниз ',' внутрь ',' вне ',' вкл ',' выкл ',' над ',' под ',' снова ' , 'далее', 'затем', 'один раз', 'здесь', 'там', 'когда', 'где', 'почему', 'как', 'все', 'любой', 'оба', ' каждый »,« несколько »,« больше »,« большинство »,« другие »,« некоторые »,« такие »,« нет »,« ни »,« не »,« только »,« свой »,« такой же » , s o ',' than ',' too ',' very ',' s ',' t ',' can ',' will ',' just ',' don ', "не",' следует ', " должен был иметь ", 'сейчас', 'd', 'll', 'm', 'o', 're', 've', 'y', 'ain', 'aren'," не " , 'couldn', 'could', 'didn', "not", 'doesn', "not", 'hadn', "hadn't", 'hasn', "не имеет" , 'haven', "not", 'isn', "not", 'ma', 'mightn', "could not", 'mustn', "must not", 'needn', " не нужно »,« шань »,« не должен »,« не должен »,« не должен »,« не было »,« не было »,« не было »,« не было »,« выиграл »," не будет ", 'не будет'," не будет "]
Добавление стоп-слов в список стоп-слов NLTK по умолчанию
Чтобы добавить слово в коллекцию стоп-слов NLTK, сначала создайте объект из стоп-слов.слов ('английский')
список. Затем используйте метод append ()
в списке, чтобы добавить любое слово в список.
Следующий сценарий добавляет слово play
в коллекцию стоп-слов NLTK. Опять же, мы удаляем все слова из нашей переменной text
, чтобы увидеть, удалено ли слово play
или нет.
all_stopwords = stopwords.words ('английский')
all_stopwords.append ('играть')
text_tokens = word_tokenize (текст)
tokens_without_sw = [слово в слово в text_tokens, если не слово в all_stopwords]
печать (tokens_without_sw)
Выход:
['Ник', 'лайки', 'футбол', ',', 'однако', 'любил', 'теннис', '.']
Выходные данные показывают, что слово play
было удалено.
Вы также можете добавить список слов в список stopwords.words
, используя метод append
, как показано ниже:
sw_list = ['нравится', 'играть']
all_stopwords.extend (sw_list)
text_tokens = word_tokenize (текст)
tokens_without_sw = [слово в слово в text_tokens, если не слово в all_stopwords]
печать (tokens_without_sw)
Скрипт выше добавляет два слова любит
и play
к стоп-словам.список слов
. В выводе вы не увидите эти два слова, как показано ниже:
Выход:
['Ник', 'футбол', ',', 'однако', 'любящий', 'теннис', '.']
Удаление стоп-слов из списка стоп-слов NLTK по умолчанию
Поскольку stopwords.word ('english')
— это просто список элементов, вы можете удалять элементы из этого списка, как и любой другой список. Самый простой способ сделать это — использовать метод remove ()
. Это полезно, когда вашему приложению требуется стоп-слово, которое нельзя удалить.Например, вам может потребоваться сохранить в предложении слово , а не
, чтобы знать, когда утверждение отвергается.
Следующий скрипт удаляет стоп-слово , а не
из списка стоп-слов по умолчанию в NLTK:
all_stopwords = stopwords.words ('английский')
all_stopwords.remove ('не')
text_tokens = word_tokenize (текст)
tokens_without_sw = [слово в слово в text_tokens, если не слово в all_stopwords]
печать (tokens_without_sw)
Выход:
['Ник', 'нравится', 'играть', 'футбол', ',', 'однако', 'не', 'любить', 'теннис', '.']
Из выходных данных видно, что слово , а не
не было удалено из входного предложения.
Использование библиотеки Python Gensim
Библиотека Gensim — еще одна чрезвычайно полезная библиотека для удаления стоп-слов из строки в Python. Все, что вам нужно сделать, это импортировать метод remove_stopwords ()
из модуля gensim.parsing.preprocessing
. Затем вам нужно передать предложение, из которого вы хотите удалить стоп-слова, методу remove_stopwords ()
, который возвращает текстовую строку без стоп-слов.
Давайте рассмотрим простой пример того, как удалить стоп-слова через библиотеку Gensim.
из gensim.parsing.preprocessing import remove_stopwords
text = "Ник любит играть в футбол, но не очень любит теннис."
filter_sentence = remove_stopwords (текст)
печать (отфильтрованное_предложение)
Выход:
Ник любит играть в футбол, увлекается теннисом.
Важно отметить, что результат удаления стоп-слов с помощью библиотек NLTK и Gensim отличается.Например, библиотека Gensim считала слово , а
стоп-словом, а NLTK — нет, и поэтому не удалила его. Это показывает, что не существует жестких правил относительно того, что такое стоп-слово, а что нет. Все зависит от задачи, которую вы собираетесь выполнять.
В следующем разделе вы увидите, как добавить или удалить стоп-слова из существующей коллекции стоп-слов в Gensim.
Добавление и удаление стоп-слов в списке стоп-слов Gensim по умолчанию
Давайте сначала взглянем на стоп-слова в библиотеке Python Gensim:
импорт gensim
all_stopwords = gensim.parsing.preprocessing.STOPWORDS
печать (all_stopwords)
Выход:
frozenset ({'ее', 'во время', 'среди', 'после', 'только', 'ее', 'в', 'нет', 'с', 'un', 'положить', ' отсюда ',' каждый ',' будет ',' иметь ',' к ',' сам ',' тот ',' кажущийся ',' после этого ',' кто-то ',' восемь ',' она ',' сорок ' , «много», «повсюду», «меньше», «было», «интерес», «где-то еще», «уже», «что угодно», «или», «кажется», «огонь», «однако», « держать ',' деталь ',' оба ',' себя ',' действительно ',' достаточно ',' тоже ',' нас ',' при чем ',' себя ',' позади ',' все ',' часть ' , 'made', 'after', 'for', 'nor', 'before', 'front', 'искренний', 'действительно', 'than', 'один', 'делаю', 'среди', ' поперек »,« он »,« другой »,« какой-то »,« кто угодно »,« четыре »,« другой »,« недавно »,« выключен »,« когда-нибудь »,« выше »,« часто »,« здесь » , 'am', 'посредством', 'хотя', 'кто', 'должен', 'количество', 'так или иначе', 'else', 'при', 'это', 'когда', 'мы', ' мало ',' где угодно ',' будет ',' хотя ',' быть ',' заполнить ',' использовано ',' полный ',' через ',' вызов ',' после чего ',' различные ',' имеет ' , 'такой же', 'бывший', 'тогда как', 'что', 'было', 'в основном', 'на', 'иди' , 'мог', 'себя', 'тем временем', 'за пределами', 'рядом', 'наш', 'сторона', 'наш', 'пять', 'никто', 'сама', 'есть', ' всегда ',' они ',' здесь ',' одиннадцать ',' пятьдесят ',' следовательно ',' ничто ',' не ',' мельница ',' без ',' откуда ',' получить ',' куда ' , 'then', 'no', 'own', 'many', 'something', 'и т. д.,' make ',' from ',' против ',' ltd ',' next ',' afterwards ',' за исключением ',' в то время как ',' тонкий ',' заранее ',' по ',' среди ',' ты ',' третий ',' как ',' те ',' сделано ',' становясь ',' скажи ' , 'либо', 'не', 'двадцать', 'его', 'еще', 'последний', 'как-то', 'есть', 'эти', 'мой', 'под', 'взять', ' чьи ',' другие ',' сверх ',' возможно ',' отсюда ',' делает ',' где ',' два ',' всегда ',' твой ',' где бы ',' стал ',' который ' , 'о', 'но', 'по направлению', 'еще', 'скорее', 'вполне', 'будь', 'где-то', 'мог бы', 'делать', 'дно', 'до', ' км ',' твой ',' серьезный ',' найти ',' пожалуйста ',' hasnt ',' иначе ',' шесть ',' навстречу ',' иногда ',' из ',' пятнадцать ',' например ' , 'просто', 'а', 'я', 'описать', 'почему', 'ан', 'и', 'может', 'внутри', 'кг', 'против', 'ре', 'тем не менее', 'через', 'очень', 'так или иначе', 'вниз', 'нигде', 'сейчас', 'это', 'не могу', 'де', 'двигаться', 'настоящим', 'как ',' найдено ',' кем ',' были ',' вместе ',' снова ',' кроме того ',' первый ',' никогда ',' ниже ',' между ',' компьютер ',' десять ', 'в', 'видеть', 'везде', 'там', 'ни', 'каждый', 'не мог', 'вверх', 'несколько', 'то', 'я', 'становится', 'не ',' ie ',' был ',' после чего ',' казалось ',' большинство ',' никто ',' целое ',' должен ',' не может ',' за ',' мой ',' тем самым ', 'так', 'он', 'имя', 'со', 'его', 'все', 'если', 'стать', 'толстый', 'таким образом', 'в отношении', 'не', 'дать ',' все ',' показать ',' любой ',' используя ',' дальше ',' дальше ',' вокруг ',' назад ',' минимум ',' с ',' любой ',' один раз ', 'может', 'счет', 'в дальнейшем', 'быть', 'кажется', 'их', 'я', 'девять', 'также', 'система', 'в', 'больше', 'из ',' двенадцать ',' там ',' почти ',' кроме ',' последний ',' сделал ',' что-то ',' кроме ',' через ',' всякий раз, когда ',' раньше ',' плакать ', 'один', 'сто', 'шестьдесят', 'после', 'колодец', 'они', 'а именно', 'пустой', 'три', 'даже', 'вдоль', 'потому что', 'ou rself ',' such ',' top ',' due ',' inc ',' сами '})
Вы можете видеть, что набор стоп-слов по умолчанию в Gensim намного более детализирован по сравнению с NLTK.Кроме того, Gensim сохраняет стоп-слова по умолчанию в объекте замороженного набора.
Добавление стоп-слов в список стоп-слов Gensim по умолчанию
Чтобы получить доступ к списку стоп-слов Gensim, вам необходимо импортировать замороженный набор STOPWORDS
из пакета gensim.parsing.preprocessong
. Замороженный набор в Python — это тип неизменяемого набора. Вы не можете добавлять или удалять элементы в замороженном наборе. Следовательно, чтобы добавить элемент, вы должны применить функцию union
к замороженному набору и передать ему набор новых стоп-слов.Метод union
вернет новый набор, содержащий недавно добавленные стоп-слова, как показано ниже.
Следующий скрипт добавляет лайков
и play
в список стоп-слов в Gensim:
из gensim.parsing.preprocessing import STOPWORDS
all_stopwords_gensim = STOPWORDS.union (set (['нравится', 'играть']))
text = "Ник любит играть в футбол, но не очень любит теннис."
text_tokens = word_tokenize (текст)
tokens_without_sw = [слово в слово в text_tokens, если не слово в all_stopwords_gensim]
печать (tokens_without_sw)
Выход:
['Ник', 'футбол', ',', 'любящий', 'теннис', '.']
Из вышеприведенного вывода видно, что слова , такие как
и play
, были обработаны как стоп-слова и, следовательно, были удалены из входного предложения.
Удаление стоп-слов из списка стоп-слов Gensim по умолчанию
Чтобы удалить стоп-слова из списка стоп-слов Gensim, вы должны вызвать метод difference ()
для объекта замороженного набора, который содержит список стоп-слов. Вам необходимо передать набор стоп-слов, которые вы хотите удалить из замороженного набора, методу difference ()
.Метод difference ()
возвращает набор, который содержит все стоп-слова , кроме , переданных методу difference ()
.
Следующий скрипт удаляет слово , а не
из набора стоп-слов в Gensim:
из gensim.parsing.preprocessing import STOPWORDS
all_stopwords_gensim = СЛОВА
sw_list = {"не"}
all_stopwords_gensim = STOPWORDS.difference (sw_list)
text = "Ник любит играть в футбол, но не очень любит теннис."
text_tokens = word_tokenize (текст)
tokens_without_sw = [слово в слово в text_tokens, если не слово в all_stopwords_gensim]
печать (tokens_without_sw)
Выход:
['Ник', 'нравится', 'играть', 'футбол', ',', 'не', 'любить', 'теннис', '.']
Поскольку слово , а не
теперь удалено из набора стоп-слов, вы можете видеть, что оно не было удалено из входного предложения после удаления стоп-слова.
Использование библиотеки SpaCy
Библиотека SpaCy в Python — еще один чрезвычайно полезный язык для обработки естественного языка в Python.
Чтобы установить SpaCy, вы должны выполнить следующий скрипт на своем командном терминале:
$ pip install -U spacy
После загрузки библиотеки вам также необходимо загрузить языковую модель. В SpaCy существует несколько моделей для разных языков. Мы будем устанавливать англоязычную модель. Выполните в своем терминале следующую команду:
$ python -m spacy загрузить ru
После загрузки языковой модели вы можете удалить стоп-слова из текста с помощью SpaCy.Посмотрите на следующий сценарий:
импорт просторный
sp = spacy.load ('en_core_web_sm')
all_stopwords = sp.Defaults.stop_words
text = "Ник любит играть в футбол, но не очень любит теннис."
text_tokens = word_tokenize (текст)
tokens_without_sw = [слово в слово в text_tokens, если не слово в all_stopwords]
печать (tokens_without_sw)
В приведенном выше сценарии мы сначала загружаем языковую модель и сохраняем ее в переменной sp
. sp.Default.stop_words
— это набор стоп-слов по умолчанию для модели английского языка в SpaCy.Затем мы просто перебираем каждое слово во входном тексте, и если слово существует в наборе стоп-слов языковой модели SpaCy, слово удаляется.
Вот результат:
Выход:
['Ник', 'лайки', 'играть', 'футбол', ',', 'любить', 'теннис', '.']
Добавление и удаление стоп-слов в списке стоп-слов SpaCy по умолчанию
Как и другие библиотеки NLP, вы также можете добавлять или удалять стоп-слова из списка стоп-слов по умолчанию в Spacy.Но перед этим мы увидим список всех существующих стоп-слов в SpaCy.
печать (len (all_stopwords))
печать (all_stopwords)
Выход:
326
{'откуда', 'здесь', 'показать', 'были', 'почему', 'нет', 'то', 'после чего', 'не', 'больше', 'как', 'восемь' , 'действительно', 'я', 'только', 'через', 'девять', 'ре', 'себя', 'почти', 'до', 'уже', 'спереди', 'минимум', ' становится ',' тем самым ',' делаю ',' она ',' вместе ',' быть ',' часто ',' тогда ',' довольно ',' меньше ',' много ',' они ',' мы ' , 'take', 'its', 'yours', 'each', 'would', 'may', а именно ',' do ',' who ',' ли ',' сторона ',' оба ',' what ',' между ',' в сторону ',' наш ',' посредством чего ', "m",' ранее ',' я ',' имел ',' действительно ',' call ',' keep ', "' re ", 'после этого', 'can', 'их', 'одиннадцать', 'm', 'даже', 'около', 'двадцать', 'в основном', 'сделал', 'в', 'и ',' кажется ',' серьезным ',' против ', "нет",' кроме ',' имеет ',' пять ',' он ',' последний ',' 'ве', 'потому что', ' мы ',' сам ',' еще ',' что-то ',' как-то ',' м ',' навстречу ',' его ',' шесть ',' где угодно ',' нас ',' д ',' через ',' таким образом ',' который ',' все ',' стать ',' здесь ',' один ',' в ',' хотя ',' когда-нибудь ',' давать ',' не могу ',' кроме ' , 'через', 'никто', 'когда-либо', 'это', 'ове r ',' среди ',' во время ',' однако ',' когда ',' иногда ',' еще ',' казалось ',' получить ', "ве",' его ',' с ',' часть ',' за пределами ',' все ',' тот же ',' этот ',' недавно ',' нет ',' в отношении ',' в другом месте ',' другие ',' кроме того ',' еще ',' назад ', «один», «где-то», «есть», «будет», «заранее», «десять», «очень», «большинство», «три», «бывший», «ре», «иначе», « несколько ',' также ',' что угодно ',' есть ',' становлюсь ',' рядом ',' s ',' ничто ',' некоторые ',' с ',' оттуда ',' так или иначе ',' вне ',' вверх, 'хорошо', 'оно', 'различное', 'четыре', 'верх', '' s ',' чем ',' под ',' мог бы ',' мог ',' по ' , 'too', 'and', 'who', '' ll ',' say ',' поэтому ', "s",' other ',' во всем ',' стал ',' your ',' put ' , 'per', '' ll ',' пятнадцать ',' must ',' before ',' when ',' any ',' без ',' does ',' was ',' where ',' after after ', «d», «другой», «сами», «n't», «видеть», «идти», «куда угодно», «просто», «кажущийся», «отсюда», «полный», «после этого» , 'дно', 'целое', 'собственное', 'пусто', 'причитающееся', 'позади', 'пока', 'на', 'при этом', 'выключено', 'снова', 'а', ' два ',' абов е ',' там ',' шестьдесят ',' те ',' тогда как ',' использующий ',' последний ',' использовал ',' мой ',' сама ',' ее 'или', 'ни один' , 'сорок', 'после', 'сейчас', 'после', 'себя', 'куда', 'скорее', 'однажды', 'от', 'до', 'что угодно', 'несколько', ' в ',' такой ',' быть ',' сделать ',' мой ',' пожалуйста ',' вдоль ',' сотню ',' следует ',' ниже ',' третий ',' если ',' на ' , «возможно», «наш», «но», «никогда», «кто угодно», «пятьдесят», «любой», «все», «никто», «там», «иметь», «так или иначе», из ',' казаться ',' вниз ',' есть ',' каждый ',' 'будет', 'много', 'ни один', 'дальше', 'я', 'кто', 'тем не менее', 'около ',' везде ',' имя ',' достаточно ',' 'd', 'следующий', 'пока', 'хотя', 'через', 'на', 'первый', 'был', 'настоящим' , 'если', 'двигаться', 'так', 'либо', 'среди', 'для', 'двенадцать', 'ни', 'она', 'всегда', 'эти', 'как', ' 've', 'amount', 're', 'кто-то', 'потом', 'ты', 'нигде', 'сам', 'готово', 'в дальнейшем', 'внутри', 'сделано', ' ca ',' они '}
Выходные данные показывают, что в списке стоп-слов по умолчанию в библиотеке SpaCy содержится 326 стоп-слов.
Добавление стоп-слов в список стоп-слов SpaCy по умолчанию
Список стоп-слов SpaCy в основном представляет собой набор строк. Вы можете добавить новое слово в набор, как если бы вы добавляли любой новый элемент в набор.
Посмотрите на следующий скрипт, в котором мы добавляем слово tennis
к существующему списку стоп-слов в Spacy:
импорт просторный
sp = spacy.load ('en_core_web_sm')
all_stopwords = sp.Defaults.stop_words
all_stopwords.add ("теннис")
text = "Ник любит играть в футбол, но не очень любит теннис."
text_tokens = word_tokenize (текст)
tokens_without_sw = [слово в слово в text_tokens, если не слово в all_stopwords]
печать (tokens_without_sw)
Выход:
['Ник', 'лайки', 'играть', 'футбол', ',', 'любить', '.']
Выходные данные показывают, что слово теннис
было удалено из входного предложения.
Вы также можете добавить несколько слов в список стоп-слов в SpaCy, как показано ниже. Следующий скрипт добавляет лайков
и теннис
в список стоп-слов в SpaCy:
импорт просторный
sp = простор.загрузка ('en_core_web_sm')
all_stopwords = sp.Defaults.stop_words
all_stopwords | = {"любит", "теннис",}
text = "Ник любит играть в футбол, но не очень любит теннис."
text_tokens = word_tokenize (текст)
tokens_without_sw = [слово в слово в text_tokens, если не слово в all_stopwords]
печать (tokens_without_sw)
Выход:
['Ник', 'играть', 'футбол', ',', 'любить', '.']
Вывод показывает, что слова любит
и теннис
оба были удалены из входного предложения.
Удаление стоп-слов из списка стоп-слов SpaCy по умолчанию
Чтобы удалить слово из набора стоп-слов в SpaCy, вы можете передать слово для удаления методу remove
набора.
Следующий скрипт удаляет слово , а не
из набора стоп-слов в SpaCy:
импорт просторный
sp = spacy.load ('en_core_web_sm')
all_stopwords = sp.Defaults.stop_words
all_stopwords.remove ('не')
text = "Ник любит играть в футбол, но не очень любит теннис."
text_tokens = word_tokenize (текст)
tokens_without_sw = [слово в слово в text_tokens, если не слово в all_stopwords]
печать (tokens_without_sw)
Выход:
['Ник', 'играть', 'футбол', ',', 'не', 'любить', '.']
В выходных данных вы можете видеть, что слово , а не
не было удалено из входного предложения.
Использование специального сценария для удаления стоп-слов
В предыдущем разделе вы видели разные способы использования различных библиотек для удаления стоп-слов из строки в Python.Если вам нужен полный контроль над удалением стоп-слов, вы можете написать свой собственный скрипт для удаления стоп-слов из вашей строки.
Первым шагом в этом отношении является определение списка слов, которые вы хотите рассматривать как стоп-слова. Создадим список из наиболее часто используемых стоп-слов:
my_stopwords = ['я', 'я', 'мой', 'я', 'мы', 'наш', 'наш', 'мы', 'ты', "ты", "ты" ve "," вы "," вы бы ", 'ваш', 'ваш', 'себя', 'себя', 'он', 'его', 'его', 'он', 'она' , «она», «ее», «ее», «она», «это», «это», «ее», «сама», «они», «они», «их», «их», « сами ',' что ',' что ',' кто ',' кто ',' этот ',' тот ',' тот ',' эти ',' те ',' есть ',' есть ',' есть ',' был ',' был ',' быть ',' был ',' быть ',' иметь ',' иметь ',' имел ',' иметь ',' делать ',' делает ',' сделал ' , 'делание', 'а', 'ан', 'то', 'и', 'но', 'если', 'или', 'потому что', 'как', 'до', 'пока', ' of ',' at ',' by ',' for ',' with ',' about ',' против ',' between ',' into ',' through ',' во время ',' до ',' после ' , 'вверху', 'внизу', 'в', 'от', 'вверх', 'вниз', 'внутрь', 'вне', 'вкл', 'выкл', 'над', 'под', ' снова ',' далее ',' затем ',' один раз ',' здесь ',' там ',' когда ',' где ',' почему ',' как ',' все ',' любой ',' оба ' , «каждый», «несколько», «больше», «большинство», «другие», «некоторые», «такие», «нет», «ни», «не», «только», «о wn ',' same ',' so ',' than ',' too ',' very ',' s ',' t ',' can ',' will ',' just ',' не надо ', "не надо" t ", 'должен'," должен был ", 'сейчас', 'd', 'll', 'm', 'o', 're', 've', 'y', 'ain', ' aren ', "не",' couldn ', "could",' didn ', "not",' doesn ', "not",' hadn ', "hadn't",' hasn ', «не имеет», «haven», «не», «isn», «не», «ma», «mightn», «could not», «mustn», «mustn» t ", 'needn'," needn ", 'shan'," shan't ", 'shouldn'," should not ", 'wasn'," not ", 'weren'," weren " t ", 'выиграл'," не будет ", 'не стал бы," не стал бы "]
Далее мы определим функцию, которая будет принимать строку в качестве параметра и возвращать предложение без стоп-слов:
def remove_mystopwords (предложение):
жетоны = предложение.расколоть(" ")
tokens_filtered = [слово в слово в text_tokens, если не слово в my_stopwords]
return ("") .join (tokens_filtered)
Давайте теперь попробуем удалить стоп-слова из образца предложения:
text = "Ник любит играть в футбол, но не очень любит теннис."
filter_text = remove_mystopwords (текст)
печать (отфильтрованный_текст)
Выход:
Ник любит играть, но любит теннис.
Вы можете видеть, что стоп-слова, существующие в списке my_stopwords
, были удалены из входного предложения.
Поскольку список my_stopwords
представляет собой простой список строк, вы можете добавлять в него слова или удалять их. Например, добавим слово футбол
в список my_stopwords
и снова удалим стоп-слова из входного предложения:
text = "Ник любит играть в футбол, но не очень любит теннис."
filter_text = remove_mystopwords (текст)
печать (отфильтрованный_текст)
Выход:
Ник любит играть, но любит теннис.
Выходные данные теперь показывают, что слово футбол
также удалено из входного предложения, поскольку мы добавили это слово в список наших пользовательских стоп-слов.
Давайте теперь удалим слово футбол
из списка стоп-слов и снова применим удаление стоп-слова к нашему входному предложению:
my_stopwords.remove ("футбол")
text = "Ник любит играть в футбол, но не очень любит теннис."
filter_text = remove_mystopwords (текст)
печать (отфильтрованный_текст)
Выход:
Ник любит играть в футбол, но любит теннис.
Слово футбол
не было удалено, так как мы удалили его из нашего списка стоп-слов.
Заключение
В этой статье вы видели различные библиотеки, которые можно использовать для удаления стоп-слов из строки в Python. Вы также увидели, как добавлять или удалять стоп-слова из списков стоп-слов по умолчанию, предоставляемых различными библиотеками. В конце мы показали, как это можно сделать, если у вас есть собственный скрипт для удаления стоп-слов.
Руководств по программированию на Python
Стоп-слова с НЛТК
Идея обработки естественного языка заключается в выполнении некоторой формы анализа или обработки, при которой машина может понять, по крайней мере, на некотором уровне, что текст означает, говорит или подразумевает.
Это, очевидно, серьезная задача, но есть шаги для ее решения, которым может следовать каждый. Однако основная идея заключается в том, что компьютеры просто не понимают и никогда не будут понимать слова напрямую. Люди тоже не * шокируют *. У людей память расщепляется в мозгу на электрические сигналы в виде нейронных групп, которые запускаются по шаблонам. Многое о мозге остается неизвестным, но чем больше мы разбиваем человеческий мозг на базовые элементы, тем больше выясняем, что элементы на самом деле являются базовыми.Что ж, оказывается, компьютеры хранят информацию очень похожим образом! Нам нужен способ максимально приблизиться к этому, если мы собираемся имитировать то, как люди читают и понимают текст. Как правило, компьютеры используют числа для всего, но мы часто видим непосредственно в программировании, где мы используем двоичные сигналы (Истина или Ложь, которые напрямую переводятся в 1 или 0, что напрямую связано с наличием электрического сигнала (Истина, 1), или нет (Ложь, 0)). Для этого нам нужен способ преобразования слов в значения, числа или шаблоны сигналов.Процесс преобразования данных во что-то, что может понять компьютер, называется «предварительной обработкой». Одна из основных форм предварительной обработки — отфильтровывать бесполезные данные. При обработке естественного языка бесполезные слова (данные) называются стоп-словами.
Сразу мы можем признать, что некоторые слова несут больше значения, чем другие слова. Мы также можем видеть, что некоторые слова просто бесполезны и являются словами-заполнителями. Мы используем их в английском языке, например, чтобы как бы «взбить» предложение, чтобы оно не звучало так странно.Примером одного из самых распространенных, неофициальных, бесполезных слов является фраза «ммм». Люди часто набивают «ммм», некоторые чаще, чем другие. Это слово ничего не значит, если, конечно, мы не ищем кого-то, кто, возможно, испытывает недостаток уверенности, смущен или мало практиковался в разговоре. Мы все делаем это, вы можете слышать, как я говорю «ммм» или «ммм» в видео много … ммм … раз. Для большей части анализа эти слова бесполезны.
Мы бы не хотели, чтобы эти слова занимали место в нашей базе данных или драгоценное время обработки.Таким образом, мы называем эти слова «стоп-словами», потому что они бесполезны, и мы не хотим с ними ничего делать. Другая версия термина «стоп-слова» может быть более буквальной: слова, на которых мы останавливаемся.
Например, вы можете захотеть полностью прекратить анализ, если вы обнаружите слова, которые обычно используются саркастически, и немедленно прекратить его. Саркастические слова или фразы будут меняться в зависимости от лексики и корпуса. На данный момент мы будем рассматривать стоп-слова как слова, которые просто не имеют значения, и мы хотим их удалить.
Вы можете легко это сделать, сохранив список слов, которые вы считаете стоп-словами. NLTK начинает вас с набора слов, которые они считают стоп-словами, вы можете получить к нему доступ через корпус NLTK с помощью:
из nltk.corpus импорт стоп-слов
Вот список:
>>> set (stopwords.words (‘english’))
{‘себя’, ‘ее’, ‘между’, ‘себя’, ‘но’, ‘снова’, ‘там’, ‘примерно’, ‘один раз ‘,’ во время ‘,’ вне ‘,’ очень ‘,’ имея ‘,’ с ‘,’ они ‘,’ владеть ‘,’ ан ‘,’ быть ‘,’ некоторые ‘,’ для ‘,’ делать ‘, ‘свой’, ‘твой’, ‘такой’, ‘в’, ‘из’, ‘большинство’, ‘сам’, ‘другой’, ‘выкл’, ‘есть’, ‘s’, ‘am’, ‘или ‘,’ кто ‘,’ как ‘,’ от ‘,’ он ‘,’ каждый ‘,’ тот ‘,’ себя ‘,’ до ‘,’ ниже ‘,’ есть ‘,’ мы ‘,’ эти ‘, ‘ваш’, ‘его’, ‘через’, ‘не’, ‘ни’, ‘я’, ‘был’, ‘она’, ‘больше’, ‘сам’, ‘это’, ‘вниз’, ‘должен ‘,’ наш ‘,’ их ‘,’ пока ‘,’ выше ‘,’ оба ‘,’ вверх ‘,’ к ‘,’ наш ‘,’ имел ‘,’ она ‘,’ все ‘,’ нет ‘, ‘when’, ‘at’, ‘any’, ‘before’, ‘them’, ‘same’, ‘and’, ‘been’, ‘have’, ‘in’, ‘will’, ‘on’, ‘делает ‘,’ сами ‘,’ то ‘,’ то ‘,’ потому что ‘,’ что ‘,’ сверх ‘,’ почему ‘,’ так ‘,’ может ‘,’ сделал ‘,’ не ‘,’ сейчас ‘, ‘под’, ‘он’, ‘ты’, ‘сама’, ‘имеет’, ‘просто’, ‘где’, ‘тоже’, ‘только’, ‘я’, ‘который’, ‘те’, ‘я ‘,’ после ‘,’ несколько ‘,’ кого ‘,’ т ‘,’ быть ‘,’ если ‘,’ их ‘,’ мой ‘,’ против ‘,’ а ‘,’ по ‘,’ делаю ‘, ‘ это ‘,’ как ‘,’ дальше ‘,’ было ‘,’ здесь ‘,’ чем ‘}
Вот как вы можете включить использование набора stop_words для удаления стоп-слов из текста:
из нлтк.корпус импортных игнорируемых слов из nltk.tokenize import word_tokenize example_sent = "Это образец предложения, демонстрирующий фильтрацию стоп-слов." stop_words = set (stopwords.words ('английский')) word_tokens = word_tokenize (example_sent) filter_sentence = [w вместо w в word_tokens, если не w в stop_words] filter_sentence = [] для w в word_tokens: если w не в stop_words: filter_sentence.append (ш) печать (word_tokens) печать (отфильтрованное_предложение)
Наш вывод здесь:
['This', 'is', 'a', 'sample', 'offer', ',', 'display', 'off', 'the', 'stop', 'words ',' фильтрация ','.']
[' Это ',' образец ',' предложение ',', ',' показ ',' стоп ',' слова ',' фильтрация ','. ']
Наша база данных благодарит нас. Другой формой предварительной обработки данных является «стемминг», о чем мы и поговорим дальше.
Существует 1 викторин / вопросов для этого руководства. Зарегистрируйтесь до + = 1 , чтобы получить доступ к ним, загрузке видео и без рекламы.
Следующий урок: Создание слов с помощью NLTK
Стоп-слова Google: стоит ли их удалять для SEO?
В выпуске серии Mediavine SEO на этой неделе мы просим вас на несколько минут прекратить то, что вы делаете, и подумать о нескольких сотнях слов о стоп-словах.
Ужасно несмешные вступления, что это вообще значит?
Что такое стоп-слова?
В компьютерном алгоритме стоп-слова — это слова, которые вы удаляете перед отправкой текста на обработку. Общие слова, такие как: a , an , the, what .
Идея, лежащая в основе концепции стоп-слов, заключается в том, что это не ключевые слова и не предоставляют полезную информацию или контекст для поисковых систем.
Как и в повседневной речи, эти стоп-слова популярны в Интернете — они составляют примерно 25% содержимого Интернета.
Отфильтровывая их, Google может сократить размер Интернета на четверть. Как они это делают и что это меняет?
Как Google фильтрует стоп-слова
Если вы хотите увидеть стоп-слова в действии, не ищите ничего, кроме строки поиска Google.
Примечание. Как мы обсуждали в нашем сообщении об исследовании ключевых слов, не забудьте перейти в инкогнито перед просмотром, чтобы увидеть результаты, как это делает обычная публика.
Воспользуйтесь моим популярным, восхитительным примером SEO и Google рецептом чизкейка.Но вместо того, чтобы просто набирать «рецепт чизкейка», добавьте впереди букву «а».
Эта буква «а» не меняет смысла или намерений пользователя при поиске, поскольку читатель в любом случае ищет особый рецепт чизкейка.
Вы увидите почти идентичные результаты поиска, потому что, по всей вероятности, Google отфильтровал «а» и вернул те же результаты.
Все это имеет смысл, но что касается ведения блогов и того, что такое SEO с вашей точки зрения, стоит ли вам беспокоиться о стоп-словах?
Стоп-слова и SEO
Если вы связаны с сообществом SEO или знакомы с такими инструментами SEO, как Yoast, возможно, вы уже читали о стоп-словах раньше.
Например, Yoast использовался для автоматического удаления стоп-слов из ярлыков отдельных сообщений или постоянных ссылок на определенных страницах.
Общий совет сообщества SEO — удалить стоп-слова в важных областях страницы с ограниченным пространством.
Например, в таких областях, как заголовок страницы, мета-описание и URL-адрес, вы ограничены в том, сколько Google будет проиндексировать для каждой из них.
Возьмем, к примеру, заголовок страницы. Google обычно отображает только 50-60 символов, поэтому рекомендуется, чтобы ваши ключевые слова появлялись в первых 50-60 символах или, что еще лучше, чтобы ограничить полное название такой длиной.
Вы можете сказать, куда мы идем с этим; 50-60 символов — это немного, и многие заголовки содержат стоп-слова.
Удаление стоп-слов освобождает больше места для ключевых слов и / или дает возможность улучшить плотность ключевых слов на вашей странице, заметность и соответствие вашей ключевой фразе.
Это также помогает улучшить вашу близость ключевых слов, что дает вам еще больший выигрыш.
(Подробнее об этих причудливых терминах SEO позже.)
Та же самая логика применяется к метаописаниям и URL-адресам, где Google индексирует только определенный объем текста.Вы с умом используете свой текст?
Вы хотите, чтобы ключевые слова индексации Google в этой ограниченной, ценной недвижимости или стоп-слова все равно будут отфильтрованы?
Список можно продолжить. Отдельные заголовки, подзаголовки и даже сам текст вашей статьи — помните, мы говорим о 25% всех слов — можно было бы изучить таким образом, если вы действительно погрузитесь в него.
Вопрос в том, стоит ли оно того, и мой ответ аналогичен множеству советов, которые вы прочитаете в блоге Mediavine:
Не подчеркивайте .
Следует ли исключать стоп-слова из заголовков страниц, метаописаний, URL-адресов и сообщений?
Когда я говорю «не нервничаю», я не имею в виду, что все равно. Просто в основном.
Не зацикливайтесь на стоп-словах за счет более важных факторов SEO, таких как внутренние ссылки и заголовки страниц (подробнее об этом чуть позже), не говоря уже о том, что вы тратите время на создание контента.
Тем не менее, есть некоторая законность в том, чтобы держать вещи короткими и чистыми.
Вы заметите, что мы делаем URL-адреса короткими (см. Эту самую страницу), удаляем даже стоп-слова и большинство других слов.URL-адреса не обязательно должны быть грамматически правильными, они должны быть настолько эффективными и краткими, насколько вы можете их составить.
Я дам стоп-слова полиции. Однако эта философия неприменима к вашему сообщению и заголовку, который всегда должен быть грамматически правильным и понятным как для Google, так и для ваших читателей.
Не жертвуйте удобочитаемостью ради теоретической поисковой оптимизации
Я бы сказал, что для любого сайта удобочитаемость и хорошо написанный контент важнее, чем советы экспертов по SEO.
Например, когда дело доходит до заголовка страницы, удаление стоп-слов, скорее всего, доставит больше хлопот, чем пользы.
Заголовок вашей страницы — это САМЫЙ важный аспект SEO на странице, который у вас есть, как с точки зрения рейтинга в поиске, так и с точки зрения первого впечатления потенциальных пользователей о вашем сайте и его содержании на странице результатов.
Подумайте об этом так: пользователи не будут хорошо реагировать на результаты поиска, содержащие бессвязные английские фрагменты, которые вы собрали вместе, чтобы удалить стоп-слова.Не могли бы вы?
Алгоритмы Google мощны, как и ваша человеческая аудитория, которая будет определять ваш рейтинг кликов и, следовательно, ваш трафик на основе этого важного первого впечатления.
Кроме того, переборщение с удалением стоп-слов потенциально может повредить SEO само по себе.
Google теперь понимает стоп-слова в контексте!
Постойте, а как насчет моего примера вверху поста ?!
Технологии Google постоянно совершенствуются, и одним из многих примеров этого является «Обработка естественного языка»,
Короче говоря, компьютеры теперь могут читать и анализировать текст, чтобы понимать язык, а не просто разбирать ключевые слова.
Когда Google анонсировал свое недавнее обновление, BERT, он сделал это с подробным анализом запроса с использованием стоп-слов.
Пример «Путешественнику из Бразилии в США в 2019 году нужна виза» указано, что «в» было ключевым компонентом этой фразы.
Им нужно было знать направление, и они его получили.
«Кому» — это классическое стоп-слово, но если вы удалите его из заголовка страницы и публикации при использовании ключевого слова focus, вы законно снизите свои шансы на ранжирование этого контента.
Вот почему мы рекомендуем, чтобы если стоп-слова были полезны вашему читателю, Google, вероятно, это выяснит.
С точки зрения создателя контента, предоставьте читателю — и роботам — решать, удалять их или нет.
Общие стоп-слова
Мы составили инфографику общих стоп-слов. Это ни в коем случае не исчерпывающий список, и, опять же, не о чем беспокоиться.
Источник: Список стоп-слов от ShoutMeLoud
Не пропустите нашу следующую публикацию из этой серии о известности ключевых слов или наш большой список ресурсов SEO, если хотите узнать больше.
стоп-слов | Толпа
Стоп-слова
Стоп-слова — это слова, которые поисковые системы не принимают во внимание, потому что они очень распространены. Они могут быть вашим лучшим другом или злейшим врагом, поэтому давайте посмотрим, как их эффективно использовать. Вот список стоп-слов.
Опасности: стоп-слова в заголовках
Поскольку заголовки представляют собой короткие фразы, забивание их стоп-словами отвлекает от того, что вы пытаетесь сказать.
Плохо: Вместо того, чтобы беспокоиться о плотности ключевых слов, сосредоточьтесь на содержании
Лучше: Контент превосходит плотность ключевых слов
Плохо: Ей очень понравится наш новый экологичный лак для ногтей
Лучше: Новинка! Экологичный лак для ногтей по названию компании
В первом примере я удалил все стоп-слова, потому что мог легко это сделать.Во втором примере заголовок лучше всего звучал с некоторыми стоп-словами, поэтому я оставил некоторые из них. Однако в обоих случаях я удалил все ненужные стоп-слова .
Преимущества: стоп-слова в предложениях
В отличие от заголовков, ваши предложения не ограничиваются несколькими словами, поэтому вы можете использовать стоп-слова, не беспокоясь о том, что они отвлекут от ваших ключевых слов .
Конечно, вы все равно должны вырезать все ненужные слова, но стоп-слова не всегда нужны.Фактически, стоп-слова могут помочь вам включить ваши ключевые слова.
В статье «Естественная интеграция ключевых слов» я привел пример разбиения неудобной ключевой фразы стоп-словом.
2024 © Все права защищены.
Добавить комментарий