Новые технологии поиска могут определить важные документы, не полагаясь на ссылки

Новые технологии поиска могут определить важные документы, не полагаясь на ссылки

В большинстве случаев поисковые совокупности ищут подсказки о важности документов либо информации по заданному комплекту главных слов. Так трудится узнаваемый метод Гугл PageRank.

Сейчас исследователи создали метод, при котором информации и важность документа в сети и архивах определяется по тексту, хранящемуся в этих документах. Данный способ не принимает к сведенью тэги, цитаты и ссылки, каковые в большинстве случаев отмечаются пользователями в текстах на просторах интернета. Такая совокупность может стать лучшим вариантом для онлайн-поиска и разрешит машинально собирать данные по определенной теме, уверены специалисты.

В программном обеспечении, разрабатываемом в Принстонском университете, на протяжении поиска за базу берется анализ сборника научных работ либо множество сообщений в определенных блогах. ПО трудится следующим образом: оно разбирает текст в документах, а после этого определяет важнейшие слова и фразы по отдельным категориям. Выбираются те, что значительно чаще появляются во многих разных источниках.

Метод срабатывает кроме того при, в то время, когда в коллекцию документов добавляются новые элементы.

Собственные методы исследователи удостоверились в надежности на примере трех больших архивов, содержащих тысячи журнальных статей. Они поняли, что документы, каковые ПО выяснило как ответственные, были и самый цитируемыми.

Но их способ кроме этого распознал новую изюминку. В некоторых случаях статьи, каковые не были цитируемыми, были выяснены как ответственные. Ученые поняли, что они именно и являлись теми, по которым велись дискуссии ранее. И, напротив, время от времени приложение пропускало статьи, считавшимися значимыми.

В этих обстоятельствах, разъясняют ученые, статьи являются важным ресурсом, но не воображают таковой важности по причине того, что не являются носителями новых идей.

Руководивший изучениями доктор наук Дэвид Блей (David Blei) говорит, что данный новый способ фиксирует разные степени важности, видя сам текст, идею и формулировку.

Изучение есть частью работы по созданию новых инструментов для изучения громадных коллекций документов — будь то архивы научного издания либо масса блогов и новостных статей. Блей уточняет, что, обучась хранить такое огромное количество информации, нужно обучиться и обнаружить во всем этом многообразии самый полезный контент.

Он додаёт, что основная задача исследователей содержится в том, дабы создать инструменты, каковые смогут советовать пользователю, как изучить данный количество информации. Способ, содержащий в собственной базе применение контента документа, а не ссылки либо цитаты, есть перспективным, уверен Блей.

Трансформации текстов журнальных статей ученые изучали в течении года. За блогами, каковые обновляются значительно стремительнее, при помощи этого способа возможно проследить в течение дней либо кроме того часов. По словам Блей, новый метод окажет помощь пользователям ориентироваться в огромной коллекции информации намного легче.

Процесс измерения потока информации для определения ее важности имеет громадной потенциал, — говорит Джур Лескович (Jure Leskovec), доцент кафедры информатики Стэнфордского университета. Приложение, он утвержает, что возможно применять для персонификации, при которой ПО сможет выявлять, какие конкретно статьи самые читаемые, и обнаружить статьи либо сайты с соответствующим материалом.

Лескович кроме этого трудится над измерениями важности информации. Он отслеживает, как высказывания путешествуют по интернету. Вместе с сотрудниками он разработал методы, каковые смогут угадать, как и где смогут показаться новые серьёзные сообщения.

Лескович говорит, что такая перспективность будет нужна для поиска в реальном времени, предоставляя поисковым совокупностям новый метод для более фильтрации и быстрой возможности классификации содержимого.

Источник: www.technologyreview.com
Перевод: Л.

5 КРУТЫХ ЛАЙФХАКОВ ВКОНТАКТЕ

Интересные записи:

Популярные статьи на сайте:

Читайте также: