Новые технологии поиска могут определить важные документы, не полагаясь на ссылки
В большинстве случаев поисковые совокупности ищут подсказки о важности документов либо информации по заданному комплекту главных слов. Так трудится узнаваемый метод Гугл PageRank.
Сейчас исследователи создали метод, при котором информации и важность документа в сети и архивах определяется по тексту, хранящемуся в этих документах. Данный способ не принимает к сведенью тэги, цитаты и ссылки, каковые в большинстве случаев отмечаются пользователями в текстах на просторах интернета. Такая совокупность может стать лучшим вариантом для онлайн-поиска и разрешит машинально собирать данные по определенной теме, уверены специалисты.
В программном обеспечении, разрабатываемом в Принстонском университете, на протяжении поиска за базу берется анализ сборника научных работ либо множество сообщений в определенных блогах. ПО трудится следующим образом: оно разбирает текст в документах, а после этого определяет важнейшие слова и фразы по отдельным категориям. Выбираются те, что значительно чаще появляются во многих разных источниках.
Метод срабатывает кроме того при, в то время, когда в коллекцию документов добавляются новые элементы.
Собственные методы исследователи удостоверились в надежности на примере трех больших архивов, содержащих тысячи журнальных статей. Они поняли, что документы, каковые ПО выяснило как ответственные, были и самый цитируемыми.
Но их способ кроме этого распознал новую изюминку. В некоторых случаях статьи, каковые не были цитируемыми, были выяснены как ответственные. Ученые поняли, что они именно и являлись теми, по которым велись дискуссии ранее. И, напротив, время от времени приложение пропускало статьи, считавшимися значимыми.
В этих обстоятельствах, разъясняют ученые, статьи являются важным ресурсом, но не воображают таковой важности по причине того, что не являются носителями новых идей.
Руководивший изучениями доктор наук Дэвид Блей (David Blei) говорит, что данный новый способ фиксирует разные степени важности, видя сам текст, идею и формулировку.
Изучение есть частью работы по созданию новых инструментов для изучения громадных коллекций документов — будь то архивы научного издания либо масса блогов и новостных статей. Блей уточняет, что, обучась хранить такое огромное количество информации, нужно обучиться и обнаружить во всем этом многообразии самый полезный контент.
Он додаёт, что основная задача исследователей содержится в том, дабы создать инструменты, каковые смогут советовать пользователю, как изучить данный количество информации. Способ, содержащий в собственной базе применение контента документа, а не ссылки либо цитаты, есть перспективным, уверен Блей.
Трансформации текстов журнальных статей ученые изучали в течении года. За блогами, каковые обновляются значительно стремительнее, при помощи этого способа возможно проследить в течение дней либо кроме того часов. По словам Блей, новый метод окажет помощь пользователям ориентироваться в огромной коллекции информации намного легче.
Процесс измерения потока информации для определения ее важности имеет громадной потенциал, — говорит Джур Лескович (Jure Leskovec), доцент кафедры информатики Стэнфордского университета. Приложение, он утвержает, что возможно применять для персонификации, при которой ПО сможет выявлять, какие конкретно статьи самые читаемые, и обнаружить статьи либо сайты с соответствующим материалом.
Лескович кроме этого трудится над измерениями важности информации. Он отслеживает, как высказывания путешествуют по интернету. Вместе с сотрудниками он разработал методы, каковые смогут угадать, как и где смогут показаться новые серьёзные сообщения.
Лескович говорит, что такая перспективность будет нужна для поиска в реальном времени, предоставляя поисковым совокупностям новый метод для более фильтрации и быстрой возможности классификации содержимого.
Источник: www.technologyreview.com
Перевод: Л.
5 КРУТЫХ ЛАЙФХАКОВ ВКОНТАКТЕ
Интересные записи:
- Новые углеродные солнечные батареи поглощают инфракрасный свет
- Новые ветряные турбины — энергия на низких скоростях
- Новый автомобиль toyota mirai, работающий на водороде
- Новый, более мощный вирус грозит пользователям mac
- Новый гель для душа для мытья без воды
Популярные статьи на сайте:
-
Презентация samsung galaxy s8 может открыть новые тренды рынка
25.11 Ожидаемая в последних числах Февраля в преддверие выставки MWC-2017 презентация Samsung Galaxy S8 может стать отправной точкой сходу для нескольких…
-
Шпионы могут прятать секретные сообщения в бактериях
Невидимые чернила? Тайное кольцо декодер? Лимонный сок? Это все детские игры если сравнивать с тем, что создали исследователи из университета Тафтса…
-
Изобретены оптические носители, которые могут хранить данные вечно
Простые квадратные стекла смогут стать ключом для решения проблемы хранения данных в течении многих лет. Созданная японской компанией Hitachi новая…
-
Технологии помогли найти и схватить бен ладена
События По мере того, как миссия по поимке Усамы бен Ладена обрастает все новыми подробностями, явным делается одно — сыграли определенную роль в…
-
Будущие интернет-пароли могут быть картой
Наровне с существующими хакерскими атаками высокого уровня, и вредоносными программными обеспечениями, классические пароли уже не смогут дать стоящий…
-
Основные способы интернет заработка
Интернет доходы неспешно, но с уверенностью получили особенную популярность среди определенного числа интернет пользователей. Совсем сравнительно не так…